Le forum du Master ESA économétrie et statistique appliquée - Université d'Orléans

Vous n'êtes pas identifié.

Annonce

Vous êtes sur le forum du master ESA !

Le site du master ESA - description de la formation, notes de cours, contacts... vient de déménager !!!

Venez visiter notre nouveau site : www.master-esa.fr

#1 16-05-2013 15:31:19

Oscar
Member
Date d'inscription: 27-12-2010
Messages: 117

Obtenir 5 millons d'observations

Bonjour,

Est-ce que quelqu'un connait un site d'internet soit:

-Pour générer des noms, prenoms, et des pays (mais pas seulement 5000)
-Un site d'internet ou on peut telecharger des enquetes avec cette informations
-Ou un autre moyen pour arriver à avoir 5 millons d'observations.

Merci,

Oscar

Hors ligne

 

#2 16-05-2013 17:28:54

esa_sr
Administrator
Date d'inscription: 21-02-2007
Messages: 5898
Site web

Re: Obtenir 5 millons d'observations

5 millions de triplets prénom / nom / pays tous différents ?

il faut une cohérence ? une représentativité par pays en fonction de la population ?

(il ne doit pas y avoir d'Oscar Dupont en Chine par exemple...)

pour faire rapidement, (sans avoir aucune envie de cohérence...), vous trouvez une base de noms de famille et une base de prénoms par exemple là : http://www.quietaffiliate.com/free-firs … sv-and-sql

vous en faites deux tables

vous trouvez une base avec une liste de pays, par exemple là : http://download.geonames.org/export/dum … ryInfo.txt
et vous en faites une troisième table

si vous ne gardez que 100 pays, 5 000 000 / 100 = 50000

vous ne gardez que 100 prénoms, 500 noms de familles

et vous faites un joli produit cartésien entre votre trois tables : 100 pays * 100 prénoms * 500 noms de familles = 5 000 000 de triplets différents

bon, vous aurez des oscar dupont dans tous les pays mais si ça n'a pas d'importance...

Hors ligne

 

#3 16-05-2013 22:58:11

Oscar
Member
Date d'inscription: 27-12-2010
Messages: 117

Re: Obtenir 5 millons d'observations

Pas grave, il ne fallait pas être si stricte que ça, c’était seulement pour avoir 5 millions d'individus pour faire
un test de temps-machine (même c'était 10 millons....). En tout cas, super vos liens et vos recomendations!

SAS et vraiment TROP puissant; dans la contruction d'un MACRO pour faire du DATACLEANING, il a fait tout le boulot
dans 1:30.34  (1 minute et 30 secondes...), avec 10,456,093 observations....

Sinon merci bcp Mr SR, je vais garder ces liens...

Hors ligne

 

#4 17-05-2013 16:40:02

esa_sr
Administrator
Date d'inscription: 21-02-2007
Messages: 5898
Site web

Re: Obtenir 5 millons d'observations

1 minute 30 , peuh...

je suis sûr qu'on peut faire plus rapide ;-)

et si vous ne souhaitez pas être "strict", vous pouvez alors vous amuser avec ce programme...

Code:

%macro oscar(var1=prenom,var2=nom,var3=pays,obs=1000000);
%let obss=%sysfunc(round(&obs**(1/3),1));

%do i=1 %to 3;

data temp&i(keep=&&var&i);
   length &&var&i $15;
   do i = 1 to &obss;
      max = int(ranuni(24494)*15 + 1);
      &&var&i='';
      do j = 1 to max;
         &&var&i = byte(int(65 + ranuni(223445)*26)) || &&var&i;
      end;
      output;
   end;
run;
%end;

proc sql;
   create table oscar as select temp1.*,temp2.*,temp3.* from temp1,temp2,temp3;
quit;

%mend;

%oscar;

on peut créer en une étape data vos 10 000 000 d'observations mais j'ai pensé que vous souhaiteriez peut être que les prénoms / noms et pays se répètent... donc trois tables de obs**(1/3) observations chacune et un beau produit cartésien ensuite...

amusante cette fonction BYTE, vous ne trouvez pas...

les triplets ne sont pas forcément uniques... on ne peut jamais savoir avec les tirages aléatoires...

donnez des seeds négatifs aux fonctions ranuni pour avoir une table différente à chaque fois.

a+

Hors ligne

 

#5 17-05-2013 22:41:50

Oscar
Member
Date d'inscription: 27-12-2010
Messages: 117

Re: Obtenir 5 millons d'observations

Pas mal....!
Oui, la fonction BYTE je l'avait rencontrer dans une autre application pendant mon
stage, et je trouve assez sympa pour générer des lettres aléatoires, et comme dans
ce cas la, des vars. caractères aléatoires.
Très intéressant votre Macro...
a+

Dernière modification par Oscar (17-05-2013 22:47:01)

Hors ligne

 

Pied de page des forums

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson

[ Generated in 0.017 seconds, 6 queries executed ]