Vous n'êtes pas identifié.
Vous êtes sur le forum du master ESA !
Le site du master ESA - description de la formation, notes de cours, contacts... vient de déménager !!!
Venez visiter notre nouveau site : www.master-esa.fr
salut tout le monde
svp je veux savoir comment remédier à ce problème ,
merci
Hors ligne
Bonjour,
sas miner...
sinon une proc univariate,une proc means ou proc freq (selon la variable) et enfin une étape data (avec bcp d' "IF")...
Hors ligne
sspdiddy, enfin t'as mis un avatar, il est dangereux le tien, une forte concentration, un crayon sur l'oreil, et en +++++++++++++++++ SAS colé sur ton dos, c'est trop ça
Hors ligne
sspdiddy a écrit:
Bonjour,
sas miner...
sinon une proc univariate,une proc means ou proc freq (selon la variable) et enfin une étape data (avec bcp d' "IF")...
attendez là vous partez trop vite !!
mais c'est étape serrent à quoi !! faire une estimation ou quoi !!
je suis débutante ,allez doucement svp ,sinon vous ne connaissez pas une solution sous Eviews ou spss
merciiii
Hors ligne
en fait, il faudrait que vous donniez plus d'information parce que "j'ai des données manquantes", ça ne renseigne pas beaucoup.
commencez par nous dire de quelle nature sont vos données (série temp ? données individuelles ? panel ?)
a+
Hors ligne
ah bon je ne savais pas que chaque type de donnée avait une procédure particulière ,j'ai croisé pas mal de type base avec des donnée manquante ,je les est éviter (pour faire un exposé) parce que je ne sais pas résoudre ce problème ,en tout cas les données était en ligne individus et en colonne variable (quanti et quali)
mais si juste vous pouvez svp me donner une piste ,me citer quelque méthode pour les différents type de donnée et je vais essayer de chercher et de documenter toutes seule
j'attends avec impatience vos réponse ,merci
Dernière modification par samsamo (24-09-2010 17:32:36)
Hors ligne
Bonjour,
Donc tu as une table simple, observation en ligne et variables en colonnes; et du coup vous travaillez sur quel logiciel pour que je puisse t'aider plus?
Cordialement.
Hors ligne
google est votre ami :
faites une recherche avec "dealing with missing data"
ce lien me semble assez intéressant : http://www.uvm.edu/~dhowell/StatPages/M … ssing.html
amusez vous bien !
Hors ligne
Bon rapidement... pour les données manquantes:
si pour une variable elles sont en trop grand nombre la variable ne sert pas à grand chose (j'anticipe la question: je pense que +de 50% de la population de la base avec une valeur manquante pour la variable alors la variable doit être écartée)
sinon si la variable est continue, vous pouvez remplacer les valeurs manquantes par la médiane (ce qui est le plus couramment fait)
sinon vous pouvez découper votre variable continue en une variable qualitative et:
-soit mettre les valeurs manquantes dans une modalité à part
-soit les inclure dans la modalité de votre variable qualitative qui présente l'effectif le plus important.
Si votre variable avec valeurs manquantes est qualitative... les 2 points précédents s'applique également.
Au passage si des individus ont des valeurs manquantes pour TOUTES les variables susceptibles de vous intéresser alors vous pouvez prendre l'option de les supprimer...
Voilà je ne sais pas si je suis exhaustif ou si j'ai dit des aneries vu que ca fait un bail que j'ai pas pratiqué les valeurs manquantes mais bon si c'est le cas mes petits camarades me corrigeront enfin j'espère...
Hors ligne
les méthodes de remplacement des valeurs manquantes s'appellent imputation
prenez le Tufféry tout est expliqué
Hors ligne
bon je reviens à ce que j'ai dit
-Proc univariate:pour detecter entre autres les outliers,puis les supprimer et ensuite remplacer par la moyenne(car dans ce cas à priori elle n'est pas biaisée) ou bien par la médiane plus robuste que la moyenne avec les outliers.
-proc freq pour determiner la fréquence d'apparition la plus récurrente et remplacer par cette modalité (variable qualitative)
-une étape data,si val=. then val=moyenne,mediane (variables continues) ,ou si val=' ' then val=mode (variables quali)
Mais le mieux c'est SAS Miner...
variable continue
-mean
-median
-tree imputation (basé sur les arbres de decision car ces derniers sont robustes aux valeurs manquantes)
-distribution based (remplacement aleatoire à partir des données que vous avez sur la variable)
-ou faire une regression et remplacer
variable catégorielle
-mode
sous spss certaines des méthodes cités plus haut doivent être possible (mean,median,mode)
N.B:avec + de 30% de valeurs manquantes les choses deviennent compliquées pour vous
Dernière modification par sspdiddy (24-09-2010 14:19:35)
Hors ligne
merci à tout le monde pour les réponses c'est un peu plus clair maintenant
pour le logiciel je travail actuellement sous Eviews
une question!! quand j'utilise une des méthode pour résoudre le problème de donnée manquante ,est ce que tout les vides de ma bases seront remplacés et visuelles et je peux les emporter sur d'autre logiciel ,puisque je travail un peu sur spss ,xl-stat et Eviews ,donc je vais chercher lequel des logiciels me facilitera la tâche !!
et pour les séries temporelles ,comment faire ?(juste une idée parce que sans première idée j'ai toujours peur de rentrer dans un monde vaste et qui me parait au début compliqué)
et sspdiddy svp ,comment calculer le pourcentage de donnée manquante (le 30% d'où vient),et pour les outliers (valeurs aberrantes si j'ai bien comprie ) j'ai l'habitude en analyse des données (exemple acp) de les supprimer ,c'est ce que j'ai trouver sur net et même mon prof me l'a dit ,mais je trouve l'idée de les remplacés très intéressante surtout si la variable ou l'unité statistique sont importante , que ce que vous en dites !!
Hors ligne
le 30% c'est un pourcentage qu'on considère souvent en datamining,ce n'est pas une règle absolu mais en général au delà de 30% ,on risque une perte d'information...
Oui le remplacement peut booster votre modèle,s'agissant des regressions logistiques par exemple..Celà depend des méthodes que vous utilisez,par exemple pour les arbres de décisions vous pouvez vous en passez (ce qui n'est pas le cas de la logistique)..;Tout depend de la méthode que vous utilisez...
Pour le cas de l'acp sur les valeurs manquantes,je ne peux rien vous dire...car avec des bases contenant bcp d'individus ce n'est pas la méthode utilisée...(vous voyez pourquoi...)..du coup j'ai pas de connaissance sur l'impact des valeurs manquantes sur les méthodes comme l'acp..
Mais en général,mieux vaut remplir quand on peut...
Dernière modification par sspdiddy (26-09-2010 09:54:12)
Hors ligne
ok !!
et merci sspdiddy pour les explications
Hors ligne