Le forum du Master ESA économétrie et statistique appliquée - Université d'Orléans

Vous n'êtes pas identifié.

Annonce

Vous êtes sur le forum du master ESA !

Le site du master ESA - description de la formation, notes de cours, contacts... vient de déménager !!!

Venez visiter notre nouveau site : www.master-esa.fr

#1 31-03-2009 05:58:29

loulou
membre extérieur
Date d'inscription: 08-02-2009
Messages: 41

Stationnarisation

Bonjour,

Pour stationnariser une série chronologique nous pouvons prendre le logarithme de la série ou bien la différence première, mais comment choisir le bon outil?
J'ai pu voir dans certains manuel que par exemple pour la série de cac 40 on prend le logarithme et pour le prix des céréales on prend les différences premières.
Alors je souhaiterais savoir ce qui justifie ce choix s'il vous plait.

Hors ligne

 

#2 31-03-2009 12:03:23

esa_gc
Moderator
Date d'inscription: 21-02-2007
Messages: 421

Re: Stationnarisation

Vous voulez vraisemblablement dire que l'on prend soit la différence première de la série en niveau, soit la différence première de la série en log : le passage en log, par lui-même, ne stationarise rien du tout.
Donc l'idée est que la différence de deux log approxime un taux de rendement dans certaines conditions. Log(x(t))-log(x(t-1)) est peu différent de (x(t)-x(t-1))/x(t-1) lorsque cette dernière quantité est proche de zéro. Or, sur des séries financières le rendement est un objet souvant plus intéressant que la seule différence de prix. Donc, sur des séries de prix d'actifs financiers, ou d'indices il est courant de ravailler avec les différences de log. Lorsque le rendement ne présente pas un intérêt particulier, ou que la variation de prix est intéressante à étudier, alors on utilisera plutôt le passage en différence des niveaux pour supprimer une racine unitaire.
On peut aussi imaginer de faire référence à des tests pour savoir si le processus linéaire est plus adapté à la série en niveaux ou à la série en log(niveaux). Souvent ces tests sont non conclusifs....c'est pourquoi il est gébéralement préférable de justifier votre choix par le raissonement précédent (quitte à montrer que les tests ne rejettent pas votre représentation).

Hors ligne

 

#3 31-03-2009 20:32:42

loulou
membre extérieur
Date d'inscription: 08-02-2009
Messages: 41

Re: Stationnarisation

Merci beaucoup pour cette précision. Si j'ai bien compris si je prend le prix du pétrole, pour stationnariser la série, la différence première de la série en niveau semble plus adéquat.
J'ai également une interrogation sur le type de donnée s'il vous plait. Par exemple, en reprenant le prix du pétrole au jour le jour, comme certains jour sont exclus, le week-end, certains jours férié, est il important de tenir compte de ces données manquantes ou pas?

Hors ligne

 

#4 01-04-2009 12:06:06

esa_gc
Moderator
Date d'inscription: 21-02-2007
Messages: 421

Re: Stationnarisation

Votre question est intéressante. Pour la discuter, on va supposer que l'on dispose d'une série journalière obéissant à un AR(1).
Donc x(t) = psi x(t-1)+u(t), où u(t) est un bruit blanc et x(t) est observé 7 jors par semaine. Maintenant supposez que l'on créé la série y(t) en cachant les valeurs des samedis et dimanches de sorte que y(samedi)=y(dimanche)=valeur manquante, mais pour tous les autres jours, y(t)=x(t). On construit aussi une autre série z(t) qui fait l'impasse sur les jours de week-end de sorte que ses observations ne sont jamais manquantes, simplement on fait suivre l'observation du vendredi par la valeur du lundi. Pour illustration, regardez les quelques valeurs suivantes de trois séries x, y et z possibles (la première colonne indique des dates, dans le format year:month:day) :

                                X                         Y               Z
2009:02:20  -1.597012684299 -1.597012684299 -1.597012684299
2009:02:21  -0.964937084385       NA                -0.637735829193
2009:02:22  -0.265387266267       NA                -0.194507401433
2009:02:23  -0.637735829193 -0.637735829193  2.086553085401
2009:02:24  -0.194507401433 -0.194507401433  0.747302591307
2009:02:25   2.086553085401  2.086553085401  0.584193847798
2009:02:26   0.747302591307  0.747302591307  2.731168757547
2009:02:27   0.584193847798  0.584193847798  4.288848096884
2009:02:28   1.187805433538       NA                 3.524963791626
2009:03:01   1.942000163720       NA                 2.836941389695
2009:03:02   2.731168757547  2.731168757547  3.284726261194
2009:03:03   4.288848096884  4.288848096884  3.953733887717
2009:03:04   3.524963791626  3.524963791626  2.720259734208
2009:03:05   2.836941389695  2.836941389695  2.747062514307


Ainsi, le 21 février 2009 est un samedi. Si le marché avait été ouvert on aurait observé -0.964937084385. Mais le marché était fermé donc y est valeur manquante (vous pouvez concevoir x comme une variable latente). Comme le marché était aussi fermé le dimanche, y est encore valeur manquante. Pour z, la deuxième observation est simplement la réalisation de x du lundi (donc z n'est pas sur le même calendrier que y ou x qui sont sur 7 jours par semaine : z est sur 5 jours).

Maintenant, on a supposé que le vrai processus suivi par x est donc un AR(1). Si on a simulé la série x sur n observations en se donnant une valeur pour psi, on peut se poser la question de savoir si les estmations de psi, à partir de x, de y ou de z renseignent bien sur psi. Très logiquement on se dit que les séries x sont sûrement celles conduisant aux estimations les plus précises de la vraie valeur. Ensuite viennent les séries y : elles sont constituées de réalisations de l'AR(1) mais simplement contiennent des valeurs manquantes. Ensuite arrivent les séries z : sur 5 observations, on a bien des réalisations de l'AR(1), mais la cinquième décale. Par exemple z(mardi)=psi z(lundi)+u(mardi), mais z(lundi)=x(lundi)=psi x(dimanche) + u(lundi) = psi^2 x(samedi)+ psi u(dimanche) + u(lundi) = psi^3 x(vendredi) + psi^2 u(samedi) + psi u(dimanche)+u(lundi) = psi^3 z(vendredi) + psi^2 u(samedi) + psi u(dimanche)+u(lundi). En d'autres termes, pour 4 observations sur 5 on a z(t)=psi z(t-1) + u(t), et pour 1 toutes les 5 on a z(t) = psi^3 z(t-1) +  v(t) avec variance v(t) non égale à variance de u(t). Pour votre question, l'important est de remarquer que sur un cinquième des observations de z le coefficient de l'AR n'est pas psi. De ce fait les estimations doivent se dégrader.
Dans les tableaux ci-dessous j'illustre les propos précédents en considérant diverses valeurs de psi (0.05, 0.1, 0.2, 0.4, 0.6, 0.8, 0.9, 0.95), différentes tailles d'échantillon pour les séries simulées (n=50, n=100 ou n=500 points). Je vous indique sur la première ligne la valeur moyenne des psi estimés et sur la deuxième ligne l'erreur relative d'estimation.
Par exemple sur des séries de longueur 50, lorsque psi=0.40, la moyenne des 1000 psi estimés avec les séries de type x est de 0.35 (soit 11% 'erreur), avec les 1000 séries y on a une moyenne de 0.34 (erreur relative de 0.16). Avec z la moyenne est à 0.27 et l'erreur de 31%.

Donc : clairement il est important de tenir compte de ces données manquantes. Il est préférable de garder les valeurs manquantes pour les jours de fermeture....la contrainte étant qu'il faut un logiciel capable d'estimer les processus avec des séries contenant des valeurs manquantes (ou au moins capable de travailler avec une spécification de sample qui permet d'éliminer les observations du lundi dans la variable expliquée, mais les laisse comme explicatives pour celle du mardi). Pour un AR(1), le fait d'ignorer les manquantes (ici travailler avec z) a des conséquences qui dépendent de la taille du coefficient de l'AR : en termes d'erreur relative plus psi est élevé plus ces conséquences sont faibles. Ceci est logique. Je vous laisse montrer que si vous ètes en présence d'une marche au hasard (ie coef psi égal à l'unité), seul subsiste un problème de variance résiduelle (en clair dans les petites manipulations précédentes, si psi=1 alors psi^3=1 et le pb sur le coef disparaît). Je n'ai discuté ici que d'un biais sur l'estimation du coefficient. Clairement il y a aussi un problème d'hétéroscédasticité qui est aussi présent. Maintenant, je vous laisse réfléchir aux conséquences de tout cela sur votre propre problème.


bon courage

n=50

psi   cx   cy   cz
0.05 0.02 0.01 0.00
     0.55 0.81 0.97
0.10 0.07 0.06 0.04
     0.30 0.44 0.61
0.20 0.16 0.15 0.11
     0.18 0.25 0.43
0.40 0.35 0.34 0.27
     0.11 0.16 0.31
0.60 0.54 0.53 0.45
     0.09 0.12 0.25
0.80 0.73 0.72 0.66
     0.08 0.09 0.18
0.90 0.82 0.82 0.77
     0.08 0.09 0.15
0.95 0.87 0.86 0.82
     0.09 0.09 0.14
----------------------------------------------
n=100

psi   cx   cy   cz
0.05 0.04 0.03 0.02
     0.24 0.31 0.51
0.10 0.09 0.08 0.06
     0.13 0.17 0.37
0.20 0.18 0.18 0.14
     0.08 0.10 0.29
0.40 0.38 0.37 0.31
     0.05 0.07 0.24
0.60 0.57 0.57 0.49
     0.05 0.05 0.18
0.80 0.77 0.76 0.70
     0.04 0.05 0.13
0.90 0.86 0.86 0.82
     0.04 0.04 0.09
0.95 0.91 0.91 0.88
     0.04 0.04 0.08
----------------------------------------------
n=500

psi   cx   cy   cz
0.05 0.05 0.05 0.04
     0.04 0.07 0.27
0.10 0.10 0.10 0.08
     0.02 0.04 0.24
0.20 0.20 0.20 0.16
     0.01 0.02 0.21
0.40 0.40 0.39 0.33
     0.01 0.02 0.18
0.60 0.60 0.59 0.52
     0.01 0.01 0.14
0.80 0.79 0.79 0.74
     0.01 0.01 0.08
0.90 0.89 0.89 0.86
     0.01 0.01 0.05
0.95 0.94 0.94 0.92
     0.01 0.01 0.03

Dernière modification par esa_gc (02-04-2009 06:18:28)

Hors ligne

 

Pied de page des forums

Powered by PunBB
© Copyright 2002–2005 Rickard Andersson

[ Generated in 0.017 seconds, 8 queries executed ]