Vous n'êtes pas identifié.
Vous êtes sur le forum du master ESA !
Le site du master ESA - description de la formation, notes de cours, contacts... vient de déménager !!!
Venez visiter notre nouveau site : www.master-esa.fr
Bonjour,
J'effectue actuellement une recherche basée sur la comparaison de corpus à l'aide de l'indice log-likelihood.
Malheureusement, mes corpus sont de tailles différente ce qui donne des valeurs très différentes de log-likelihood
en fonction de la taille du corpus.
Pourriez-vous m'indiquer s'il existe un moyen de standardiser les valeurs de log likelihood afin que je puisse
comparer un petit corpus avec un grand?
Merci
Hors ligne
Et pourquoi ne pas comparer les log vraisemblances moyennes ?
Dernière modification par esa_gc (07-05-2009 14:31:18)
Hors ligne
En fait, je fais une analyse de collocation. En d'autres termes, à partir d'un mot clé, j'obtiens
une liste de mots qui sont fréquemment utilisés avec ce dernier. Chaque mot possède donc un
log-likelihood qui, s'il est élevé, signifie que le mot est souvent utilisé avec le mot clé.
Par exemple, je cherche à partir d'un corpus les collocations du mot "pomme". J'obtiendrai une
liste avec "verte", mot pour lequel il y aura vraisemblablement une valeur élevée du log-l.
Ce que je cherche à comparer c'est la fréquence d'un mot par rapport au mot clé dans plusieurs corpus.
Donc pouvoir comparer si le mot "verte" est plus ou moins fréquent en fonction du corpus.
Donc il me faudrait un moyen de rectifier toutes les valeurs de log-likelihood pour qu'elles soient comparables.
Est-ce que je peux faire ça grâce à la moyenne des log-likelihood? Par exemple en divisant chaque log-l par la moyenne?
Dernière modification par banja (07-05-2009 17:24:13)
Hors ligne
Vous devez poser votre problème de sorteà vous ramener à un test d'hypothèse. Cela me paraît être la meilleure façon de répondre à votre question : vous avez des estimateurs de fréquences, ou de proportions, inconnues et la question est : est-ce que mes estimations me permettent ou pas d'accepter l'égalité de ces paramètres inconnus?
Donc j'ai le mot pomme et ensuite un ensemble d'autres mots :m1,m2,m3..mk dont j'ai compté la fréquence dans deux (ou plus) échantillons que je suppose indépendants (c'est pas même auteur qui a écrit les différentes bases de données...sinon on serait plus dans une logique d'échantillons appariés, avec des questions du style : est-ce qu'en viellissant il a gardé les mêmes tics d'écriture ou pas ?). Vous ètes donc simplement en présence d'un tableau 2xk et votre problème est : est-ce que la structure de la première ligne est la même que celle de la deuxième, sachant que les effectifs marginaux en ligne ne sont pas les mêmes. Est-ce que j'ai bien compris?
Si oui, alors vous pouvez utilisez plusieurs tests, le plus connu étant un test de chi-2. Regardez dans un livre de statistique non paramétrique (personnellement j'aime bien le Siegel et Castellan, Nonparametric statistics for the behavioral sciences). Normalement avec une proc freq sous SAS vous devriez vous en sortir. Bon courage.
Hors ligne