Teaching - RFIDEC


RFIDEC

Examen de milieu de semestre:

Voir la page de C. Gonzales:

http://webia.lip6.fr/~gonzales/teaching/rfidec/index.php

Examen de fin de semestre:

  • Droit aux notes de cours et aux slides
  • Le programme commence aux cours de P. Gallinari.
  • Les slides sont sur la page de P. Gallinari ainsi que l'exam corrigé de l'an dernier.

http://www-connex.lip6.fr/~gallinar/Enseignement/Enseignement.html


Exo 14 partie 2, séance TME

Pour l'exo 14, j'ai touvé le pourcentage de bon = 63.2%. Cette valeur me semble un peu faible,je voudrais savoir si c'est bien le résultat entendu. [...]

le résultat semble correct (je n'ai pas effectué ces calculs mais l'ordre de grandeur est bon). Il faut garder à l'esprit qu'il y a 10 classes: en cas de décision aléatoire, on obtient 10% de bonne classif. 63% c'est 6 fois mieux.

Pour trouver le vecteur mu de la classe k puis calculer les probas, j'aurais utilisé le code suivant:

 % =========
 % extraire les indices
 index_class_k = find(yapp == k)

 % extraire les images associée
 x_k = xapp(index_class_k,:);
 mu_k = mean(x_k);

 % ========
 % Pour le test sur un x dans R^d, d=256

 proba_k = sum(x .* log(mu_k) + (1-x)*log(1-mu_k));

Exo 28 J'ai une petite question concernant l'exercice 28 du TD, je n'arrive pas à retrouver la même valeur que vous concernant la puissance du test, pourriez vous expliciter votre calcul?

28.3

Z = \frac{\bar{X}-\mu }{\sigma \sqrt{n}} =\frac{\bar X - 18000}{250} \sim \mathcal N(0,1)

28.4

\alpha = 0.01 = P(Z < -2.326)

Il faut faire un schéma pour comprendre où est alpha, où est -z_alpha et bien voir que l'on envisage uniquement le cas à la baisse.

La limite est atteinte pour :

Z=\frac{\bar X - 18000}{250} = -2.326

On rejette H0 si \bar x < 17418.5.

28.5

Il faut bien comprendre la question: il s'agit de redéfinir H1. Maintenant, H1 = \mu=17000.

28.6

Puissance = 1-\beta avec \beta =P(rejeter H1 alors que H1 est vraie).

Pour \beta, il faut faire un schéma, la population qui nous intéresse est la suivante: c'est la population de la gaussienne H1 (centrée en 17000) qui se trouve dans la zone d'acceptation de H0 (>17418.5).

\beta = P_{H1}(\bar X > 17418.5)

Pour pouvoir le calculer, je me ramène à l'expression de Z avec les paramètres de H1:

\beta = P(\frac{\bar X - 17000}{250} > \frac{17418.5 - 17000}{250})

\beta = P(Z > 1.674)

On utilise la table en prenant l'entrée z_alpha=1.67 (on oublie la dernière décimale):

\beta = P(Z > 1.674) = 0.0475

Puissance = 0.9525

La puissance est grande, le test est BON (les hypothèses ne se chevauchent pas trop).


Exo 26 J'ai une petite question concernant l'exercice 26 du TD, je n'arrive pas à retrouver la même valeur que vous concernant la puissance du test, pourriez vous expliciter votre calcul?

Dans l'exercice 26, il n'est pas question de puissance de test mais seulement de validation d'hypothèse à un niveau de signification 0.1.

D'après l'expert, on aurait du obtenir le tableau suivant:

CouleurRBVJN
Proba0,20,40,10,20,1
Nb boules48242

Du coup, on peut maintenant faire un test du chi2 pour mesurer l'écart entre l'expert et la réalité:

D^2 = \frac{(2 − 4)^2}{4} +\frac{(9-8)^2}{8}+\frac{(4-2)^2}{2}+\frac{(5-4)^2}{4}+\frac{(0-2)^2}{2} = 5.375

D'après la table, pour 4 degrés de liberté avec alpha=0.1, la divergence limite est de 7.78: il n'y a donc pas divergence, l'expert et la réalité sont en phase, tout est OK.


Exo 29 A la fin de l'exo 29, vous avez dit "l'avis de l'expert est cohérent avec les résultats obtenus car il nous a proposé 3/7 et on a obtenu 1/4" là je n'ai pas compris comment vous avez déterminé ce que l'expert à proposé et comment vous en avez déduis la cohérence?

Sans a priori (en utilisant seulement la vraisemblance), on obtient: theta=1/5.

Pour trouver l'avis de l'expert 'seul', j'ai pris l'a priori, je l'ai dérivé et j'ai annulé la dérivée pour conclure que l'expert propose theta=3/7.

J'ai finalement dit que l'avis de l'expert était plus grand que 1/5, il allait donc raisonnablement décaler la solution vers le haut. A la fin du calcul, on trouve theta=1/4 (>1/5): je dis donc que c'est logique...


exo 31 Pour l'exo 31 je ne sais pas comment retrouver la loi à priori de thêta et celle de X puis comment la calculer? Toujours pour cet exo je n'ai pas compris les valeurs d'acceptation obtenus pour les diverses hypothèses et la comparaison faite avec l'avis de l'expert(c'est surtout comment comparer ce qu'on obtient pour le MAP avec l'avis de l'expert qui me gène sur ce chapitre là)

Dans le 31, la loi (a priori) de theta est donné, c'est le tableau fourni dans l'énoncé. En prenant un peu de recul par rapport aux chiffres, on se rend compte que la table nous dis que les valeurs proches de 1/2 sont les plus probables, ce qui semble raisonnable pour une pièce de monnaie.

Pour X, c'est plus dur: il faut comprendre à partir de l'énoncé qu'il s'agit d'une binomiale \mathcal{B}(5,\theta) et que l'on veut envisager toutes les valeurs de X=0 jusqu'à X=5.

Il faut ensuite connaitre (ou retrouver la formule de la loi binomiale): http://fr.wikipedia.org/wiki/Loi_binomiale

On vous demande ensuite de choisir un modèle en fonction des observations: pour chaque valeur possible de X, il faut dire quel serait le meilleur modèle:

\forall x,\ \arg\max_\theta p(X=x | \theta)

p(X=x | \theta) est un tableau, il faut donc trouver le max (ligne par ligne dans la correction du tableau) pour choisir le modèle.

Pour le MAP, c'est plus simple, il suffit de calculer le tableau des p(\theta | X=x) avec la règle de Bayes puis de refaire le max ligne par ligne.


Exo 3 TME j'ai quelques questions concernant l'exercice 3 sur la génération de données du TME. Tout d'abord, pour la question 1, doit on générer un échantillon de valeur aléatoire correspondant à la variable A, ou doit on générer un échantillon dont la répartition des valeurs corresponde aux probabilités des valeurs de la variable A? Et secundo, pour la question 3, je voulais obtenir confirmation car dans l'énoncé on parle du vecteur colonne Xech qui contient 1000 échantillons, donc Xech aura 1000 lignes mais alors chacune des ces lignes sera un vecteur ligne correspondant à un échantillon. Ce n'est donc plus vraiment un vecteur colonne... Est ce bien cela tout de même?

Question 1:
Si vous donnez le tableau A=[0.3 0.7], vous voulez rendre 0, 30% du temps et 1, 70% du temps, de manière aléatoire. Vous ne pouvez pas prévoir ce qui va sortir.

En gros, vous tirez un nombre entre 0 et 1: si vous tombez entre 0 et 30%, vous renvoyez 0 et si vous tombez entre 30% et 30%+70% (=1), vous renvoyez 1.

La génération de nombre aléatoire va donc bien correspondre à A.

question 3:
Vous appelez 1000 fois la fonction précédente avec le paramètre X -> Xech puis 1000 fois la fonction précédente avec le paramètre Y -> Yech. Chacun des vecteurs fait donc la taille 1000x1. Ces 2 vecteurs sont donc des vecteurs colonnes... Dans X, j'aurais normalement à peu près 30% de 0 et 70% de 1, par exemple: [1 1 0 1 0 1 1 0 1 1 1...]

La matrice DATA fait 1000x2.


Exo 18: proposition de variante autour de V[\bar X]

2 solutions pas si triviales finalement:

Solution 1: V[\bar X] = V[\frac{1}{N}\sum_i X_i] = V[\sum_i \frac{X_i}{N}]= \sum_i V[ \frac{X_i}{N}]

= \sum_i E[(\frac{X_i - m}{N})^2] = \frac{1}{N^2}\sum_i E[(X_i - m)^2] = \frac{1}{N^2}\sum_i V[X_i] = \frac{N}{N^2} V[X] = \frac{1}{N} V[X]

Solution 2: V[\bar X] = E[\bar X^2] - E^2[\bar X]

= E[(\sum_i \frac{X_i}{N})^2] - E^2[\frac{1}{N} \sum_i X_i] = \frac{1}{N^2} E[(\sum_i X_i)^2] - \frac{1}{N^2} E^2[ \sum_i X_i] = \frac{1}{N^2} ( E[(\sum_i X_i)^2] - E^2[ \sum_i X_i])

= \frac{1}{N^2} V[\sum_i X_i] = \frac{1}{N^2} \sum_i V[X_i] = \frac{N}{N^2} V[X] = \frac{1}{N} V[X]


Exo 5: Je ne parviens pas à voir quoi répondre a la question 3 (mesure de dispersion la plus appropriée).

Juste pour être sure que je ne me fourvoie pas dans la façon de calculer le coefficient de corrélation linéaire:

Exo 12: J'ai trouvé r=1.355 pour l'exercice 12.

Exo 13: Et dans le 13, après équivalences je tombe sur la conclusion que le r reste inchangé quelque soit le système métrique. Est-ce exact?

Pour l'exercice 5: La mesure de dispersion la plus appropriée est ici l’intervalle interdécile : l’intervalle [ x - s, x + s] est moins informatif car il est beaucoup plus grand. C’est l’existence de deux observations très écartées de la moyenne (10000, 20000) qui entraîne une valeur très élevée de l’écart-type.

Pour le 12... Je ne suis pas d'accord: Moyenne de X = 7.250 ; Variance de X = 2.187 ; écart-type de X = 1.479 Moyenne de Y = 7.00 ; Variance de Y = 3.500 ; ecart-type de Y = 1.871 Covariance de X et Y cov(x, y) = 1.000 Correlation de X et Y , r = 0.361

Pour le 13 -> OK


Exercice 23: Pour les questions 2.2 et 2.3, je suis ok pour les valeurs de k permettant de rejeter ou accepter Ho mais je n'ai pas réussi à comprendre comment vous réussissiez à trouver la proba du "rejeter Ho avec une certaine proba". Je comprends intuitivement cette idée de ne pas rejeter systématiquement Ho autour de cette valeur seuil. Mais je ne parviens pas à recalculer ces probas (O.5 pour un alpha de 5% et 0.66 pour 1%) J'aimerais aussi avoir la réponse de la question 2.5, je ne vois pas du tout de quoi il s'agit.

2.2

Le tableau correspond à des couples de valeurs Alpha, Z_Alpha: on cherche alpha=0.05 -> 44 est le plus proche au dessus. Donc pour 45 on rejete et pour 43 on accepte.

On considère que 44 est litigieux, on va donc accepter H0 avec une certaine proba dans ce cas la... On se place entre 44 et 45 -> alpha = 0.06 et 0.04 On en déduit que la limite que l'on cherche (0.05) est entre les deux -> 0.5

2.4

On se place entre 47 et 48 -> alpha = 0.014 et 0.008 On en déduit que la limite que l'on cherche (0.01) est aux 2/3 vers 48 -> 0.66

Q 23.2.5 L’approximation normale est-elle bonne ici ? Quel est le théorème de convergence qui laisse prévoir ce fait ?

L’approximation normale est bonne. Elle résulte de la convergence en loi de la loi binomiale (centrée, réduite) vers la loi normale (c'est à dire quand le nombre d'échantillons est grand, >30 par exemple).

il s'agit aussi d'un cas particulier du théorème central-limite.


exo 25 (test d'ajustement)

Vos réponses sont:

25.1 vi = 60.5 ok

25.2 A=15,56

Moi je trouve 13,983 en faisant A1= (72-60,5)^2/60,5 A2= (70-60,5)^2/60,5 etc... et a la fin en additionnant tous les A

C'est important car dans votre cas on rejette H0 mais dans le mien on accepte H0 car < 14,1 Pouvez vous m'expliquer comment vous trouvez 15,56?

Vous avez tout à fait raison !

X = [72 70 71 52 45 59 67 48]; (X-mean(X)).^2/mean(X) -> 13.983

On accepte donc H0!


ex 27

1)Pourquoi lors d'un test d'hypothèse nous utilisons pas Z lambda/2 ? (mais Z lambda) Or dans une intervalle de confiance c'est Z lambda/2 qui est utilisé

2)Pourquoi lors d'un test d'hypothèse mu = à la moyenne? Exemple dans l'exercice 27.2 on a H0 = "moyenne égale à 14" et on se retrouve avec (X-14)/(sigma/racine(n)) or c'est X qui représente la moyenne.

1) On utilise bien Z_alpha/2: alpha = 0.05, alpha/2 = 0.025 -> Z_alpha/2 = 1.96

On est tout à fait dans le cas standard.

Rappel de la solution:

 P (X − 1, 96 × 6/3 ≤ µ ≤ X − 1, 96 × 6/3) = 1-alpha

 [X − 3, 92; X + 3, 92] ->  [8, 08; 15, 92]

2) Attention à bien reprendre la définition du théorème central limite: - X est la moyenne empirique d'une série de réalisation d'une variable aléatoire - 14 représente µ : paramètre théorique selon H0

On sait ensuite que: (X-14)/(sigma/racine(n)) suit N(0,1)

L'idée est toujours la même: d'un coté l'avis d'un expert (H0), de l'autre, un échantillon de données (mais on est jamais complètement sur que l'échantillon est bon, non biaisé...)

Notre travail: valider l'avis de l'expert à partir des données.

Ici: on a mesuré une moyenne de 12 mais ce n'est pas fiable (peu de données, peut-être biaisées...). On va se servir de cet échantillon pour valider ou infirmer l'avis de l'expert, c'est à dire chercher la vraie moyenne de l'ensemble des données.


sur ce site http://www.er.uqam.ca/nobel/r30574/PSY1300/C9P4.html

j'ai trouver ça /quote Le nombre de degrés de liberté sera toujours déterminé par le nombre de classes moins le nombre de relations qui lient la distribution théorique à la distribution réelle /quote

Or dans le td vous avez dit que le degre de liberté = (I-1)(J-1) En gros une colonne en moins multiplié par une ligne en moins (sans compter la ligne et la colonne 'total')

Pouvez-vous m'expliquer?

Dans un tableau à deux entrées pour 2 variables aléatoires discrètes, le nombre de classes est IxJ.

Problème: je ne sais pas définir clairement le nombres de liens (ici: (I-1) + (J-1)) Vous pouvez jeter un oeil sur la définition de wikipedia: http://fr.wikipedia.org/wiki/Degr%C3%A9_de_libert%C3%A9_%28statistiques%29

Je vous propose un autre mode de raisonnement: vous regardez le tableau de probabilité et vous cherchez combien de case il faut remplir pour ne plus avoir le choix.

Sur une variable aléatoire (caisse de supermarché): s'il y a deux caisses et que je fixe la probabilité de la première à 0.3 -> la seconde obtient automatiquement une proba de 0.7. Il suffit donc de fixer une valeur pour que le tableau soit parfaitement défini. -> 1 DL

S'il y a 4 caisses, il suffit que je fixe 3 valeurs pour que le tableau soit défini (car je sais qu'il somme à 1). -> 3 DL

Sur deux variables aléatoires à 2 valeurs (on imagine qu'on connait les loi marginales): une fois que j'ai fixé la valeur d'une case, les trois autres se trouvent immédiatement... -> 1 DL

Pour remplir un tableau 2*3, il me faut deux valeurs...


Proposition d'exercice issu du web.

L'énoncé fait 3 pages mais c'est l'exercice 2 qui m'intéresse, vous trouverez ma version dans le fichier exo2.pdf

RFIDEC_exoweb.zip Δ

Commentaires sur la solution proposée:

Dans le 1a) vous avez (j'imagine) calculé les effectifs marginaux puis calculé un nouveau tableau en multipliant les marginales (cas d'indépendance).

1b) par "valeur théorique", vous entendez "valeur en cas d'indépendance" -> OK

1c) OK

2) -> les questions sont les memes...

3a) Il y a 4 catégories: Ci = C1... C4 et il y a les etudiants admis (A) et non-admis (N)

On cherche p(Ci/A) = p(A/Ci) p(Ci) / p(A)

p(Ci) : c'est le tableau p(A/Ci) : les chiffres donnés dans la question 3 p(A) = sum_i p(A/Ci) p(Ci)

Tous les élements sont la pour l'application numérique... J'ai l'impression (rapide) que votre solution n'est pas bonne et que vous avez oublié le terme p(A)

3b) La question est très mal formulée... Je ne la comprend pas vraiment. J'imagine qu'il s'agit de faire un test d'indépendance sur les p(Ci/A): dans ce cas, le calcul est bien différent du premier.


Cours 4 -pp 12 à 16: j'ai du mal à comprendre d’où sort cette fonction y(x,w) Du coup tout le reste n'est pas très naturel pour moi... -p 29: je n'ai pas compris pourquoi on dit que pi(theta)=Beta(theta,a,b), comment le sait-on? Pour le reste du transparent je vois a peu pres l'idée, sauf: pourquoi, dans la loi a posteriori on enleve le Gamma(a+b)/Gamma(a)*Gamma(b)?

y(x,w)

Vous disposez d'un ensemble de points x et d'étiquettes associées y. Vous cherchez à construire un modèle pour prédire n'importe quelle y associée à un x. Par exemple: dans le tp de la semaine prochaine, on cherche la note d'un vin (y) en fonction des caractéristiques chimiques de ce vin (x_1, x_2...). On dispose de quelques exemples et on veut construire un modèle de prédiction des notes.

NB: dans le cas du cours, une seule variable aléatoire est concernée et on fait l'hypothèse d'une régression linéaire. On part du modèle linéaire suivant: y = x w

Pour prédire y, il faut donc bien connaitre x et w d'où la notation y(x,w). Le "truc", c'est que les x sont imposés (ils viennent d'une réalité terrain) alors que les w sont les paramètres à apprendre.

La prédiction que l'on va faire n'est pas exacte. La formule pour obtenir les vraies étiquettes est: y = x w + epsilon ou epsilon est la différence entre la prédiction et la valeur exacte. Le but est bien sur de minimiser les epsilons pour obtenir le meilleur modèle.

pi(theta)=Beta(theta,a,b)

il s'agit d'un a priori, d'une connaissance expert. Par exemple, un expert peut dire, dans le cas d'un vin que tel ou tel paramètre est plus important qu'un autre ou alors qu'un paramètre suit une loi particulière. Ici on dit que les paramètres suivent une loi Beta.

Dans le max de vraisemblance, les gammas se simplifient comme c'est expliqué dans le T30. D'ou l'expression simplifiée de la formule.


Cours 5 On dit dans la p 9 que epsilon suit une loi N(O,variance) avec variance=sigma*sigma Alors pourquoi p 11 on dit que epsilon suit une loi N(O,sigma) je n'ai pas bien compris pourquoi on a simplifié, ce n'est pas tout a fait la mm chose! Et pour le transparent 12, je n'arrive pas a comprendre le rapport entre le graphique et ce qui nous est dis en dessous!

L'idée est que notre modèle y = x w est plutôt bon et que la différence entre le modèle et la vraie mesure y est un bruit blanc, c'est à dire un epsilon qui suit une loi normale de moyenne 0 et de variance faible.

T11: le calcul de l'espérance de Y_i est normalement trivial (cf dernier TD)

V(Y_i) = E[ (Y_i - E(Y_i))^2 ] = E[ (alpha+beta x_i+eps_i - alpha-beta x_i)^2 ] = E[eps_i^2] = E[ (eps_i - E(eps_i))^2] = V(eps_i) = sigma^2

Attention à ne pas confondre les paramètres de la loi de Y et ceux de la loi de espilon.

T12: l'espérance de Y, c'est la droite qui passe au milieu des points et la variance de Y, c'est la caractérisation de l'écart des réalisations de Y par rapport à cette droite.

Je ne sais pas si c'est plus clair... Sinon on en discutera au tableau en TD.