Comment les variables aléatoires font-elles des bébés ?
Je vous présente Albert, mon chat.
N'est il pas mignon, occupé à dormir ?
Réveille-toi, Albert ! C'est l'heure de faire de la statistique.
Nous partons aujourd'hui d'une boîte
du même genre que celle que tu avais trouvé dans le grenier il y a quelques temps.
Comme celle du grenier, cette boîte, ou variable aléatoire
a pour particularité qu'à chaque ouverture, un nombre en sort
sans que l'on puisse dire lequel à l'avance.
Mais attention ! Tout n'est pas pour autant possible.
Seuls les nombres appartenant au domaine de la variable sont susceptibles d'apparaître.
Chaque valeur du domaine est par ailleurs toujours liée à un poids.
Ainsi pour cette variable,
la valeur 14 sortira plus de la moitié du temps
alors que la valeur 20 ne sortira que rarement.
Ensemble, le domaine et les poids liés
forment ce que les statisticiens appelent
la distribution de probabilité de la variable.
N'importe qui peut construire sa propre variable.
Il suffit de définir, selon son humeur, un nouveau domaine et les poids liés.
Il est également possible de créer de nouvelles variables
par assemblage de variables existantes.
Explorons ça !
❤ Sous-titres réalisés avec amour par @Lebravex ❤
Pour créer une nouvelle variable, on peut par exemple additionner ou multiplier deux variables.
Mais quel est alors le domaine de la nouvelle variable et les poids liés ?
Croisons le domaine de X et de Y.
Au minimum, l'addition de X et de Y fera 15, et au maximum, 27.
Les quatre autres possibilités sont 16, 21, 22 et 26.
Il y a donc six valeurs dans le domaine de Z.
Cherchons à présent les poids.
La première valeur du domaine de Z, la valeur 15
ne peut être obtenue que si la valeur 14 sort de la boîte X
et qu'au même moment la valeur 1 sort de la boîte Y.
Comme il y a 6 chances sur 10 que la valeur 14 sorte de la boîte X
et 1 chance sur 4 que la valeur 1 sorte de la boîte Y,
les chances que 14 et 1 sortent en même temps,
et donc que la valeur 15 sorte de la boîte Z,
sont de 6/10 fois 1/4 soit 0,15.
Un raisonnement identique permet d'obtenir tous les autres poids pour Z.
Ainsi, le deuxième poids et le résultat de 0,6 fois 0,75
alors que le dernier poids est le résultat de 0,38 fois 0,75.
Bon...
Vérifions qu'Albert ait bien compris avec une autre construction.
Partons de deux variables V et W ayant,
mais ce n'est qu'un hasard,
le même domaine et les mêmes poids, c'est-à-dire
la même distribution de probabilité.
Nous allons à présent ajouter quatre unités à V
avant de multiplier le résultat par le cinquième du cube de W.
Quels sont le domaine et les poids de la nouvelle variable ?
Que se passe-t-il Albert ? Tu trouves ma nouvelle construction trop compliquée ?
Regardons attentivement cette équation ensemble.
Elle nous dit que dès qu'une valeur sort de la boîte V,
on va y ajouter quatre unités.
Dès qu'une valeur sort de la boîte W, on met cette valeur au cube et ensuite on divise par 5.
Pour finir, on multiplie les deux résultats et on dit que ce c'est ce qui sort de la boite T.
Et comme le domaine d'aussi bien V que W ne comporte que deux éléments,
il n'y a que quatre cas de figure à traiter.
Premier cas : la valeur 0 sort aussi bien de la boite V que de la boite W,
ce qui arrivera 1/2 fois 1/2, soit 1/4 du temps.
Dans ce cas, c'est comme si 0 sortait de la nouvelle boite, puisque
zéro plus quatre fois le cinquième du cube de zéro fait encore zéro !
Second cas de figure :
la valeur 1 sort de V et la valeur 0 sort de W.
Un cas de figure qui sera rencontré 1/4 du temps.
On peut calculer que dans cette situation, la variable T prend à nouveau la valeur 0.
Troisième cas de figure :
la valeur 0 de V alors que la valeur 1 sort de W.
Comme pour les deux précédents cas de figure, ceci arrivera 25% du temps.
Ici c'est 4/5 qui va sortir de la boîte T,
car 0 plus 4 multiplié par le cinquième du cube de 1, cela fait 4/5.
Finalement, si la valeur 1 sort aussi bien de V que de W en même temps,
la valeur 1 sortira également de la nouvelle boite
et ceci va encore se produire 1/4 du temps.
Fais les comptes Albert :
le domaine de la variable T est donc composé des valeurs 0, 0, 4/5 et 1 ;
et ces valeurs ont chacune une chance sur quatre de sortir.
Ce qui donne, après simplification, le résultat à l'écran.
Les statisticiens adorent assembler des variables pour en créer des nouvelles.
Malheureusement, trouver la distribution de la nouvelle variable est souvent fastidieux.
Tellement fastidieux que certains ont introduit une façon
très controversée de résoudre le problème.
Parlons à nouveau de la boîte que tu avais, Albert, trouvé dans le grenier.
A l'époque, j'en avais égaré les plans,
c'est-à-dire que je ne savais plus ce qu'en était la distribution de probabilité.
Te souviens-tu de ce que j'avais alors fait ?
Mais oui !
Grâce aux cent observations que tu avais réalisées de cette boîte,
j'avais conclu que le domaine devait être composé des éléments 0, 1 et 2 ;
tandis que les poids devaient être proches de 54%, 12% et 34%.
Lorsque l'on ne connait pas la distribution de probabilité
d'une variable aléatoire,
on peut donc toujours essayer de la reconstruire
via un nombre suffisant d'observations de cette variable.
Revenons sur la variable aléatoire Z.
Nous allons faire une centaine d'observations de X ainsi qu'une centaine d'observations de Y
et additionner au fur et à mesure les résultats,
nous amenant à cent observations de Z.
Regarde Albert ! On dirait que seules les valeurs 15, 16, 22, 26 et 27 peuvent sortir.
Cela doit être le domaine de Z.
Pour les poids de Z, nous avons : 20/100, 49/100, 3/100, 8/100 et 20/100.
Comparons ces résultats à la vraie réponse, calculée il y a quelques instants.
Aie !
Il manque une des valeurs du domaine.
La valeur 21, en jaune.
Les poids ne sont pas les mêmes non plus, bien que certains soient assez proches de la vraie valeur.
C'est là tout le problème de cette approche.
Si elle permet de trouver très rapidement
la distribution de probabilité d'une nouvelle variable
issue d'une construction compliquée,
il y a toujours un risque de complètement rater les valeurs plus rares du domaine.
Par ailleurs, les poids ne sont jamais exactement les vrais.
Ces problèmes peuvent être minimisés en faisant beaucoup d'observations de la nouvelle variable.
Typiquement plus que cent,
mais il n'est jamais possible de totalement les éliminer.
Chers internautes, Albert a besoin de votre avis !
Face à une construction compliquée devrait-il accepter un résultat approché,
qui ne sera jamais parfaitement exact bien que facile à obtenir ?
Ou bien pensez-vous qu'il doit toujours calculer le résultat exact, même si cela lui sera pénible ?
Laissez-nous votre avis dans la section commentaire de cette vidéo, sur Facebook ou sur Twitter.
Vous n'en pouvez plus d'attendre des semaines entre chaque vidéo des aventures d'Albert ?
Pour réussir à augmenter notre rythme de production
sans compromis sur la qualité, il nous faut des moyens.
Une donation aux maîtres d'Albert sur tipeee.com/amisdalbert peut faire toute la différence !
Cette cinquième vidéo est d'ailleurs la première qui bénéficie d'un financement partiel
par le biais du fonds du développement culturel de l'UCL.
Vous ne connaissez pas l'UCL ? Il s'agit de la plus grande université francophone de Belgique,
localisée au sud-est de Bruxelles.
Si vous envisagez de faire des études en Belgique,
nous vous recommandons chaudement de visiter le site web uclouvain.be
A très bientôt pour la vidéo 6 et merci de nous suivre !