×

LingQをより快適にするためCookieを使用しています。サイトの訪問により同意したと見なされます クッキーポリシー.


image

La statistique expliquée à mon chat, Comment les variables aléatoires font-elles des bébés ?

Comment les variables aléatoires font-elles des bébés ?

Je vous présente Albert, mon chat.

N'est il pas mignon, occupé à dormir ?

Réveille-toi, Albert ! C'est l'heure de faire de la statistique.

Nous partons aujourd'hui d'une boîte

du même genre que celle que tu avais trouvé dans le grenier il y a quelques temps.

Comme celle du grenier, cette boîte, ou variable aléatoire

a pour particularité qu'à chaque ouverture, un nombre en sort

sans que l'on puisse dire lequel à l'avance.

Mais attention ! Tout n'est pas pour autant possible.

Seuls les nombres appartenant au domaine de la variable sont susceptibles d'apparaître.

Chaque valeur du domaine est par ailleurs toujours liée à un poids.

Ainsi pour cette variable,

la valeur 14 sortira plus de la moitié du temps

alors que la valeur 20 ne sortira que rarement.

Ensemble, le domaine et les poids liés

forment ce que les statisticiens appelent

la distribution de probabilité de la variable.

N'importe qui peut construire sa propre variable.

Il suffit de définir, selon son humeur, un nouveau domaine et les poids liés.

Il est également possible de créer de nouvelles variables

par assemblage de variables existantes.

Explorons ça !

❤ Sous-titres réalisés avec amour par @Lebravex ❤

Pour créer une nouvelle variable, on peut par exemple additionner ou multiplier deux variables.

Mais quel est alors le domaine de la nouvelle variable et les poids liés ?

Croisons le domaine de X et de Y.

Au minimum, l'addition de X et de Y fera 15, et au maximum, 27.

Les quatre autres possibilités sont 16, 21, 22 et 26.

Il y a donc six valeurs dans le domaine de Z.

Cherchons à présent les poids.

La première valeur du domaine de Z, la valeur 15

ne peut être obtenue que si la valeur 14 sort de la boîte X

et qu'au même moment la valeur 1 sort de la boîte Y.

Comme il y a 6 chances sur 10 que la valeur 14 sorte de la boîte X

et 1 chance sur 4 que la valeur 1 sorte de la boîte Y,

les chances que 14 et 1 sortent en même temps,

et donc que la valeur 15 sorte de la boîte Z,

sont de 6/10 fois 1/4 soit 0,15.

Un raisonnement identique permet d'obtenir tous les autres poids pour Z.

Ainsi, le deuxième poids et le résultat de 0,6 fois 0,75

alors que le dernier poids est le résultat de 0,38 fois 0,75.

Bon...

Vérifions qu'Albert ait bien compris avec une autre construction.

Partons de deux variables V et W ayant,

mais ce n'est qu'un hasard,

le même domaine et les mêmes poids, c'est-à-dire

la même distribution de probabilité.

Nous allons à présent ajouter quatre unités à V

avant de multiplier le résultat par le cinquième du cube de W.

Quels sont le domaine et les poids de la nouvelle variable ?

Que se passe-t-il Albert ? Tu trouves ma nouvelle construction trop compliquée ?

Regardons attentivement cette équation ensemble.

Elle nous dit que dès qu'une valeur sort de la boîte V,

on va y ajouter quatre unités.

Dès qu'une valeur sort de la boîte W, on met cette valeur au cube et ensuite on divise par 5.

Pour finir, on multiplie les deux résultats et on dit que ce c'est ce qui sort de la boite T.

Et comme le domaine d'aussi bien V que W ne comporte que deux éléments,

il n'y a que quatre cas de figure à traiter.

Premier cas : la valeur 0 sort aussi bien de la boite V que de la boite W,

ce qui arrivera 1/2 fois 1/2, soit 1/4 du temps.

Dans ce cas, c'est comme si 0 sortait de la nouvelle boite, puisque

zéro plus quatre fois le cinquième du cube de zéro fait encore zéro !

Second cas de figure :

la valeur 1 sort de V et la valeur 0 sort de W.

Un cas de figure qui sera rencontré 1/4 du temps.

On peut calculer que dans cette situation, la variable T prend à nouveau la valeur 0.

Troisième cas de figure :

la valeur 0 de V alors que la valeur 1 sort de W.

Comme pour les deux précédents cas de figure, ceci arrivera 25% du temps.

Ici c'est 4/5 qui va sortir de la boîte T,

car 0 plus 4 multiplié par le cinquième du cube de 1, cela fait 4/5.

Finalement, si la valeur 1 sort aussi bien de V que de W en même temps,

la valeur 1 sortira également de la nouvelle boite

et ceci va encore se produire 1/4 du temps.

Fais les comptes Albert :

le domaine de la variable T est donc composé des valeurs 0, 0, 4/5 et 1 ;

et ces valeurs ont chacune une chance sur quatre de sortir.

Ce qui donne, après simplification, le résultat à l'écran.

Les statisticiens adorent assembler des variables pour en créer des nouvelles.

Malheureusement, trouver la distribution de la nouvelle variable est souvent fastidieux.

Tellement fastidieux que certains ont introduit une façon

très controversée de résoudre le problème.

Parlons à nouveau de la boîte que tu avais, Albert, trouvé dans le grenier.

A l'époque, j'en avais égaré les plans,

c'est-à-dire que je ne savais plus ce qu'en était la distribution de probabilité.

Te souviens-tu de ce que j'avais alors fait ?

Mais oui !

Grâce aux cent observations que tu avais réalisées de cette boîte,

j'avais conclu que le domaine devait être composé des éléments 0, 1 et 2 ;

tandis que les poids devaient être proches de 54%, 12% et 34%.

Lorsque l'on ne connait pas la distribution de probabilité

d'une variable aléatoire,

on peut donc toujours essayer de la reconstruire

via un nombre suffisant d'observations de cette variable.

Revenons sur la variable aléatoire Z.

Nous allons faire une centaine d'observations de X ainsi qu'une centaine d'observations de Y

et additionner au fur et à mesure les résultats,

nous amenant à cent observations de Z.

Regarde Albert ! On dirait que seules les valeurs 15, 16, 22, 26 et 27 peuvent sortir.

Cela doit être le domaine de Z.

Pour les poids de Z, nous avons : 20/100, 49/100, 3/100, 8/100 et 20/100.

Comparons ces résultats à la vraie réponse, calculée il y a quelques instants.

Aie !

Il manque une des valeurs du domaine.

La valeur 21, en jaune.

Les poids ne sont pas les mêmes non plus, bien que certains soient assez proches de la vraie valeur.

C'est là tout le problème de cette approche.

Si elle permet de trouver très rapidement

la distribution de probabilité d'une nouvelle variable

issue d'une construction compliquée,

il y a toujours un risque de complètement rater les valeurs plus rares du domaine.

Par ailleurs, les poids ne sont jamais exactement les vrais.

Ces problèmes peuvent être minimisés en faisant beaucoup d'observations de la nouvelle variable.

Typiquement plus que cent,

mais il n'est jamais possible de totalement les éliminer.

Chers internautes, Albert a besoin de votre avis !

Face à une construction compliquée devrait-il accepter un résultat approché,

qui ne sera jamais parfaitement exact bien que facile à obtenir ?

Ou bien pensez-vous qu'il doit toujours calculer le résultat exact, même si cela lui sera pénible ?

Laissez-nous votre avis dans la section commentaire de cette vidéo, sur Facebook ou sur Twitter.

Vous n'en pouvez plus d'attendre des semaines entre chaque vidéo des aventures d'Albert ?

Pour réussir à augmenter notre rythme de production

sans compromis sur la qualité, il nous faut des moyens.

Une donation aux maîtres d'Albert sur tipeee.com/amisdalbert peut faire toute la différence !

Cette cinquième vidéo est d'ailleurs la première qui bénéficie d'un financement partiel

par le biais du fonds du développement culturel de l'UCL.

Vous ne connaissez pas l'UCL ? Il s'agit de la plus grande université francophone de Belgique,

localisée au sud-est de Bruxelles.

Si vous envisagez de faire des études en Belgique,

nous vous recommandons chaudement de visiter le site web uclouvain.be

A très bientôt pour la vidéo 6 et merci de nous suivre !

Comment les variables aléatoires font-elles des bébés ? Wie machen Zufallsvariablen Babys? How do random variables make babies? ¿Cómo hacen bebés las variables aleatorias? Hoe maken willekeurige variabelen baby's? Como é que as variáveis aleatórias fazem bebés? Як випадкові величини роблять дітей?

Je vous présente Albert, mon chat. Meet my cat, Albert.

N'est il pas mignon, occupé à dormir ? Isn't he cute, sleeping?

Réveille-toi, Albert ! C'est l'heure de faire de la statistique. Wake up Albert! Time to learn more about statistics!

Nous partons aujourd'hui d'une boîte Today, we start from a box,

du même genre que celle que tu avais trouvé dans le grenier il y a quelques temps. not unlike the one you found in the attic a while ago.

Comme celle du grenier, cette boîte, ou variable aléatoire Like the one in the attic, this box - or random variable -

a pour particularité qu'à chaque ouverture, un nombre en sort is such that at each opening, a number comes out,

sans que l'on puisse dire lequel à l'avance. and you can't predict which one it will be.

Mais attention ! Tout n'est pas pour autant possible. This doesn't mean that anything is possible:

Seuls les nombres appartenant au domaine de la variable sont susceptibles d'apparaître. only the numbers that are part of the domain are allowed to come out.

Chaque valeur du domaine est par ailleurs toujours liée à un poids. Each value in the domain is moreover related to a weight.

Ainsi pour cette variable, For today's variable,

la valeur 14 sortira plus de la moitié du temps we can see that the value 14 will come out more than half the time,

alors que la valeur 20 ne sortira que rarement. while the value 20 will come out 2% of the time.

Ensemble, le domaine et les poids liés Together, the domain and the related weights

forment ce que les statisticiens appelent are what statisticians call the probability distribution of the variable.

la distribution de probabilité de la variable.

N'importe qui peut construire sa propre variable. Anyone can create their own variable.

Il suffit de définir, selon son humeur, un nouveau domaine et les poids liés. Simply define, according to one's mood, a new domain and the related weights.

Il est également possible de créer de nouvelles variables It is also possible to create new variables

par assemblage de variables existantes. by putting together existing ones.

Explorons ça ! Let's explore how it works.

❤ Sous-titres réalisés avec amour par @Lebravex ❤ Subtitles made by Nathan, the narrator. Feel free to submit an improved version!

Pour créer une nouvelle variable, on peut par exemple additionner ou multiplier deux variables. In order to build a new variable, one can for instance add or multiply two variables.

Mais quel est alors le domaine de la nouvelle variable et les poids liés ? But what's the domain and the related weights of the new variable?

Croisons le domaine de X et de Y. Let's cross the domain of X and Y.

Au minimum, l'addition de X et de Y fera 15, et au maximum, 27. At worst, the addition of X and Y will be 15 and at best, 27.

Les quatre autres possibilités sont 16, 21, 22 et 26. The four other possibilities are 16, 21, 22 and 26.

Il y a donc six valeurs dans le domaine de Z. There are therefore 6 numbers in the domain of Z.

Cherchons à présent les poids. Let's now find the related weights.

La première valeur du domaine de Z, la valeur 15 The first value in the domain of Z, 15,

ne peut être obtenue que si la valeur 14 sort de la boîte X can't come out unless 14 comes out of the X box and that,

et qu'au même moment la valeur 1 sort de la boîte Y. at the same time, 1 comes out of the box Y.

Comme il y a 6 chances sur 10 que la valeur 14 sorte de la boîte X Since the probability of 14 to come out of X is 6/10

et 1 chance sur 4 que la valeur 1 sorte de la boîte Y, and the probability of 1 to come out of Y is 1/4,

les chances que 14 et 1 sortent en même temps, the probability of 14 and 1 to come out at the same time,

et donc que la valeur 15 sorte de la boîte Z, leading to 15 coming out of Z,

sont de 6/10 fois 1/4 soit 0,15. are 6/10 times 1/4, that is, 0.15.

Un raisonnement identique permet d'obtenir tous les autres poids pour Z. The same reasoning allows one to get all the other weights related to the domain of Z.

Ainsi, le deuxième poids et le résultat de 0,6 fois 0,75 For instance, the second weight is the result of 0.6 times 0.75,

alors que le dernier poids est le résultat de 0,38 fois 0,75. while the last weight is the result of 0.38 times 0.75.

Bon... All right.

Vérifions qu'Albert ait bien compris avec une autre construction. Let's check that Albert gets it by building another random variable.

Partons de deux variables V et W ayant, We start from two random variables V and W having,

mais ce n'est qu'un hasard, but it's just a coincidence,

le même domaine et les mêmes poids, c'est-à-dire the same domain and weights, that is,

la même distribution de probabilité. having the same probability distribution.

Nous allons à présent ajouter quatre unités à V We're going to add 4 units to V

avant de multiplier le résultat par le cinquième du cube de W. before multiplying everything by the fifth of the cube of W.

Quels sont le domaine et les poids de la nouvelle variable ? What are the domain and the related weights of the new variable?

Que se passe-t-il Albert ? Tu trouves ma nouvelle construction trop compliquée ? What's happening Albert, you think my new construction is too hard?

Regardons attentivement cette équation ensemble. Let's take a better look at the equation.

Elle nous dit que dès qu'une valeur sort de la boîte V, It says that, whatever value comes out of the V box,

on va y ajouter quatre unités. we add 4 units to it.

Dès qu'une valeur sort de la boîte W, on met cette valeur au cube et ensuite on divise par 5. Whaveter value comes out of W, we take its cube and then we divide by 5.

Pour finir, on multiplie les deux résultats et on dit que ce c'est ce qui sort de la boite T. Finally, we multiply the two results and we say that this is what comes out of the T box.

Et comme le domaine d'aussi bien V que W ne comporte que deux éléments, Given that the domain of both V and W contains two elements,

il n'y a que quatre cas de figure à traiter. there are only 4 cases to take into account.

Premier cas : la valeur 0 sort aussi bien de la boite V que de la boite W, First case, the value 0 comes out of both V and W,

ce qui arrivera 1/2 fois 1/2, soit 1/4 du temps. and the probability for this to happen is 1/2 times 1/2, that is, 1/4.

Dans ce cas, c'est comme si 0 sortait de la nouvelle boite, puisque In this case, the value 0 is going to come out of the new box,

zéro plus quatre fois le cinquième du cube de zéro fait encore zéro ! since 0 plus 4 times the fifth of the cube of 0 is still 0.

Second cas de figure : Second case:

la valeur 1 sort de V et la valeur 0 sort de W. 1 comes out of V while 0 comes out of W,

Un cas de figure qui sera rencontré 1/4 du temps. something that will happen with probability 1/4.

On peut calculer que dans cette situation, la variable T prend à nouveau la valeur 0. We can calculate that in this case, the value of T is again 0.

Troisième cas de figure : Third case:

la valeur 0 de V alors que la valeur 1 sort de W. 0 comes out of V, while 1 comes out of W.

Comme pour les deux précédents cas de figure, ceci arrivera 25% du temps. Not unlike the two previous cases, this has 25% chance of happening.

Ici c'est 4/5 qui va sortir de la boîte T, This time, 4/5 will come out of the T box,

car 0 plus 4 multiplié par le cinquième du cube de 1, cela fait 4/5. because 0 plus 4 multiplied by the fifth of the cube of 1 is 4/5.

Finalement, si la valeur 1 sort aussi bien de V que de W en même temps, Finally, if 1 comes out of V and W at the same time,

la valeur 1 sortira également de la nouvelle boite 1 will also come out of the new box.

et ceci va encore se produire 1/4 du temps. This will also happen 25% of the time.

Fais les comptes Albert : Let's wrap this up, Albert:

le domaine de la variable T est donc composé des valeurs 0, 0, 4/5 et 1 ; the domain of the variable T is thus made of the values 0, 0, 4/5 and 1,

et ces valeurs ont chacune une chance sur quatre de sortir. and each of these values has 25% chance of coming out,

Ce qui donne, après simplification, le résultat à l'écran. which leads, after simplification, to what's on the screen.

Les statisticiens adorent assembler des variables pour en créer des nouvelles. Statisticians love constructing new random variables using other random variables.

Malheureusement, trouver la distribution de la nouvelle variable est souvent fastidieux. Unfortunately, finding the probability distribution of the new variable is often tedious work.

Tellement fastidieux que certains ont introduit une façon It's actually so tedious that some solve the problem

très controversée de résoudre le problème. in a rather disputed way.

Parlons à nouveau de la boîte que tu avais, Albert, trouvé dans le grenier. Let's come back the box you, Albert, had found in the attic a while ago.

A l'époque, j'en avais égaré les plans, At that time, I didn't know what the blueprint of that box was,

c'est-à-dire que je ne savais plus ce qu'en était la distribution de probabilité. that is, I had no idea what the probability distribution of it was.

Te souviens-tu de ce que j'avais alors fait ? Do you remember what I then did?

Mais oui ! Yes, Albert!

Grâce aux cent observations que tu avais réalisées de cette boîte, I used the 100 observations you had made of the box

j'avais conclu que le domaine devait être composé des éléments 0, 1 et 2 ; to conclude that the domain must be made of the elements 0, 1 and 2,

tandis que les poids devaient être proches de 54%, 12% et 34%. while the weights should be close to 54/100, 12/100 and 34/100.

Lorsque l'on ne connait pas la distribution de probabilité When you don't know what the probability distribution

d'une variable aléatoire, of a random variable is,

on peut donc toujours essayer de la reconstruire you can always try to get it back

via un nombre suffisant d'observations de cette variable. by making many observations of that variable.

Revenons sur la variable aléatoire Z. There is the Z variable again.

Nous allons faire une centaine d'observations de X ainsi qu'une centaine d'observations de Y We're going to make 100 observations of X and 100 observations of Y,

et additionner au fur et à mesure les résultats, and add the results as they come,

nous amenant à cent observations de Z. leading to 100 observations of Z.

Regarde Albert ! On dirait que seules les valeurs 15, 16, 22, 26 et 27 peuvent sortir. Look Albert, it seems that only the values 15, 16, 22, 26, 27 can come out.

Cela doit être le domaine de Z. This must be the domain of Z.

Pour les poids de Z, nous avons : 20/100, 49/100, 3/100, 8/100 et 20/100. For the weights, we have 20/100, 49/100, 3/100, 8/100 and 20/100.

Comparons ces résultats à la vraie réponse, calculée il y a quelques instants. Let's compare this estimated probability distribution to the true one, that we calculated earlier.

Aie ! Ouch.

Il manque une des valeurs du domaine. We've missed one value of the domain:

La valeur 21, en jaune. the value 21, in yellow.

Les poids ne sont pas les mêmes non plus, bien que certains soient assez proches de la vraie valeur. Note that the weights are not the same, either, even though some are quite close to their true value.

C'est là tout le problème de cette approche. This is the danger of this approach.

Si elle permet de trouver très rapidement While it allows to get with ease

la distribution de probabilité d'une nouvelle variable the probability distribution of a new random variable

issue d'une construction compliquée, build using a complicated construction,

il y a toujours un risque de complètement rater les valeurs plus rares du domaine. uncommon values of the domain can be missed.

Par ailleurs, les poids ne sont jamais exactement les vrais. Moreover, the weights you get this way are never equal to the true ones.

Ces problèmes peuvent être minimisés en faisant beaucoup d'observations de la nouvelle variable. These problems can be kept under control by making many observations of the new variable,

Typiquement plus que cent, usually more than 100,

mais il n'est jamais possible de totalement les éliminer. but it's never possible to eliminate them completely.

Chers internautes, Albert a besoin de votre avis ! Dear viewer, Albert needs your opinion!

Face à une construction compliquée devrait-il accepter un résultat approché, When facing a complicated construction, should he be happy with an estimated distribution,

qui ne sera jamais parfaitement exact bien que facile à obtenir ? which will never match the true one, but will be easy to get?

Ou bien pensez-vous qu'il doit toujours calculer le résultat exact, même si cela lui sera pénible ? Or do you think he should always calculate what's the true distribution, even though this might be very difficult?

Laissez-nous votre avis dans la section commentaire de cette vidéo, sur Facebook ou sur Twitter. Let us know what you think in the comment section of this video, on Facebook or Twitter.

Vous n'en pouvez plus d'attendre des semaines entre chaque vidéo des aventures d'Albert ? Are you tired of waiting for the new adventures of Albert to come out?

Pour réussir à augmenter notre rythme de production In order to produce new content faster

sans compromis sur la qualité, il nous faut des moyens. while not decreasing overall quality, we need your help.

Une donation aux maîtres d'Albert sur tipeee.com/amisdalbert peut faire toute la différence ! A donation to Albert's owners on tipeee.com can make all the difference.

Cette cinquième vidéo est d'ailleurs la première qui bénéficie d'un financement partiel This fifth video is by the way the first one to be partially supported

par le biais du fonds du développement culturel de l'UCL. by the university of Louvain-la-Neuve (UCL).

Vous ne connaissez pas l'UCL ? Il s'agit de la plus grande université francophone de Belgique, Never heard of this university? It's the largest one in French-speaking Belgium,

localisée au sud-est de Bruxelles. located near our capital, Brussels.

Si vous envisagez de faire des études en Belgique, Are you considering studying in Belgium?

nous vous recommandons chaudement de visiter le site web uclouvain.be Then check uclouvain.be out!

A très bientôt pour la vidéo 6 et merci de nous suivre ! Thanks for following, and see you soon!