Chapitre 1
Événements
Univers et événements
On parlera d'une expérience aléatoire pour une expérience dont on ne connaît pas le résultat avec certitude a priori. À une expérience aléatoire, on associe l'ensemble des issues possibles, qu'on appelle l'univers de cette expérience aléatoire et qui est le plus souvent noté par la lettre $\Omega$ (omega majuscule) (on parle parfois aussi de population pour l'ensemble $\Omega$, notamment en statistiques). Un élément de l'ensemble $\Omega$, que l'on note souvent $\omega$ (omega minuscule) est un des résultats possibles de l'expérience.
Si on lance une pièce de monnaie, l'univers sera l'ensemble $\Omega = \{\pile, \face\}$, et $\omega = \face$ est un résultat possible.
Si on lance un dé à 6 faces, l'univers sera l'ensemble $\Omega = \ints{1,6} = \{1,2,3,4,5,6\}$ des valeurs possibles du dé, et $\omega = 5$ est un résultat possible.
Si on lance une pièce de monnaie deux fois, l'univers sera l'ensemble $\Omega = \{\pile, \face\}^2 = \{(\pile,\pile), (\pile,\face), (\face,\pile), (\face,\face)\}$ des couples de résultats d'un lancer, et $\omega = (\face, \pile)$ est un résultat possible.
Pour d'autres exemples et pour s'exercer sur la notion d'univers, voir la feuille 1 exercice 1.
Étant donnée une expérience aléatoire ayant pour univers $\Omega$, un événement aléatoire (ou juste événement) $E$ est un ensemble de résultats possibles de l'expérience, c'est-à-dire une partie de l'univers : $E \subset \Omega$.
On dit qu'un événement $E$ se réalise si le résultat $\omega$ de l'expérience appartient à l'ensemble $E$ : $\omega \in E$.
L'ensemble $\mathcal{A}$ de tous les événements est appelé une tribu. Le couple $(\Omega, \mathcal{A})$ est appelé un espace probabilisable.
La définition ci-dessus reste délibérément vague sur la notion de tribu pour cacher la complexité sous-jacente dont les subtilités dépassent la portée de ce cours. À titre culturel, nous donnons quand même la définition rigoureuse.
Soit $\Omega$ un ensemble et $\mathcal{A} \subset \mathcal{P}(\Omega)$ un ensemble de parties de $\Omega$. On dit que $\mathcal{A}$ est une tribu sur $\Omega$ si
- Stable par complémentaire : Pour toute partie $A \in \mathcal{A}$, le complémentaire est encore dans $\mathcal{A}$ : $$\overline{A} \in \mathcal{A}$$
- Stable par union (dénombrable): Pour toute suite $(A_n)_{n \in \N} \in \mathcal{A}^{\N}$ de parties $A_n \in \mathcal{A}$, l'union est encore dans $\mathcal{A}$ : $$\bigcup_{n \in \N} A_n \in \mathcal{A}$$
Si $\mathcal{A}$ est une tribu sur $\Omega$, le couple $(\Omega, \mathcal{A})$ est appelé un espace probabilisable.
Dans ce cours, l'univers $\Omega$ sera fini le plus souvent, et la tribu $\mathcal{A}$ sera pratiquement toujours l'ensemble $\mathcal{P}(\Omega)$ de toutes les parties de $\Omega$. On peut donc se permettre de ne pas trop se soucier de la question. Quand l'univers $\Omega$ est infini, des subtilités apparaissent et on peut être amené à considérer des tribus plus petites, ne contenant pas toutes les parties de $\Omega$.
Pour s'exercer sur la notion d'événement aléatoire, voir la feuille 1 exercice 2.
Probabilité
Définition axiomatique
À titre culturel, on donne la définition axiomatique d'une probabilité.
Étant donné un espace probabilisable (c'est-à-dire un univers $\Omega$ et une tribu $\mathcal{A}$), une probabilité est une fonction qui à chaque événement associe une valeur numérique :
$$\begin{align*} \P : \mathcal{A} & \longrightarrow [0,1] \\ A & \longmapsto \P(A) \end{align*}$$
satisfaisant les propriétés
- $\P(\Omega) = 1$
- Pour toute famille $(A_n)_{n \ge 0}$ d'événements 2 à 2 disjoints (c'est-à-dire que $A_i \cap A_j = \emptyset$ pour tous $i \ne j$), la probablité de leur réunion est la somme de leurs probabilités : $$\P\left(\bigcup_{i = 0}^{+\infty} A_i \right) = \sum_{i = 0}^{+\infty} \P(A_i)$$
On dit que le triplet $(\Omega, \mathcal{A}, \P)$ forme un espace probabilisé.
Ce cours ne fera pas vraiment appel dans la suite à cette définition formelle (mais on sera amené à utiliser les propriétes qui en découlent et que nous énonçons dans la suite). Notons que pour un espace probabilisable $(\Omega, \mathcal{A})$ donné, il y a plusieurs façons de choisir une probabilité pour en faire un espace probabilisé. Décider laquelle on prend relève d'un choix de modélisation. Nous donnons quelques exemples qui illustrent cela.
Pour le lancer d'une pièce de monnaie, on prend $\Omega = \{\pile, \face\}$ pour univers, et pour tribu l'ensemble des parties de $\Omega$:
$$\mathcal{A} = \mathcal{P}(\Omega) = \{\emptyset, \{ \pile \}, \{ \face \}, \{ \pile, \face \} \} $$
On peut définir une probabilité $ \P : \mathcal{A} \to [0,1]$ par
$$ \begin{align*} \P : \qquad \qquad \emptyset & \longmapsto 0 \\ \{ \pile \} & \longmapsto \frac{1}{2} \\ \{ \face \} & \longmapsto \frac{1}{2} \\ \{ \pile, \face \} & \longmapsto 1 \end{align*} $$
On vérifie que cette fonction est effectivement une probabilité selon notre définition, car on a bien
$$ \begin{align*} \P(\{ \pile \} \cup \{ \face \}) &= \P(\{ \pile, \face \}) \\ &= 1 \\ &= \frac{1}{2} + \frac{1}{2} \\ &= \P(\{ \pile \}) + \P(\{ \face \}) \end{align*} $$
Si $p \in [0,1]$, on pourrait définir une autre fonction de probabilité $\P_p$ sur $\mathcal{A}$ en posant $\P_p(\set{\pile}) = p$ et $\P_p(\set{\face}) = 1-p$ (pour $p \ne 1/2$, cela correspondrait aux probabilités observées pour une pièce non équilibrée).
Pour le lancer d'un dé à 6 faces, on prend $\Omega = \{1,2,3,4,5,6\}$. On peut alors définir une fonction de probabilité, dite probabilité uniforme, en posant pour tout $A \subset \Omega$,
$$\P(A) = \frac{|A|}{6}$$
Univers fini équiprobable
Dans le cas où l'univers $\Omega$ est fini, le modèle le plus raisonnable est bien souvent d'attribuer une probabilité égale à tous les singletons s'il n'y a pas de raison de penser qu'un résultat est plus probable qu'un autre. C'est-à-dire que pour tout $\omega \in \Omega$, on pose
$$\P(\{\omega\}) = \frac{1}{|\Omega|}$$
et pour un événement $A \subset \Omega$, on a
$$ \begin{align*} \P(A) = \frac{|A|}{|\Omega|} \end{align*} $$
Ce que l'on retient souvent sous la forme : la probabilité d'un événement est le "nombre de cas favorables" divisé par le "nombre de cas total".
Propriétés générales
En conséquence de la définition générale d'une fonction de probabilité, nous avons les propriétes suivantes :
- $\P(\Omega) = 1$ et $\P(\emptyset) = 0$
- $\P(\overline{A}) = 1 - \P(A)$
- Si $A \subset B$, alors $\P(A) \le \P(B)$
- $\P(A \cup B) = \P(A) + \P(B) - \P(A \cap B)$
Ici, $\overline{A}$ désigne le complémentaire de $A$. La propriété $\P(\overline{A}) = 1 - \P(A)$ se révèle très pratique dans de nombreux cas où la probabilité du complémentaire est plus facile à calculer.
Événements indépendants
Étant donné un espace probabilisé $(\Omega, \mathcal{A}, \P)$, on dit que deux événements $A, B \in \mathcal{A}$ sont indépendants si
$$\P(A \cap B) = \P(A) \times \P(B)$$
Moralement, deux événements sont indépendants si savoir que l'un a été réalisé (ou pas) ne donne aucune information sur la réalisation de l'autre. Il faut faire attention au fait que l'indépendance d'événements est une notion qui dépend du choix de la probabilité (c'est pour cela que notre définition commence par se donner un espace probabilisé).
Indépendance pour plus de 2 événements
On peut étendre la notion d'indépendance à une famille de plusieurs événements mais il faudra alors distinguer deux notions : indépendants deux à deux, et indépendants mutuellement (ce qui est plus fort). Donnons la définition
Étant donné un espace probabilisé $(\Omega, \mathcal{A}, \P)$, et une famille d'événements $(A_i)_{i \in I} \in \mathcal{A}^I$, on dira que les événements $A_i$ sont
- deux à deux indépendants si pour tous $i,j \in I$ avec $i \ne j$, les événements $A_i$ et $A_j$ sont indépendants, c'est-à-dire $$\P(A_i \cap A_j) = \P(A_i) \times \P(A_j)$$
- mutuellement indépendants si pour toute partie finie $J \subset I$, on a $$\P\left( \bigcap_{j \in J} A_j\right) = \prod_{j \in J} \P\left(A_j\right)$$
La notion d'indépendance mutuelle est plus forte que celle d'indépendance deux à deux. En effet, des événements qui sont mutuellement indépendants sont aussi 2 à 2 indépendants, mais il est possible pour des événements 2 à 2 indépendants de ne pas être mutuellement indépendants (c'est par exemple le cas des événements $A$, $B$ et $C$ de l'exemple précédent qui sont 2 à 2 indépendants, mais pas mutuellement indépendants).
Pour trois événements $A$, $B$ et $C$, dire qu'ils sont deux à deux indépendants revient à avoir les trois égalités : $$\P(A \cap B) = \P(A) \times \P(B), \qquad \P(B \cap C) = \P(B) \times \P(C), \qquad \P(C \cap A) = \P(C) \times \P(A)$$
Pour que les événements soient mutuellement indépendants, il faut également vérifier une égalité supplémentaire : $$\P(A \cap B \cap C) = \P(A) \times \P(B) \times \P(C)$$
Pouvez-vous écrire les 11 égalités qui traduisent l'indépendance mutuelle de quatre événements $A$, $B$, $C$ et $D$ ?
Quatre événements $A$, $B$, $C$ et $D$ sont mutuellement indépendants s'ils sont indépendants 2 à 2 :
$$\begin{align*} \P(A \cap B) = \P(A) \times \P(B) && \qquad \P(B \cap C) = \P(B) \times \P(C) \\ \\ \qquad \P(C \cap D) = \P(C) \times \P(D) && \P(D \cap A) = \P(D) \times \P(A) \\ \\ \qquad \P(B \cap D) = \P(B) \times \P(D) && \P(A \cap C) = \P(A) \times \P(C) \end{align*}$$indépendants 3 à 3 :
$$\begin{align*} \P(B \cap C \cap D) = \P(B) \times \P(C) \times \P(D) \\ \\ \qquad \P(A \cap C \cap D) = \P(A) \times \P(C) \times \P(D) \\ \\ \qquad \P(A \cap B \cap D) = \P(A) \times \P(B) \times \P(D) \\ \\ \qquad \P(A \cap B \cap C) = \P(A) \times \P(B) \times \P(C) \end{align*}$$et enfin, indépendants 4 à 4 :
$$\P(A \cap B \cap C \cap D) = \P(A) \times \P(B) \times \P(C) \times \P(D)$$Probabilité conditionnelle
La probabilité conditionnelle prend en compte comment la probabilité d'un événement est modifiée par une nouvelle information. Par exemple, imaginons que je prenne mon parapluie dès qu'il pleut. Si la probabilité qu'il pleuve est de $1/2$, alors la probabilité que je prenne mon parapluie est donc aussi $1/2$, mais la probabilité que je prenne mon parapluie sachant qu'il pleut est de $1$ !
Soit $(\Omega, \mathcal{A}, \P)$ un espace probabilisé, et $A \in \mathcal{A}$ un événement de probabilité non nulle, alors l'application $\P_{A} : \mathcal{A} \to [0,1]$ définie pour tout $B \in \mathcal{A}$ par
$$\P_{A}(B) = \P(B | A) = \frac{\P(A \cap B)}{\P(A)}$$
est une probabilité, appelé probabilité conditionnellement à $A$, ou probabilité sachant $A$.
On peut interpréter $\P(B | A)$ comme la probabilité de l'événement $B$ dès lors qu'on sait que l'évenement $A$ s'est produit. La formule de la probabilité conditionnelle est parfois utilisée sous la forme
$$\P(A \cap B) = \P(B | A) \P(A)$$
Ce qui fournit bien souvent un moyen de calculer la probabilité d'une intersection d'événements.
Probabilité conditionnelle et indépendance
On peut caractériser l'indépendance de deux événements en termes de probabilité conditionelle. On a en effet la proposition suivante.
Soit $(\Omega, \mathcal{A}, \P)$ un espace probabilisé, et $A, B \in \mathcal{A}$ deux événements. On suppose que $\P(A) \ne 0$. Alors $A$ et $B$ sont indépendants si et seulement si
$$\P(B | A) = \P(B)$$
On peut interpréter l'égalité $\P(B | A) = \P(B)$ de la façon suivante : connaître $A$ n'apporte aucune nouvelle information sur $B$, donc la probabilité de $B$ est inchangée.
Formule de Bayes
Soit $(\Omega, \mathcal{A}, \P)$ un espace probabilisé, et $A, B \in \mathcal{A}$ deux événements de probabilité non nulle. Alors on a
$$\P(A | B) = \frac{\P(B | A) \cdot \P(A)}{\P(B)}$$
Voir feuille 1 pour un exemple d'application de la formule.
La preuve de la formule de Bayes n'est pas compliquée, mais cette égalité est étonnemment profonde dans l'interpretation qu'on peut lui donner, c'est notamment la base des statistiques inférentielles.
Formule des probabilites totales
Il est parfois intéressant de découper l'univers en plusieurs parties disjointes pour étudier les choses séparément dans chaque cas. Cela nous amène à poser la définition suivante.
Soit $(\Omega, \mathcal{A})$ un espace probabilisable, et $(A_i)_{i \in I}$ une famille d'événements de $\mathcal{A}$. On dit que la famille d'événements $(A_i)_{i \in I}$ forme une partition de l'univers $\Omega$ (on parle également de système exhaustif ou système complet) si
- Les événements sont disjoints deux à deux : Pour tout $i, j \in I$ avec $i\ne j$, on a $A_i \cap A_j = \emptyset$.
- Les événements recouvrent l'univers : $$\bigcup_{i \in I} A_i = \Omega$$
Un façon de le comprendre est que les événements $(A_i)_{i \in I}$ forment une partition de $\Omega$ si tout élément $\omega \in \Omega$ se trouve dans un et un seul des ensembles $A_i$.
On lance deux dés à 6 faces. On prend donc $\Omega = [\![1,6]\!]^2$. Et pour $n \in [\![2,12]\!]$ on considère l'événement
$$ \begin{align*} A_n &= \text{"la somme des valeurs de deux dés fait } n {"} \\ &= \set{(x,y) \in \Omega, x + y = n} \end{align*} $$
Alors la famille $(A_n)_{1 \le n \le 12}$ constitue une partition de $\Omega$ : en effet, si $\omega = (x,y) \in A_i \cap A_j$, alors $x +y = i = j$ donc $i = j$. Donc les $A_i$ sont deux à deux disjoints. Et si $\omega = (x,y) \in \Omega$, alors $\omega \in A_{x+y}$, donc les $A_i$ recouvrent bien tout $\Omega$.
Soit $(\Omega, \mathcal{A}, \P)$ un espace probabilisé, et $(A_i)_{i \in I}$ une partition de $\Omega$, avec $I$ un ensemble fini ou dénombrable. Pour tout événement $B \in \mathcal{A}$, on a
$$ \P(B) = \sum_{i \in I} \P(B \cap A_i)$$Et si de plus on suppose que $P(A_i) \ne 0$ pour tout $i \in I$, alors on peut écrire
$$ \P(B) = \sum_{i \in I} \P(B | A_i) \cdot \P(A_i)$$En combinant la formule de Bayes avec celle des probabilités totales, on obtient une formule assez utile que nous donnons dans la proposition suivante.
Soit $(\Omega, \mathcal{A}, \P)$ un espace probabilisé, et $(A_i)_{i \in I}$ une partition de $\Omega$ par des ensembles de probabilité non nulle, avec $I$ un ensemble fini ou dénombrable. Pour tout événement $B \in \mathcal{A}$ de probabilité non nulle, on a
$$\P(A_i | B) = \frac{\P(B | A_i) \cdot \P(A_i)}{\sum_{j \in I} \P(B | A_j) \cdot \P(A_j)}$$