Probabilità a posteriori

In statistica bayesiana, la probabilità a posteriori di un evento aleatorio o di una proposizione incerta, è la probabilità condizionata che è assegnata dopo che si è tenuto conto dell'informazione rilevante o degli antefatti relativi a tale evento aleatorio o a tale proposizione incerta. Similmente, la distribuzione di probabilità a posteriori è la distribuzione di una quantità incognita, trattata come una variabile casuale, condizionata sull'informazione posta in evidenza da un esperimento o da un processo di raccolta di informazione rilevanti (es. un'ispezione, un'indagine conoscitiva, ecc.).

Definizione

La probabilità a posteriori è la probabilità dei parametri θ {\displaystyle \theta } data la conoscenza di X {\displaystyle X} : p ( θ | X ) {\displaystyle p(\theta |X)} .

Essa differisce dalla funzione di verosimiglianza, che è la probabilità di possedere una data conoscenza una volta dati i parametri: p ( X | θ ) {\displaystyle p(X|\theta )} .

I due concetti sono però tra loro collegati:

Supponiamo di avere una credenza a priori che la funzione di distribuzione di probabilità sia p ( θ ) {\displaystyle p(\theta )} e i dati osservati X {\displaystyle X} con una verosimiglianza p ( X | θ ) {\displaystyle p(X|\theta )} , allora la probabilità a posteriori è definita come

p ( θ | X ) = p ( X | θ ) p ( θ ) p ( X ) . {\displaystyle p(\theta |X)={\frac {p(X|\theta )p(\theta )}{p(X)}}.} [1]

La probabilità a posteriori può essere scritta in una forma mnemonica come

probabilità a posteriori probabilità a priori × verosimiglianza {\displaystyle {\text{probabilità a posteriori}}\propto {\text{probabilità a priori}}\times {\text{verosimiglianza}}} .

Esempio

Consideriamo una scuola mista composta dal 60% di ragazzi e dal 40% di ragazze. Le ragazze indossano pantaloni o gonne in numeri eguali, i ragazzi indossano tutti pantaloni. Un osservatore vede da distante uno studente (a caso); tutto quello che può dire è che indossa pantaloni. Qual è la probabilità che lo studente sia una ragazza? La risposta corretta può essere dedotta applicando il teorema di Bayes.

L'evento G è quello in cui lo studente visto è una ragazza, e l'evento T è quello in cui lo studente visto indossa pantaloni. Per calcolare P(G|T) abbiamo prima bisogno di sapere:

  • P(G), ossia la probabilità che lo studente sia una ragazza indipendentemente da ogni altra informazione. Poiché l'osservatore vede uno studente a caso, è sottintendendo che ogni studente abbia la medesima probabilità di essere osservato di ogni altro, e che la percentuale di ragazze tra gli studenti è del 40%, allora la probabilità cercata è 0.4.
  • P(B), ossia la probabilità che lo studente non sia una ragazza (cioè che sia un ragazzo) indipendentemente da ogni altra informazioni (B è l'evento complementare a G). Questa probabilità è del 60%, ossia 0.6.
  • P(T|G), ossia la probabilità che lo studente indossi dei pantaloni data l'informazione a priori che sia una ragazza. Poiché è egualmente probabile che una ragazza indossi pantaloni o gonna, questa probabilità è 0.5.
  • P(T|B), ossia la probabilità di uno studente di indossare pantaloni se a priori è un ragazzo. Questo è certo per cui è pari ad 1.
  • P(T), ossia la probabilità di uno studente (scelto casualmente) di indossare pantaloni indipendentemente da ogni altra informazione. Poiché P(T) = P(T|G)P(G) + P(T|B)P(B) (tramite il teorema della probabilità assoluta), questo è 0.5×0.4 + 1×0.6 = 0.8.

Una volta ottenute tutte queste informazioni, la probabilità che l'osservatore abbia individuato una ragazza una volta visto uno studente che indossa pantaloni può essere calcolata sostituendo i valori nella formula:

P ( G | T ) = P ( T | G ) P ( G ) P ( T ) = 0.5 × 0.4 0.8 = 0.25. {\displaystyle P(G|T)={\frac {P(T|G)P(G)}{P(T)}}={\frac {0.5\times 0.4}{0.8}}=0.25.}

Calcolo

La distribuzione di probabilità a posteriori di una variabile casuale dato il valore di un'altra, può essere calcolata con il teorema di Bayes moltiplicando la distribuzione di probabilità a priori per la funzione di verosimiglianza, e quindi dividendo per una costante di normalizzazione come segue:

f X Y = y ( x ) = f X ( x ) L X Y = y ( x ) f X ( x ) L X Y = y ( x ) d x {\displaystyle f_{X\mid Y=y}(x)={f_{X}(x)L_{X\mid Y=y}(x) \over {\int _{-\infty }^{\infty }f_{X}(x)L_{X\mid Y=y}(x)\,dx}}}

la quale fornisce la funzione di densità di probabilità per una variabile casuale X una volta dato Y = y, dove

  • f X ( x ) {\displaystyle f_{X}(x)} è la densità a priori di X,
  • L X Y = y ( x ) = f Y X = x ( y ) {\displaystyle L_{X\mid Y=y}(x)=f_{Y\mid X=x}(y)} è la funzione di verosimiglianza come una funzione di x,
  • f X ( x ) L X Y = y ( x ) d x {\displaystyle \int _{-\infty }^{\infty }f_{X}(x)L_{X\mid Y=y}(x)\,dx} è la costante di normalizzazione, e
  • f X Y = y ( x ) {\displaystyle f_{X\mid Y=y}(x)} è la densità a posteriori di X dato Y = y.

Classificazione

Nell'ambito della classificazione statistica le probabilità a posteriori riflettono l'incertezza nell'assegnare un'osservazione ad una classe particolare. Mentre i metodi di classificazione statistica per definizione generano probabilità a posteriori, gli apprenditori automatici solitamente forniscono valori di appartenenza che non inducono alcuna confidenza di tipo probabilistico. È desiderabile trasformare o convertire i valori di appartenenza a valori di probabilità di appartenenza ad una certa classe in quanto tali classi sono, in confronto ai primi, di più facile trattamento in susseguenti elaborazioni.

Note

  1. ^ Christopher M. Bishop, Pattern Recognition and Machine Learning, Springer, 2006, pp. 21–24, ISBN 978-0-387-31073-2.

Bibliografia

  • Peter M. Lee, Bayesian Statistics, an introduction, 3rd, Wiley, 2004, ISBN 978-0-340-81405-5.

Voci correlate

Collegamenti esterni

  • (EN) posterior distribution / posterior probability / a posteriori distribution, su Enciclopedia Britannica, Encyclopædia Britannica, Inc. Modifica su Wikidata