Subclasă | Bord |
---|---|
Inventator | Karl Pearson |
Un tabel de contingență este o metodă de reprezentare a datelor rezultate dintr-un număr care face posibilă estimarea dependenței dintre două caractere. Acesta constă în încrucișarea a două caractere ale unei populații (de exemplu, o grupă de vârstă și un scor) prin numărarea numărului corespunzător conjuncției „caracter 1” și „caracter 2”.
Numerele parțiale sunt adunate într-un tabel cu intrare dublă, după linie pentru primul caracter și după coloană conform celui de-al doilea caracter: acesta este „tabelul de contingență”.
Acest instrument simplu răspunde la o problemă crucială în statistici: detectarea posibilelor dependențe între calitățile notate de indivizii unei populații. Existența dependențelor condiționate sugerează într-adevăr posibilitatea stocării rezultatelor unui sondaj într-un mod mai condensat.
Noțiunea de tabel pivot , propusă de foi de calcul , este o generalizare a tabelului de contingență clasic.
Termenul de tabel de contingență a fost introdus de statisticistul britanic Karl Pearson într-un eseu intitulat Despre teoria teorii de contingență și relația sa cu asocierea și corelația normală , în 1904.
Studiile sunt efectuate pe mai multe personaje, încercând apoi să se stabilească dacă există vreo legătură între ele. Pentru aceasta, studiem indivizii identificând mai multe personaje în același timp.
De exemplu, vârsta și cât de des vă îmbolnăviți sunt legate?
Vârstă / pacient | De 0 ori | 1 timp | de 2 ori | de 3 ori | De patru ori |
---|---|---|---|---|---|
20 ≤ vârsta <30 ani | 4 persoane | 2 persoane | 2 persoane | 1 individ | 1 individ |
30 ≤ vârsta <40 ani | 4 | 3 | 3 | 1 | 1 |
40 ≤ vârsta <50 ani | 7 | 2 | 1 | 0 | 0 |
50 ≤ vârsta <60 ani | 3 | 2 | 1 | 1 | 1 |
vârsta ≥ 60 de ani | 0 | 0 | 0 | 1 | 1 |
Tabelul de contingență conduce în mod natural la noțiunea de probabilitate condițională în cazul discret.
Cu un tabel de p rânduri și q coloane, dacă notăm n ij numărul de la intersecția rândului i (cu p rânduri) și coloana j, numărul total de persoane sortate după tabel este:
La fel, putem calcula totalurile după rând și după coloană:
Forța de muncă parțială n ij reprezintă un procent f ij din forța de muncă totală:
Putem privi acest procent ca o probabilitate (din moment ce ): este probabilitatea comună ca un individ din populația studiată să îndeplinească simultan criteriul asociat cu rândul i ( L i ) și cu coloana j ( C j ).
este probabilitatea ca un individ să îndeplinească condiția L i . este o probabilitate condițională: este probabilitatea ca un individ să răspundă la condiția L i știind că respectă condiția C j .
și la fel:
Deci avem :
care este formula lui Bayes .
Cu exemplul anterior, n = 42 și avem, de exemplu, următoarele rezultate: