În statistici , testele de normalitate permit verificarea dacă datele reale urmează sau nu o distribuție normală . Testele de normalitate sunt cazuri speciale de test de potrivire (sau de ajustare a testelor , teste pentru compararea distribuțiilor) aplicate unei distribuții normale.
Aceste teste ocupă un loc important în statistici . Într-adevăr, multe teste presupun ca normalitatea distribuțiilor să fie aplicabilă. Strict vorbind, este esențial să se verifice normalitatea înainte de a utiliza testele . Cu toate acestea, multe teste sunt suficient de robuste pentru a putea fi utilizate chiar dacă distribuțiile se abat de la distribuția normală .
Este posibil să se vizualizeze forma distribuției datelor care urmează să fie analizate reprezentându-le sub forma unei histograme, apoi să se compare forma acestei histograme cu o curbă reprezentând o lege normală (parametrii acestei legi fiind calculați din date de analizat) .analizați). Acest lucru nu concluzionează normalitatea datelor, dar poate da o idee despre tipul legislației de bază: distribuție normală , distribuție Cauchy sau distribuție Student dacă distribuția pare simetrică, lognormală , legea gamma , legea Weibull , legea exponențială sau legea beta dacă distribuția este asimetrică.
De asemenea , este posibil să se reprezinte histograma a reziduurilor (adică diferența dintre distribuția observată și distribuția normală). Reziduurile trebuie să urmeze, de asemenea, o distribuție normală.
Un boxplot face posibilă vizualizarea rapidă a simetriei distribuției datelor reale și a prezenței valorilor aberante.
Coeficienții de asimetrie și kurtoză sunt de asemenea utili pentru definirea unei distribuții normale.
Pentru turtire:
și pentru asimetrie:
unde este rădăcina unui estimator al varianței imparțiale.
Știm de fapt că coeficientul de asimetrie este egal cu zero pentru orice lege normală, în timp ce coeficientul de aplatizare este egal cu 3 (0 dacă este normalizat)
Există, de asemenea, un număr mare de teste de normalitate:
Un articol din Journal of Statistical Modeling and Analytics din 2011 concluzionează că Shapiro-Wilk are cea mai bună potență pentru un anumit nivel de semnificație, urmat îndeaproape de Anderson-Darling, comparând testele lui Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors și Anderson-Darling.
Testele de normalitate sunt teste de ipoteză . Prin notând funcția de distribuție pe baza datelor care urmează să fie analizate și teoretic funcția de distribuție , nule și alternative ipoteze pot fi scrise:
.
Testele pe momente au o presupunere mai slabă, nu testează dacă funcția de distribuție este normală, dar dacă momentele (asimetria și coeficienții de curtoză) ale distribuției necunoscute sunt identice cu cele ale unei distribuții normale:
Rețineți că acest lucru nu este suficient pentru a caracteriza o lege normală ( problema momentului ).
Utilizarea sa nu este recomandată din cauza lipsei de putere și a necesității de a împărți distribuțiile în clase.
O aplicație a testelor de normalitate se referă la reziduurile unui model de regresie liniară. Dacă nu sunt distribuite în mod normal, reziduurile nu pot fi utilizate în testele Z sau în orice alt test, atâta timp cât implică presupuneri de normalitate (de exemplu, testul t , testul Fisher sau testul χ² ). Dacă reziduurile nu sunt distribuite în mod normal, înseamnă că variabila dependentă sau cel puțin o variabilă explicativă ar putea avea o funcție de distribuție eronată; variabile importante pot lipsi, de asemenea. Una sau mai multe corecții ale acestor erori clasice pot duce la reziduuri care urmează o distribuție normală.