Subclasa de | Matematică , știință formală |
---|---|
O parte din | Matematică , economie |
Practicat de | Statistician |
Camp | Statisticile descriptive |
Obiecte |
Legea probabilității datelor |
Istorie | Istoria statisticilor |
Statistica este disciplina care studiază fenomenele prin colectarea datelor , prelucrarea, analiza, interpretarea rezultatelor și a lor de prezentare pentru a face date ușor de înțeles de către toți. Este în același timp o ramură a matematicii aplicate, o metodă și un set de tehnici .
Rețineți că statisticile sunt uneori denumite „Statistici” (cu litere mari), ceea ce face posibilă diferențierea aplicațiilor sale matematice cu o statistică (cu litere mici). Pluralul este adesea folosit pentru a-l desemna: „statistici”, aceasta permite să arate diversitatea acestei științe .
Statistica este un domeniu al matematicii și mai mult, face parte din ceea ce numim acum știința datelor (în engleză : Data Science ). Analiza aplică legi matematice mai generale (seturi, grupuri, incluziune, excludere). Are o componentă teoretică, precum și o componentă aplicată. Componenta teoretică se bazează pe teoria probabilității și formează cu aceasta din urmă, analiza fenomenelor aleatorii. Statisticile aplicate sunt utilizate în aproape toate domeniile activității umane: inginerie , management , economie , biologie , informatică , fizică (fundamentele fizicii cuantice , de exemplu). Statistica folosește reguli și metode privind colectarea datelor, astfel încât acestea să poată fi interpretate corect, adesea ca o componentă a suportului decizional. Statistician profesiei s este dezvoltarea unor instrumente statistice, în sectorul public sau privat, precum și utilizarea acestora , în general , într - un domeniu de expertiză.
Deși statistica numelui este relativ nouă - de obicei atribuită originea numelui în secolul al XVIII- lea , Staatskunde germană - această activitate pare a fi de la nașterea primelor structuri sociale. Mai mult, primele texte scrise găsite sunt recensămintele animalelor, informații despre cursul acestora și diverse contracte. Complotul a fost bine recensământ în China sau Egipt, secolul al XVIII- lea î.Hr. AD Acest sistem de colectare a datelor continuă până la al XVII - lea secol . În Europa , rolul colectorului de date este adesea deținut de breslele comercianților, apoi de administratorii de stat.
Abia în secolul al XVIII- lea se vede rolul proiectat al statisticilor, odată cu construirea primelor tabele de mortalitate . Antoine Deparcieux a scris în 1746 Eseu asupra probabilităților de durata de viata umana . Acestea vor fi utilizate mai întâi de companiile de asigurări de viață, care sunt apoi create.
Statisticile sunt, de asemenea, suport pentru istoria prospectivă sau retrospectivă, în special demografia . Astfel, în 1842, baronul de Reiffenberg a prezentat Academiei calculele sale retrospective ale populației dintre popoarele galice, conform cifrelor lăsate de Iulius Cezar în Comentariile sale asupra războaielor galice ( De bello Gallico , v.).
Statisticile matematice s-au bazat pe prima lucrare privind probabilitățile , dezvoltată de Fermat și Pascal . Probabil în Thomas Bayes am văzut apariția unui embrion statistic inferențial. Condorcet și Laplace încă vorbeau despre probabilitate , în timp ce astăzi am vorbi despre frecvență . Dar lui Adolphe Quetelet îi datorăm ideea că statisticile sunt o știință bazată pe probabilități .
XIX - lea secol vede aceasta activitate ia în plină expansiune lui. Sunt adoptate reguli precise privind colectarea și interpretarea datelor . Prima aplicare industrială a statisticilor a avut loc în timpul recensământului SUA din 1890 , care a implementat cartea perforată inventată de statisticianul Herman Hollerith . El a depus un brevet cu SUA brevet biroul .
În secolul al XX- lea , aceste aplicații industriale au crescut, mai întâi în Statele Unite , care erau înaintea științei managementului , apoi numai după primul război mondial în Europa . Regimul nazist a folosit metode statistice din 1934 pentru rearmare . În Franța , eram mai puțin conștienți de aceste aplicații.
Aplicația industrială a statisticilor în Franța s-a dezvoltat odată cu crearea Insee , care a înlocuit Serviciul Național de Statistică creat de René Carmille .
Apariția computerului în anii 1940 ( SUA ) și în Europa (în 1960 ), a permis să trateze un număr mai mare de date , dar mai ales să treacă fiecare serie de date la diferite tipuri. Aceasta este dezvoltarea a ceea ce se numește analiză multidimensională . De-a lungul secolului, mai multe curente de gândire se vor ciocni:
Să începem prin a specifica că nu este ușor să oferiți o definiție a statisticilor: așa cum s-a explicat în secțiunea anterioară, definițiile statisticilor evoluează în funcție de epocă sau de utilizarea sa. În 1935, statisticianul Walter F. Willcox a numărat între 100 și 120 de definiții diferite.
„Printre temele pe care statisticienii nu sunt de acord este definiția științei lor. "
Să oferim mai întâi cea mai clasică definiție utilizată în prezent, cel puțin din 1982: „Statisticile sunt ansamblul de metode care au ca obiect colectarea, prelucrarea și interpretarea datelor observaționale referitoare la un grup de„ indivizi sau unități. „ Prin această definiție, statisticile apar ca date autonome orientate spre știință, cum ar fi fizica față de materie și biologia față de viață. Dar, deoarece se bazează pe teoria probabilității , fiind ea însăși o știință a întâmplării (vezi Interconexiuni între teoria probabilității și statistică pentru mai multe detalii), apare adesea, în special dintr-un punct din perspectivă academică, ca o ramură a matematicii aplicate. Astăzi face parte dintr-un domeniu disciplinar mai transversal pe care anglo-saxonii îl numesc „Știința datelor” și în care, în plus, IT-ul are și un loc important. Diferitele aspecte ale statisticii sunt grupate în diferite domenii sau concepte: statistici descriptive , mai cunoscute astăzi ca statistici exploratorii , inferență statistică , statistici matematice , analize de date , învățare statistică etc.
John Tukey susține că există două abordări ale statisticii, între care jonglează constant: statistici exploratorii și statistice confirmatorii ( statistici exploratorii și confirmatorii ):
În 1982, statisticianul Pierre Dagnelie a propus trei tendințe majore în statistici:
În practică, metodele și instrumentele statistice sunt utilizate în domenii precum:
Scopul statisticilor este de a extrage informații relevante dintr-o listă de numere care sunt greu de interpretat printr-o simplă citire. În funcție de circumstanțe, sunt utilizate două familii principale de metode. Nimic nu le împiedică să fie folosite în paralel într-o problemă concretă, dar nu trebuie să uităm că rezolvă probleme de naturi total diferite. Conform terminologiei clasice, acestea sunt statistici descriptive și statistici matematice . Astăzi, se pare că sunt preferate expresii precum analiza datelor și statisticile inferențiale , ceea ce se justifică prin progresul metodelor utilizate în primul caz.
Luați în considerare, de exemplu, scorurile generale la un examen. Poate fi interesant să se obțină o valoare centrală din aceasta care să ofere o idee sintetică a nivelului elevilor. Aceasta poate fi completată de o valoare de dispersie care măsoară, într-un anumit mod, omogenitatea grupului. Dacă dorim informații mai precise despre acest ultim punct, putem construi o histogramă sau, dintr-un punct de vedere ușor diferit, să luăm în considerare decilele . Aceste concepte pot fi de interes pentru a face comparații cu examene similare luate în anii precedenți sau în alte locuri. Acestea sunt cele mai de bază probleme de analiză a datelor care se referă la o populație finită . Problemele cu statisticile multidimensionale necesită utilizarea algebrei liniare. Indiferent de natura, elementară sau nu, a problemei, este vorba de reduceri statistice ale datelor cunoscute în care introducerea probabilităților ar îmbunătăți cu greu informațiile obținute. Este rezonabil să grupați aceste noțiuni diferite:
O schimbare radicală are loc atunci când datele nu mai sunt considerate informații complete care trebuie decriptate conform regulilor algebrei, ci ca informații parțiale despre o populație mai mare, considerată în general ca o populație infinită . Pentru a induce informații despre populația necunoscută este necesar să se introducă noțiunea de lege a probabilității . Datele cunoscute constituie în acest caz realizarea unui eșantion , set de variabile aleatorii presupuse a fi independente (a se vedea Legea probabilității cu mai multe variabile ). Teoria probabilității permite apoi, printre alte operații:
Sondajul statistic este întotdeauna precedat de o fază în care sunt determinate diferitele caracteristici de studiat.
Următorul pas este alegerea populației de studiat. Apare apoi problema eșantionării: alegerea populației care urmează să fie sondată (în sens larg: acesta poate fi un sondaj de opinie prin interogarea oamenilor sau colectarea de roci pentru a determina natura unui sol în geologie), dimensiunea populația și reprezentativitatea acesteia.
Fie că este vorba de o colecție totală (recensământ) sau parțială (sondaj), trebuie puse în aplicare protocoale pentru a evita erorile de măsurare, indiferent dacă sunt accidentale sau repetitive (părtinire).
Preprocesare a datelor este extrem de importantă, într - adevăr, o transformare a datelor inițiale (un pasaj cu logaritmul, de exemplu), poate facilita în mod considerabil în urma prelucrării statistice.
Rezultatul anchetei statistice este o serie de date cantitative (dimensiuni, salarii) sau date calitative (limbi vorbite, mărci preferate). Pentru a le putea folosi, va fi necesar să se facă o clasificare și un rezumat vizual sau digital. Uneori va fi necesară efectuarea compresiei datelor . Aceasta este sarcina statisticilor descriptive. Va fi diferit în funcție de faptul dacă studiul se concentrează pe una sau mai multe variabile.
Studiul unei singure variabileGruparea datelor, calculul numerelor, construcția graficelor permit un prim rezumat vizual al caracterului statistic studiat. În cazul unui caracter cantitativ continuu, histograma este cea mai comună reprezentare grafică.
Valorile numerice ale unui caracter statistic sunt distribuite în , este necesar să se definească pozițiile lor. În statistici, suntem, în general, în prezența unui număr mare de valori. Cu toate acestea, dacă toate aceste valori formează informațiile, nu este ușor să manipulați câteva sute sau chiar mii de date și nici să trageți concluzii din acestea. Prin urmare, este necesar să se calculeze câteva valori care vor face posibilă analiza datelor: acesta este rolul reducerilor statistice. Acestea pot fi extrem de concise, reduse la un număr: acesta este cazul cu valorile centrale și valorile scatter. Unele dintre ele (cum ar fi varianța ) sunt dezvoltate pentru a permite o utilizare mai teoretică a datelor (a se vedea inferența statistică ).
De asemenea, putem încerca să comparăm două populații. Vom fi mai interesați mai ales de criteriile lor de poziție, de dispersie, de graficul lor de box sau de analiza varianței .
Studiul mai multor variabileResursele informatice permit acum studierea mai multor variabile simultan. Cazul a două variabile va da naștere la crearea unui nor de puncte, a unui posibil studiu de corelație între cele două fenomene sau a unui studiu de regresie liniară .
Dar se pot întâlni studii asupra a mai mult de două variabile: este analiza multidimensională în care se va găsi analiza în componentele principale , analiza în componente independente , regresia liniară multiplă și explorarea datelor (numită și „ descoperirea cunoștințelor ” sau „ exploatarea datelor ”). Astăzi, exploatarea datelor se bazează, printre altele, pe statistici pentru a descoperi relații între variabile în baze de date foarte mari. Progresele tehnologice (creșterea frecvenței senzorilor disponibili, a mijloacelor de stocare și a puterii de calcul) oferă interes real explorării datelor.
Scopul inferenței statistice este de a scoate în evidență proprietățile unui set de variabile cunoscute doar prin câteva dintre realizările sale (care constituie un eșantion de date).
Se bazează pe rezultatele statisticilor matematice , care aplică calcule matematice riguroase privind teoria probabilității și teoria informației în situații în care sunt observate doar câteva realizări (experimente) ale fenomenului care urmează să fie studiat.
Fără statistici matematice , un calcul al datelor (de exemplu, o medie) este doar un indicator . Statistica matematică îi conferă statutul de estimator , a cărui tendință , incertitudine și alte caracteristici statistice sunt controlate . În general, dorim ca estimatorul să fie imparțial, convergent (sau consecvent) și eficient.
Putem face, de asemenea, presupuneri cu privire la legea care generează fenomenul general, de exemplu „dimensiunea copiilor de 10 ani din Franța respectă o lege gaussiană ?” ". Studiul eșantionului va valida sau nu această ipoteză: asta numim testele ipotezelor. La testarea ipotezelor se poate cuantifica probabilitatea ca variabilele (cunoscute doar dintr - un eșantion) satisface o anumită proprietate.
În cele din urmă, putem încerca să modelăm un fenomen a posteriori . Modelarea statistică trebuie diferențiată de modelarea fizică. În al doilea caz, fizicienii (acest lucru este valabil și pentru chimiști, biologi sau orice alt om de știință), încearcă să construiască un model explicativ al unui fenomen, care este susținut de o teorie mai generală care descrie modul în care au loc fenomenele. principiul cauzalității . În cazul modelării statistice, modelul va fi construit din datele disponibile, fără nici un a priori asupra mecanismelor implicate. Acest tip de modelare se mai numește și modelare empirică . Finalizarea modelării statistice cu ecuații fizice (adesea integrată în preprocesarea datelor) este întotdeauna pozitivă.
Un model este mai presus de toate un mijloc de relaționare a variabilelor care trebuie explicat cu variabilele explicative printr-o relație funcțională:
Modelele statistice pot fi grupate în familii numeroase (în funcție de forma funcției ):
Modelele bayesiene (numite după Bayes ) pot fi utilizate în toate cele trei categorii.
Această ramură a matematicii, strâns legată de probabilități, este esențială pentru validarea ipotezelor sau modelelor dezvoltate în statistici inferențiale. Teoria matematică a probabilităților formalizează fenomene aleatorii. Statistica matematică este dedicată studiului fenomenelor aleatorii pe care le cunoaștem prin unele dintre realizările sale .
De exemplu, pentru un joc de zaruri cu șase fețe:
Odată stabilită regula, aceasta poate fi utilizată în statistici inferențiale .
Statisticile sunt utilizate în majoritatea științelor sociale . Acestea prezintă o metodologie comună cu, cu toate acestea, anumite specificități în funcție de complexitatea obiectului de studiu.
În sociologieAnaliza geometrică a datelor ( analiza factorială , clasificarea ierarhică ascendentă ) este foarte des utilizată de sociologii cantitativi. Aceste metode permit elaborarea de profile sintetice luând în considerare un set de variabile cantitative (venit, vârstă etc.) și / sau calitative (sex, categorie socio-profesională etc.). De exemplu, este posibil să se determine sociostile .