Vizualizarea datelor

Vizualizarea datelor
Subclasa de Vizualizare ( in )
O parte din Știința datelor
Oameni cheie William Playfair
Florence Nightingale
Charles Joseph Minard
John Tukey
Edward Tufte

Vizualizare a datelor (sau DataViz sau reprezentare grafică a datelor ) este un set de metode pentru a rezuma deci graficul de date . Vizualizarea datelor face parte din știința datelor .

Vizualizarea datelor se naște în secolul  al XVIII- lea , în special cu opera lui William Playfair . Acesta crește pe scară largă în XIX - lea  secol cu inventarea de carduri de date în anii 1820 și 1830 de către Charles Dupin și André-Michel Guerry , activitatea de Florence Nightingale , iar al doilea XIX - lea  lea cu lucrarea lui Charles Joseph Minard (1781-1870 ), Francis Amasa Walker  sau chiar Émile Cheysson . În cele din urmă, ea devine un impuls de la al doilea XX - lea  secol sub conducerea lui John Tukey care scoate în evidență rolul vizualizării în statistici și de Edward Tufte și în cele din urmă cu dezvoltarea digitale .

Vizualizarea datelor este utilizată în special în statisticile oficiale , în științe , în jurnalism și mai ales în jurnalismul de date și mai general în știința datelor .

Istorie

Este sfârșitul XVIII - lea  secol , cu publicarea în 1786 de către William Playfair (1759-1823) , o carte intitulată comercial și Atlasul politic , în care autorul trasează o serie de grafice de serii de timp reprezentând evoluția datelor economice referitor la Anglia și, în special, la evoluția balanței sale comerciale în  secolul XVIII E , care se naște reprezentarea grafică modernă a datelor. În aceeași carte, autorul reprezintă și primul grafic cu bare din istorie. De asemenea, lui William Playfair îi datorăm prima diagramă circulară cunoscută. Publicat în 1801 în Breviarul statistic , graficul reprezintă aria, valoarea veniturilor și valoarea impozitelor pentru fiecare țară.

În 1819 istoricul Jean Picot a publicat la Geneva un volum intitulat Statistica Elveției sau statului acestei țări și al celor douăzeci și două de cantoane din care este compus [...] . Conține pe o foaie pliantă două grafice bazate pe datele de la Johannes Fehr: „Extinderea sau suprafața comparativă a celor douăzeci și două de cantoane ale Elveției reprezentate de lungimea liniilor trasate lângă numele fiecărui canton” și „ Populația comparativă a celor douăzeci și două de cantoane din Elveția reprezentată de lungimea liniilor trasate lângă numele fiecărui canton ”.

În anii 1820, am început să reprezentăm date statistice pe o hartă. În 1826, Charles Dupin a desenat o hartă coropletă a educației populare din Franța , colorând departamentele franceze în funcție de intensitatea variabilei reprezentate. Această reprezentare vizuală a avut un succes rapid și a fost imediat preluată de André-Michel Guerry și Adriano Balbi, care au desenat hărți coropletice ale anchetei, numărul infracțiunilor împotriva bunurilor și numărul infracțiunilor împotriva oamenilor, apoi de Guerry în Eseul său . statistica morală a Franței publicată în 1833. La scurt timp, Armand Joseph Frère de Montizon a propus prima „ hartă de puncte” , cu o reprezentare a populației franceze pe departamente intitulată Carte Philosophique care arată populația Franței . În 1855, medicul britanic John Snow a întocmit la Londra o hartă a punctelor de holeră pe care reprezenta locația morților și locația punctelor de apă din orașul Londra, subliniind astfel faptul că epidemia se răspândea prin apă. În 1861, Charles Joseph Minard a propus să reprezinte date pe o hartă folosind diagrame circulare a căror suprafață este proporțională cu cantitatea reprezentată ( Exemplu al hărții figurative și aproximative a cantităților de carne de măcelar trimise pe copită de către departamente și consumatori ).

În 1857, Florence Nightingale și-a publicat Diagrama cauzelor mortalității în armata din Est . Graficul arată că soldații englezi angajați în războiul din Crimeea nu mor în luptă în fața inamicului, ci sunt victime ale condițiilor sanitare în care trăiesc.

În 1889, Charles Booth a combinat o abordare etnografică pe scară largă și vizualizarea în formă cartografică, pentru a raporta condițiile de viață din Londra. Acest studiu sociologic, unul dintre cele mai importante de acest gen, a mobilizat o echipă de anchetatori plătiți de Booth pentru a colecta date la nivelul fiecărui parcelă cadastrală. Vizualizarea propusă de Booth detaliază, pe culori, 7 „clase”. Vizualizarea face posibilă identificarea clusterelor, în special pentru cea mai mică clasă pe care Booth o numește „clasă inferioară. Vicios, semi-criminal ”.

În a doua jumătate a XIX - lea  secol , vom găsi mai multe inovații importante, cum ar fi vizualizările prime în trei dimensiuni ale italian Luigi Perozzo sau german Gustav ZEUNER .

În Regatul Unit, Francis Galton a fost cel care a adus o contribuție importantă la vizualizarea datelor oferind reprezentări grafice ale corelației dintre două variabile ( nor de puncte ), dar și hărți meteorologice. .

In primul XX - lea  secol , statisticieni sunt acordând mai puțină atenție de vizualizare a datelor.

În anii 1960, John Tukey a oferit vizualizarea datelor din statistici scrisorile sale de nobilime, în special cu cartea sa Exploratory Data Analysis (1977).

În 2005, Leland Wilkinson a publicat The Grammar of Graphics , una dintre cele mai importante lucrări teoretice privind proiectarea graficelor statistice. Wilkinson definește un grafic statistic ca o corespondență între date și atributele estetice (culoare, formă, dimensiune etc.) ale obiectelor geometrice (puncte, linii, bare etc.).

Structura unei vizualizări

O vizualizare este alcătuită dintr-un element vizual, o scară, un sistem de coordonate și un context.

Într-un nor de puncte , folosim poziția punctelor în spațiu ca element vizual care reprezintă datele. Într-o diagramă cu bare, lungimea barelor este elementul vizual corespunzător datelor.

Sistemul de coordonate poate fi cartezian, polar sau geografic.

Scara poate fi liniară sau logaritmică atunci când este o variabilă cantitativă, categorică atunci când este o variabilă categorică sau temporală când este timpul.

Tipologie după formele reprezentate

Diagramă cu bare

Pentru o diagramă cu bare verticale, reprezentăm pentru fiecare modalitate a unei variabile discrete un dreptunghi a cărui înălțime reprezintă valoarea unei variabile continue și a cărei lățime nu are nicio interpretare statistică.

Pentru o diagramă cu bare orizontale, lățimea dreptunghiului reprezintă valoarea variabilei continue și înălțimea acestui dreptunghi care nu are nicio interpretare statistică.

De asemenea, este obișnuit să întâlnești diagrame cu bare stivuite .

Diagrama circulară

Diagrama circulară poate fi o diagramă circulară sau o diagramă cu gogoși .

Diagrama circulară sau circulară este utilizată pentru a reprezenta proporțiile. Într-o diagramă circulară, este unghiul care reprezintă ponderea fiecărei categorii într-un întreg.

Diagramă circulară este o plăcintă diagramă cu o gaură în mijloc. În acest caz, este lungimea arcului unui cerc corespunzător fiecărei categorii care reprezintă ponderea fiecărei categorii în ansamblul reprezentat.

Un nor de puncte

Graficul scatter este utilizat în mod obișnuit pentru a reprezenta relația dintre două variabile. Într-un nor de puncte, coordonatele fiecărui punct de pe axa x și axa y reprezintă valorile fiecărei variabile. Face posibilă evidențierea unei corelații între două variabile.

Linia

O linie sau grafic de linie este un nor de puncte în care punctele au fost conectate între ele (cu o interpolare care poate fi liniară, cubică ...).

Bule

De asemenea, putem grafica date cantitative folosind bule în care aria bulelor este proporțională cu dimensiunea reprezentată.

Harta termografica

O hartă de căldură (hartă de căldură, hartă de căldură) este o matrice ale cărei celule sunt colorate în funcție de valoarea variabilei reprezentate.

Boxplot

Graficul box-and-whisker rezumă doar câteva caracteristici poziționale ale trăsăturii studiate (mediană, quartile, min / max sau decile). Este folosit în principal pentru a compara aceeași trăsătură la două populații de dimensiuni diferite. Este vorba de trasarea unui dreptunghi care să treacă de la primul quartile la al treilea quartile și tăiat de mediană. Uneori se adaugă segmente la capete care duc la valori min / max sau până la prima și a noua decilă. Aceasta se numește diagramă box sau diagramă pentru picioare.

Sparklines

Sparklines este un format dezvoltat de Edward Tufte pentru mini-grafice care pot fi inserate în text pe o pagină.

Tufte descrie linii de scânteie ca „grafică intensivă în date, simplă în design și dimensiunea unui cuvânt”. În timp ce graficul tipic este conceput pentru a afișa cât mai multe date posibil și este plasat în afara fluxului de text, liniile de scânteie sunt concise, memorabile și situate precis în locul potrivit.

Tipologie în funcție de tipul de date reprezentate

Vizualizarea datelor temporale

Graficul seriilor temporale reprezintă evoluția unei variabile în timp. Este cea mai utilizată reprezentare grafică și interpretarea sa este în general foarte intuitivă.

Dacă seria temporală este discretă, este obișnuit să se utilizeze un grafic cu bare simplu pentru a-l reprezenta. De exemplu, datele anuale sau lunare sunt adesea reprezentate de diagrame cu bare. Pe de altă parte, dacă datele sunt continue, este mai frecvent să le reprezentăm printr-un grafic liniar sau o diagramă de suprafață , așa cum a făcut William Playfair în Atlasul său comercial și politic (vezi aici și aici ).

Vizualizarea datelor geolocalizate

O hartă statistică este utilizată pentru a reprezenta valoarea unei variabile statistice în fiecare dintre unitățile geografice ale unei entități globale. Harta statistică are avantajul de a putea dezvălui ambele o analiză globală, permițând în același timp tuturor să localizeze detalii pentru fiecare unitate geografică. Pe de altă parte, are defectul de a acorda fiecărei unități geografice o importanță proporțională cu aria sa, în timp ce în multe situații ar fi de preferat ca importanța acordată fiecărei unități geografice să fie relativă la o altă variabilă, cum ar fi populația sa de exemplu.

În timp ce hărțile au fost inventate acolo mai mult de 5000 de ani, carduri statisticile sunt doar într - adevăr a apărut la al XVII - lea  secol . În 1686, Edmond Halley reprezintă o hartă a lumii cu simboluri care permit să dea originea și mai ales intensitatea vânturilor. Mai târziu, în XIX - lea  secol , John Snow este o hartă Londra , prin localizarea numărul morților de holeră în timpul epidemiei în septembrie 1854 și punctele de acces la apă în oraș. Harta sa arată că holera este transmisă de apă.

Vizualizarea relației dintre mai multe variabile

Pentru a reprezenta relația dintre două variabile, este obișnuit să se utilizeze un grafic scatter .

Când există mai mult de două variabile, există multe soluții. Cea mai simplă soluție este reprezentarea unei matrice de nori de puncte. De asemenea, puteți utiliza un grafic cu bule în care, la fel ca într-un grafic de împrăștiere, coordonatele bulelor reprezintă valorile a două variabile și în care aria bulelor reprezintă o a treia variabilă.

Vizualizarea proporțiilor

Vizualizarea unei distribuții statistice

În cazul discret, este obișnuit să se utilizeze o diagramă cu bare în care înălțimea fiecărui dreptunghi să reprezinte numerele sau frecvențele asociate fiecărei modalități.

Vizualizarea unei structuri de copac

Atunci când datele au o structură ierarhică, acestea pot fi reprezentate sub forma unei dendrograme , a unei hărți a copacilor sau chiar a unei explozii solare .

Harta de arbori

Treemap-ul este o reprezentare vizuală inventată de Ben Shneiderman în 1990 pentru a reprezenta ocuparea spațiului de pe hard disk-ul său. În această reprezentare, suprafața fiecărui dreptunghi reprezintă partea fiecărui element din ansamblu. Această reprezentare a fost ulterior utilizată în alte scopuri. De exemplu, Martin Wattenberg a folosit-o pentru a reprezenta o „hartă a pieței” în funcție de industrie, în care aria fiecărui dreptunghi este proporțională cu capitalizarea de piață a companiilor din industrie. Marcos Westamp a conceput o hartă de informații în care dimensiunea dreptunghiurilor este o funcție a numărului de articole dedicate subiectului din presă. Matthew Bloch, Shan Carter și Amanda Cox, au folosit un harta pentru a vizualiza cota fiecărui tip de bun în consumul unei gospodării americane și un cod de culoare pentru a vizualiza inflația.

Vizualizarea rețelei

Filippo Menczer (Universitatea Indiana) a fost primul care a descoperit activitatea bot pe Twitter în 2010 printr-o vizualizare a rețelei. Analiza rețelei este acum utilizată pentru a vizualiza formarea bulelor de filtru.

Vizualizarea fluxului

Flowchart este un tip specific de reprezentare pentru vizualizarea fluxurilor  .

Reprezentarea forței de muncă cumulative

Pentru variabilele continue, putem trasa poligonul numerelor cumulative (sau frecvențelor) . Principiul complotului este explicat în articolul statisticilor elementare continue . Acest poligon face posibilă citirea foarte rapidă a efectului unui interval de formă și, prin diferență, a efectului oricărui interval. De asemenea, face posibilă citirea cuartilelor și decilelor foarte repede . Această reprezentare prefigurează graficul funcției de distribuție a probabilității .

Uneori vedem că apare un poligon de numere cumulative pentru variabilele discrete. Strict vorbind, ar fi necesar să desenați o diagramă a scărilor.

Bibliografie

Videografie

Expoziții

Note și referințe

Note

  1. Edward Tufte vorbește despre „  hărți de date  ” , literalmente „hărți de date”

Referințe

  1. Victorin Chevallier, „  Obituary on Mr. Minard, Inspector General of Pods and Roads, pensioned  ”, Annales des Ponts et Chaussées: Mémoires et documents , Paris, Dunod , vol.  II la  seria a 5- a , 2 e săpt. 1871, p.  1-22
  2. "  Biografia lui Charles Joseph Minard  " ( ArhivaWikiwixarchive.isGoogle • Ce să fac? ) (Accesat 20 octombrie 2014 ) , pe 19 - lea .org, site - ul dedicat istoriei a 19 - lea  secol
  3. Charles Joseph Minard: Mapping Napoleon's March, 1861 de John Corbett, Centrul pentru Științe Sociale Integrate Spațial
  4. Michael Friendly , „O scurtă istorie a vizualizării datelor”, în Manualul de vizualizare a datelor ,2008( DOI  10.1007 / 978-3-540-33037-0_2 ) , p.  19
  5. Tufte 2001 , p.  9
  6. Friendly 2008 , p.  9-10
  7. Tufte 2001 , p.  33
  8. Friendly 2008 , p.  39
  9. Adriano Balbi și André-Michel Guerry , Statistici comparative privind starea educației și numărul infracțiunilor din diferitele districte ale academiilor și curților regale din Franța , Paris, Jules Renouard,1829
  10. Jean-Paul Bord ( ed. ) Și Pierre-Robert Baduel ( ed. ), The maps of knowledge , Khartala,2004, p.  593
  11. Friendly 2008 , p.  27
  12. Friendly 2008 , p.  30
  13. „  Această cercetare de piață are o vechime de 120 de ani și combină Big Data și calitativ  ” , pe Conseils en marketing ,22 ianuarie 2018(accesat la 7 decembrie 2020 )
  14. Friendly 2008 , p.  32
  15. Friendly 2008 , p.  37
  16. Tufte 2001 , p.  53
  17. (în) Hadley Wickham , Ggplot2: Grafică elegantă pentru analiza datelor , Springer Verlag, al.  "Utilizator",2009( DOI  10.1007 / 978-0-387-98141-3 )
  18. Yau 2013 , p.  93
  19. Yau 2013 , p.  96
  20. Yau 2013 , p.  104
  21. Yau 2013 , p.  109
  22. Yau 2011 , p.  94
  23. Yau 2011 , p.  137
  24. Yau 2011 , p.  142
  25. Tufte 2001 , p.  44
  26. Yau 2011 , p.  112
  27. Yau 2011 , p.  180-181
  28. Yau 2011 , p.  118
  29. Yau 2011 , p.  192-193
  30. Toussaint Loua , Atlasul statistic al populației din Paris . Paris: J. Dejey. 1873
  31. Yau 2011 , p.  229
  32. Yau 2011 , p.  93
  33. Tufte 2001 , p.  16-20
  34. Tufte 2001 , p.  20-24
  35. Yau 2011 , p.  188-189
  36. (în) Isabel Meirelles , Design for Information , Rockport Publishers ,2013, p.  18
  37. Yau 2011 , p.  157
  38. Meirelles 2013 , p.  31
  39. Meirelles 2013 , p.  39
  40. „  Newmap  ” , la newsmap.jp (accesat la 9 decembrie 2013 )
  41. (în) Matthew Bloch , Shan Carter și Amanda Cox , „  Toate părțile inflației  ” , The New York Times ,3 mai 2008( citește online )
  42. Meirelles 2013 , p.  44
  43. „  4 motive pentru care rețelele sociale ne manipulează  ” , pe sfaturi de marketing ,30 septembrie 2020(accesat la 7 decembrie 2020 )
  44. Martin Grandjean , „  Cunoașterea este o rețea  ”, Les Cahiers du Numérique , vol.  10, n o  3,2014, p.  37-54 ( citit online , consultat la 15 octombrie 2014 )
  45. http://www.davidbihanic.com/exhibition/
  46. https://exhibits.stanford.edu/dataviz

Vezi și tu

Articole similare

linkuri externe