Abordare | https://books.google.com/ngrams |
---|---|
Descriere | Serviciul de analiză statistică |
Comercial | da |
Publicitate | Nu |
Limba | Multilingv |
Sediul central |
Mountain View Statele Unite |
Proprietar | |
Creat de | |
Lansa | Iunie 2010 |
Starea curenta | În activitate |
Ngram Viewer este o aplicație lingvistică oferită deGoogle, care permite observarea evoluției frecvenței unuia sau mai multor cuvinte sau grupuri de cuvinte în timp în sursele tipărite. Instrumentul a intrat în serviciu în 2010. Ultima actualizare a fost în februarie 2020.
Termenul ngram desemnează în acest context o serie de cuvinte „n”, care este un caz particular al noțiunii de n-gram .
Instrumentul Google Ngram se bazează pe baza de date text Google Books . Textele din Google Books sunt clasificate în funcție de frecvența secvențelor de cuvinte (numite ngrams ) în funcție de anul publicării, fiecărei secvențe de cuvinte i se atribuie apoi o „pondere”.
Atunci când utilizatorul solicită o comparație a mai multor secvențe de cuvinte , instrumentul trasează apoi curbe făcând posibilă compararea frecvenței lor de utilizare în timp.
Interesul lui Ngram este în esență de a efectua studii istorico- lingvistice sau socio-culturale, cunoscute sub numele de culturisti .
Instrumentul conține următoarele limite (în special pentru franceză ). Înainte de 1790, „s” din mijlocul cuvintelor erau încă scrise „ſ” (zise s lungi ), „ait” imperfect erau scrise „oit”, iar aceste câteva specificități mici, precum și o tipografie neregulată compromit relevanța. OCR privind lucrările XVI - lea din secolul al XVIII - lea secol. Astfel, echipa proiectului OCRization al Bibliotecii Naționale a Franței consideră că, fără intervenția umană în procesul de digitalizare, nu se poate face cercetare completă fiabilă în lucrări care datează înainte de 1800. Această analiză a fost însă revizuită de atunci: false pozitivele sau falsele negative reprezintă adesea un procent scăzut în comparație cu toate datele. În plus, Google Ngram este folosit pentru a contura tendințele în utilizarea unui termen și nu pentru a da cifre absolute și precise de utilizare.
Un alt defect constă în faptul că o mică lucrare editată va fi la fel de reprezentată ca o lucrare larg distribuită. În plus, frecvența de utilizare a unui cuvânt din același text poate da din nou prea multă greutate acestui cuvânt, în special dacă este rar.