Prelucrarea automată a limbajului

Prelucrarea automată a limbajului natural
Subclasa de Inteligență artificială , informatică , lingvistică computațională , industrie , disciplină academică
Obiecte Lematizare
Etichetare gramaticală
analiză sintaxă
propoziție limită dezambiguizare ( en )
rădăcinare
Extracție terminologică
lexicală semantică ( en )
traducere automată
denumită recunoaștere entitate
generare automată de texte
recunoaștere optică de caractere
sisteme de întrebare-răspuns
legare textuală ( en )
relație extragere ( en )
opinie Mining
text segmentation ( en) )
dezambiguizare lexicală
Rezumatul textului
coreferențial
analiza vorbirii
Recunoașterea automată a
vorbirii segmentarea vorbirii ( en )
sinteza vorbirii Încorporarea
cuvintelor
descompunere ( d )

Naturale procesarea limbajului (Rep. NLP ), sau prelucrarea automată a limbajului natural , sau procesarea limbajului (Rep. TAL ) este un domeniu multidisciplinar care implică limba , calculatorul și inteligență artificială , care are ca scop crearea unor instrumente de prelucrare a limbajului natural pentru diverse aplicații. Nu trebuie confundat cu lingvistica de calcul , care are ca scop înțelegerea limbajelor prin intermediul instrumentelor informatice.

TALN a ieșit din laboratoarele de cercetare pentru a fi implementat progresiv în aplicații informatice care necesită integrarea limbajului uman în mașină. Deci, PNL este uneori denumită inginerie lingvistică . În Franța, Procesarea limbajului natural are jurnalul său, Procesarea automată a limbii , publicat de Asociația pentru procesarea automată a limbii (ATALA).

Istorie

Anii 1950-1960

Prima lucrare în prelucrarea limbajului natural a început în anii 1950, în principal în Statele Unite unde contextul politic, legat de Războiul Rece , a fost favorabil dezvoltării temei traducerii automate .

Primele aplicații informatice au fost legate de procesarea automată a conversațiilor. În 1950, în articolul său fondator de inteligență artificială, „  Mașini de calcul și inteligență  ”, Alan Turing a prezentat o metodă de evaluare care ulterior s-ar numi „  testul Turing  ” sau „criteriul Turing”. Acest test măsoară gradul de inteligență al unei mașini, pe baza capacității unui program de conversație de a identifica o ființă umană: într-un schimb de mesaje scrise, un subiect uman trebuie să stabilească dacă interlocutorul său este sau nu o mașină. Baza utilizată este totuși fragilă pentru evaluarea inteligenței artificiale, deoarece impresia unui singur utilizator depinde de prea mulți factori legați de mediul ambiant pentru a fi stabilită de regulă.

În 1954, experimentul Georgetown-IBM , realizat în comun de Universitatea Georgetown și compania IBM , a implicat traducerea complet automată, în engleză, a mai mult de șaizeci de propoziții ruse romanizate referitoare la domeniile politicii, dreptului, matematicii și științei. Autorii susțin că în termen de trei până la cinci ani, traducerea automată nu va mai fi o problemă. Se pare însă că enunțurile în limba rusă au fost alese cu grijă și că multe dintre operațiile efectuate pentru demonstrație au fost adaptate unor cuvinte și fraze specifice. În plus, nu există nicio analiză relațională sau sintactică pentru a identifica structura propozițiilor. Metoda utilizată este o metodă esențial lexicografică bazată pe un dicționar în care un anumit cuvânt este legat de reguli și proceduri specifice.

Conceptele introduse de Turing i-au permis lui Joseph Weizenbaum să dezvolte, din 1964 până în 1966, primul automat conversațional care a înșelat o ființă umană cu privire la natura sa. Simularea unui psihoterapeut Rogerian , automatul, numit ELIZA , deși nu folosește aproape nici o informație despre gândirea sau emoția umană, reușește uneori să stabilească o interacțiune surprinzător de asemănătoare cu interacțiunea umană. Deci, atunci când „pacientul” depășește capacitățile slabe ale bazei de cunoștințe, ELIZA poate oferi un răspuns generic, precum „De ce spuneți că aveți dureri de cap? »Ca răspuns la„ Am dureri de cap ”.

La sfârșitul anilor 1960, Terry Winograd , cercetător MIT, a dezvoltat un program de limbaj natural numit SHRDLU (pronunțat "chreudeul"), care permite utilizatorului său să converseze cu un computer pentru a gestiona o "lume a cuburilor de construcție" ( o lume de blocuri ) afișată pe unul dintre primele ecrane. Este primul program care poate înțelege și executa ordine complexe în limbaj natural. Dar singurele operațiuni pe care le poate face este să ia cuburi, să le mute, să le colecteze sau să le împrăștie. El nu va putea niciodată să înțeleagă tot ceea ce oamenii pot face cu obiectele fizice.

Prin urmare, progresul real este dezamăgitor. Raportul ALPAC  (în) 1966 constată că zece ani de obiective de cercetare nu au fost atinse. Această conștientizare a complexității extreme a limbilor a redus considerabil ambiția cercetării.

Anii 1970-1980

În anii 1970, mulți programatori au început să scrie „ontologii conceptuale”, al căror scop a fost structurarea informațiilor în date ușor de înțeles de computer. Acesta este cazul MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), SCRUPULE (Lehnert, 1977), Politics (Carbonell, 1979), Plot Units ( Lehnert 1981).

Anii 1990-2000

Din anul 2000

În ianuarie 2018, modelele de inteligență artificială dezvoltate de Microsoft și Alibaba au învins fiecare la rândul său pe oameni într-un test de citire și înțelegere de la Universitatea Stanford . Procesarea limbajului natural imită înțelegerea umană a cuvintelor și frazelor și permite acum modelelor de învățare automată să proceseze cantități mari de informații înainte de a oferi răspunsuri precise la întrebările care le sunt puse.

În noiembrie 2018, Google lansează BERT , un model de limbă.

În Mai 2020, OpenAI , o companie fondată de Elon Musk și Sam Altman , anunță lansarea GPT-3 , un model de 175 miliarde de parametri lansat ca o furcă a unui API comercial.

PNL statistic

Utilizările statistice ale procesării limbajului natural se bazează pe metode stocastice , probabiliste sau pur și simplu statistice pentru a rezolva unele dintre dificultățile discutate mai sus, în special pe cele care apar deoarece propozițiile foarte lungi sunt extrem de ambigue atunci când sunt procesate cu gramatici realiste, permițând mii sau milioane de analize posibile. Metodele de dezambiguizare implică adesea utilizarea corpurilor și a instrumentelor de formalizare precum modelele Markov . NLP statistic încorporează toate abordările cantitative ale procesării lingvistice automate, inclusiv modelarea, teoria informației și algebra liniară . Tehnologia pentru NLP statistic provine în principal din învățarea automată și din extragerea datelor , care implică învățarea din datele provenite din inteligența artificială .

Domenii de cercetare și aplicații

Domeniul procesării automate a limbajului natural acoperă un număr mare de discipline de cercetare care pot aplica abilități la fel de diverse precum matematica aplicată sau prelucrarea semnalului.

Sintaxă

Semantică

Procesarea semnalului (vorbire și scriere)

Recuperarea informațiilor

Bibliometrie

De bibliometria este utilizarea limbajului natural de procesare publicații științifice.

Studiu bibliometric al prelucrării automate a limbajului natural

Primul studiu major a fost realizat în 2013 , cu ocazia aniversării Asociației pentru Lingvistică Computațională (ACL), cu un atelier intitulat Redescoperind 50 de ani de descoperiri în prelucrarea limbajului natural . Descoperiri în prelucrarea limbajului natural ”).

În același an, a avut loc operațiunea Prelucrarea limbajului natural pentru procesarea limbajului natural (NLP4NLP), concentrându-se pe aplicarea instrumentelor de prelucrare automată a limbajului natural în arhivele prelucrării automate a limbajului natural din anii 1960 până în prezent. A fost vorba de a determina automat cine au fost inventatorii termenilor tehnici pe care îi folosim în prezent.

Un alt domeniu de studiu este determinarea oricărei tăieturi și lipiri pe care cercetătorii de prelucrare a limbajului natural o efectuează atunci când scriu o lucrare științifică.

O sinteză completă a lucrărilor NLP4NLP a fost publicată în 2019 ca un număr dublu al revistei Frontiers in Research Metrics and Analytics pentru a descrie cantitativ mai multe aspecte, cum ar fi proporția femeilor (comparativ cu bărbații), numărul de coautori, evoluția a subiectelor de studiu  etc. .

Vezi și tu

Bibliografie

  • (ro) Dan Jurafsky, Prelucrarea vorbirii și limbajului , Stanford, Pearson (editura) ,2008, 320  p. ( ISBN  9780131873216 )

Articole similare

linkuri externe

  • Asociația ATALA pentru prelucrarea automată a limbajului
  • Technolangue , portal de tehnologie lingvistică

Referințe

  1. A se vedea, de exemplu, Ludovic Tanguy, „Prelucrarea automată a limbajului natural și interpretarea: contribuția la dezvoltarea unui model computerizat de semantică interpretativă” , Informatică și limbaj , Universitatea din Rennes 1, 1997.
  2. Eugene Charniak, Introducere în inteligența artificială , Addison-Wesley, 1984, p. 2.
  3. Definiția ingineriei lingvistice pe site-ul evariste.org (1996): „Ingineria lingvistică este ansamblul metodelor și tehnicilor de la intersecția dintre informatică și lingvistică. Acesta își propune să implementeze toate tehnicile informatice (adesea cele mai avansate) pentru dezvoltarea de aplicații cu o înțelegere mai mult sau mai puțin largă a limbajului natural. "
  4. Marc-Emmanuel Perrin, Mașinile progresează în învățarea limbajului natural , Misiunea pentru Știință și Tehnologie a Ambasadei Franței în Statele Unite, 22 septembrie 2017.
  5. Rubrica „Turing Criterion”, Dicționar de calcul și internet 2001 , Micro Application, 2000, p. 232.
  6. (în) John Hutchins, De la primul concept la prima demonstrație: anii născuți ai traducerii automate, 1947-1954. O cronologie, în Traducere automată , 12, pp. 195-252.
  7. (în) Erwin Reifler, Soluția MT a problemelor lingvistice prin lexicografie, în Proceedings of the National Symposium on Machine Translation , Machine Translation, 12, 2-5 februarie 1960, pp. 195-252.
  8. Marc-Emmanuel Perrin, op. cit. .
  9. Serge Boisse, Etaoin Shrdlu , pe Journal d'un terrien , nedatat.
  10. Villard Masako ( ed. ), „  Traducere automată și cercetare cognitivă  ”, History Epistemology Language (Științe ale limbajului și cercetare cognitivă) , vol.  Volumul 11, n o  broșură 1,1989, p.  55-84 ( DOI  10.3406 / hel.1989.2290 , www.persee.fr/doc/hel_0750-8069_1989_num_11_1_2290)
  11. „  AI Alibaba depășește testele oamenilor în lectură  ” , Bloomberg.com ,15 ianuarie 2018( citiți online , consultat la 16 ianuarie 2018 ).
  12. Toutanova, Kristina, „  BERT: Pregătirea transformatoarelor bidirecționale profunde pentru înțelegerea limbii  ” , pe arXiv.org ,11 octombrie 2018(accesat la 31 iulie 2020 ) .
  13. (în) Will Douglas Heaven, „  noul generator de limbă OpenAI GPT-3 este șocant de bun-minte și complet Call  ” , MIT Technology Review ,20 iulie 2020( citește online ).
  14. Christopher D. Manning, Hinrich Schütze, Foundations of Statistical Natural Language Processing , MIT Press (1999), ( ISBN  978-0-262-13360-9 ) , p.  xxxi .
  15. (în) Radev Dragomir R Muthukrishnan Pradeep, Qazvinian Vahed, Jbara Abu Amjad, The ACL Anthology Corpus Network, Language Resources and Evaluation , 47, 2013, Springer, pp. 919–944.
  16. (în) Gil Francopoulo Joseph Mariani și Patrick Paroubek, „  Copiii lui Cobbler nu vor fi descurcați  ” în revista D-Lib ,noiembrie 2015 (consultat 12 iunie 2016).
  17. (în) Joseph Mariani Patrick Paroubek , Gil Francopoulo și Olivier Hamon , "  Redescoperind 15 + 2 ani de descoperiri în resurse și evaluare lingvistică  " , Resurse și evaluare lingvistică , Vol.  50,1 st aprilie 2016, p.  165-220 ( ISSN  1574-020X și 1574-0218 , DOI  10.1007 / s10579-016-9352-9 , citit online , accesat 12 iunie 2016 ).
  18. (în) Gil Francopoulo Joseph Mariani și Patrick Paroubek, "A Study of Reuse and Plagiarism in LREC papers" în Nicoletta Calzolari, Khalid Choukri, Thierry Declerck, Marko Grobelnik Bente Maegaard Joseph Mariani, Asuncion Moreno, Jan Odijk și Stelios Piperidis, Proceedings al celei de-a zecea conferințe internaționale privind resursele lingvistice și evaluarea (LREC 2016) , Portorož (Slovenia), Asociația Europeană a Resurselor Lingvistice (ELRA),2016( ISBN  978-2-9517408-9-1 , citit online ).
  19. (în) Joseph Mariani , Gil Francopoulo și Patrick Paroubek , "  Corpusul NLP4NLP (I): 50 de ani de colaborare și publicație citată în procesarea vorbirii și limbajului  " , Frontiers in Research Metrics and Analytics ,2019( citește online )
  20. (în) Joseph Mariani , Gil Francopoulo Patrick Paroubek și Frederic Vernier , „  Corpusul NLP4NLP (II): 50 de ani de cercetare în procesarea vorbirii și a limbajului  ” , Frontiere în cercetarea metrică și analitică ,2019( citește online ).