Un limbaj natural , sau un limbaj obișnuit , este un limbaj „normal” vorbit de o ființă umană. Se opune limbajului formal , cum ar fi limbajul computerizat , precum și limbajului creativ Al limbajelor construite .
Desemnăm prin limbaj natural limba vorbită de oameni, care a apărut între 200.000 și 50.000 de ani înainte de era noastră. Este detaliat de istoria limbilor . După 2 milioane de ani de gestație de Homo erectus , care a preluat de la Homo habilis , omul modern, numit Homo sapiens , a apărut prin conjuncția multor factori:
Există două scenarii pentru apariția Homo sapiens : scenariul „ Afară din Africa ” și scenariul pluri-centripet (poligeneză). Cercetări recente în paleo-lingvistică au identificat la începutul secolului XXI E o bază de 27 de cuvinte, comună la rădăcina tuturor limbilor terestre scrise, care împinge spre favorizarea scenariului „ Afară din Africa ” (monogeneză). Într-adevăr, mai multe surse nu ar fi avut un motiv să adopte aceeași protolingvă de pornire.
Ulterior, Homo sapiens s-a impus în interiorul speciei umane, fie din cauza ipotezei productiviste, fie din cauza ipotezei sociologice.
De aproximativ 7000 de ani, această limbă a luat o formă scrisă în mai multe limbi, care s-au stabilit apoi ca limbi dominante. În principal din această cauză, 6.000 de limbi sunt astăzi în pericol de dispariție.
În informatică , limbajul natural este opus limbajului computerizat :
Provocarea editorilor de motoare de căutare este de a putea oferi rezultate relevante unei interogări formulate în limbaj natural.
Alan Turing , matematician britanic din prima jumătate a XX - lea secol a presupus , de asemenea , că inteligența artificială ar putea da atât de bine impresia de „vorbind“ , ar fi dificil de a discerne o ființă umană. Testele de inteligență artificială care au capacitatea de a imita conversația umană se numesc teste de Turing .
Dacă consistența unui text este proprietatea unui text care nu necesită deducție pentru a trece de la un element documentar la altul, vom folosi exemplul lui Florian Wolf și colab. pentru a ilustra această proprietate:
Inferențele care trebuie făcute pentru a înțelege textul sunt banale aici, respectând principiul relevanței în transmiterea informațiilor. Sunt progresivi. Este nevoie de vreme bună pentru a lansa o rachetă, iar lansatorul Ariane poate lansa doi sateliți. Trebuie încă să caracterizăm aceste inferențe: „vremea a fost frumoasă și, prin urmare,„ prima inferență o explică, iar „lansatorul Ariane [...] a pus doi sateliți pe orbită”, explică a doua inferență. Nu se știe dacă lansatorul poate lansa patru sateliți, dar nu acesta este scopul. Trebuie să fim conștienți de necesitatea tuturor cuvintelor din acest text.
În plus, progresul este respectat: vorbim despre vreme, apoi de lansarea rachetei și, în cele din urmă, de ceea ce este lansat.
Eliminați din acest text spațiul adjectivului atașat la centrul de nume și nu mai știm cum să justificăm consistența acestuia. Atunci trebuie să facem o inferență mai puțin explicită: centrul Kourou este un centru spațial. Pentru a face acest lucru, trebuie să ne uităm la teoria pragmaticii pentru a evalua costul acestei inferențe. Trebuie remarcat faptul că principiul relevanței evoluează puternic indiferent dacă ne aflăm într-o limbă scrisă în care cei pre-stabiliți sunt slabi sau în limba orală în care pre-stabilitul este important știind că autorul cunoaște o parte din cunoștințele ascultătorului său.
Trebuie recunoscut faptul că multe texte nu satisfac această proprietate: astfel, Michel Charolles dedică numeroase documente inventarierii acestor situații de ambiguitate în texte:
Aceste exemple evidențiază noțiunea de profunzime a tratamentului implicit de care au nevoie aceste texte pentru a obține consistență.
Conformitatea tipografică va fi definită ca proprietatea textelor de a respecta ortografia și tipografia în scris. Dacă este acceptabil să considerăm că „Lift-Gate” constituie o entitate numită și că „lift-gate” este un nume comun, traducerea literală a cuvântului „Lift-Gate” într-o entitate numită introduce zgomot inutil în procesarea semantică .. Este de dorit să se filtreze aceste manifestări în tratamentele morfologice.
Conformitatea lexicală constă în alegerea termenului potrivit pentru un concept: astfel, „hayon” este un cuvânt explicit compus, „poarta din spate” fiind tradusă în franceză prin „hayon”, chiar dacă în franceză, acest termen este redundant deoarece „hayon” este suficient.
Utilizarea unui dicționar este satisfăcătoare atâta timp cât se caută nu numai cuvintele întâlnite, ci părțile cuvintelor (lexeme) susceptibile să constituie cuvinte.
Astfel a fost impusă alegerea, în primele două documente ale corpusului, de a înlocui „decklid” cu „capacul portbagajului”, ceea ce înseamnă „capacul portbagajului”. Vom desemna acest tip de eroare prin eroare lexicală referitoare la analiza cuvintelor compuse.
Dincolo de aceasta, trebuie să apelăm la rezolvarea ambiguităților expresiilor. Nu ar trebui să ne oprim la rădăcina lemelor cuvintelor compuse.
Calitățile stilistice care contribuie la o mai bună coerență. Documentele generice beneficiază de a fi scrise în prezentul generic, prin standardizarea pe cât posibil a formelor negative. Astfel, o cerință adoptă forma activă și este scrisă în genericul prezent, iar transformarea formelor pasive în forme active este suficientă pentru a satisface nevoia. De asemenea, poate fi util să folosiți o transformare pentru a procesa textele negative.
Calitățile documentelor sunt în principal calificate în ceea ce privește componentele nucleului coerenței:
Referințele sunt, printre altele, din lucrarea Aux Origines des Langues et du Langue, editată de Jean-Marie Hombert, Fayard , 2005