Limbaj natural

Un limbaj natural , sau un limbaj obișnuit , este un limbaj „normal” vorbit de o ființă umană. Se opune limbajului formal , cum ar fi limbajul computerizat , precum și limbajului creativ Al limbajelor construite .

Istorie

Desemnăm prin limbaj natural limba vorbită de oameni, care a apărut între 200.000 și 50.000 de ani înainte de era noastră. Este detaliat de istoria limbilor . După 2 milioane de ani de gestație de Homo erectus , care a preluat de la Homo habilis , omul modern, numit Homo sapiens , a apărut prin conjuncția multor factori:

Există două scenarii pentru apariția Homo sapiens :  scenariul „  Afară din Africa ” și scenariul pluri-centripet (poligeneză). Cercetări recente în paleo-lingvistică au identificat la începutul secolului XXI E  o bază de 27 de cuvinte, comună la rădăcina tuturor limbilor terestre scrise, care împinge spre favorizarea scenariului „  Afară din Africa  ” (monogeneză). Într-adevăr, mai multe surse nu ar fi avut un motiv să adopte aceeași protolingvă de pornire.

Ulterior, Homo sapiens s-a impus în interiorul speciei umane, fie din cauza ipotezei productiviste, fie din cauza ipotezei sociologice.

De aproximativ 7000 de ani, această limbă a luat o formă scrisă în mai multe limbi, care s-au stabilit apoi ca limbi dominante. În principal din această cauză, 6.000 de limbi sunt astăzi în pericol de dispariție.

Limbaje de calculator

În informatică , limbajul natural este opus limbajului computerizat  :

Provocarea editorilor de motoare de căutare este de a putea oferi rezultate relevante unei interogări formulate în limbaj natural.

Alan Turing , matematician britanic din prima jumătate a XX - lea  secol a presupus , de asemenea , că inteligența artificială ar putea da atât de bine impresia de „vorbind“ , ar fi dificil de a discerne o ființă umană. Testele de inteligență artificială care au capacitatea de a imita conversația umană se numesc teste de Turing .

Coerența limbajului natural

Dacă consistența unui text este proprietatea unui text care nu necesită deducție pentru a trece de la un element documentar la altul, vom folosi exemplul lui Florian Wolf și colab. pentru a ilustra această proprietate:

Inferențele care trebuie făcute pentru a înțelege textul sunt banale aici, respectând principiul relevanței în transmiterea informațiilor. Sunt progresivi. Este nevoie de vreme bună pentru a lansa o rachetă, iar lansatorul Ariane poate lansa doi sateliți. Trebuie încă să caracterizăm aceste inferențe: „vremea a fost frumoasă și, prin urmare,„ prima inferență o explică, iar „lansatorul Ariane [...] a pus doi sateliți pe orbită”, explică a doua inferență. Nu se știe dacă lansatorul poate lansa patru sateliți, dar nu acesta este scopul. Trebuie să fim conștienți de necesitatea tuturor cuvintelor din acest text.

În plus, progresul este respectat: vorbim despre vreme, apoi de lansarea rachetei și, în cele din urmă, de ceea ce este lansat.

Eliminați din acest text spațiul adjectivului atașat la centrul de nume și nu mai știm cum să justificăm consistența acestuia. Atunci trebuie să facem o inferență mai puțin explicită: centrul Kourou este un centru spațial. Pentru a face acest lucru, trebuie să ne uităm la teoria pragmaticii pentru a evalua costul acestei inferențe. Trebuie remarcat faptul că principiul relevanței evoluează puternic indiferent dacă ne aflăm într-o limbă scrisă în care cei pre-stabiliți sunt slabi sau în limba orală în care pre-stabilitul este important știind că autorul cunoaște o parte din cunoștințele ascultătorului său.

Trebuie recunoscut faptul că multe texte nu satisfac această proprietate: astfel, Michel Charolles dedică numeroase documente inventarierii acestor situații de ambiguitate în texte:

Aceste exemple evidențiază noțiunea de profunzime a tratamentului implicit de care au nevoie aceste texte pentru a obține consistență.

Aspecte lexicale

Conformitatea tipografică va fi definită ca proprietatea textelor de a respecta ortografia și tipografia în scris. Dacă este acceptabil să considerăm că „Lift-Gate” constituie o entitate numită și că „lift-gate” este un nume comun, traducerea literală a cuvântului „Lift-Gate” într-o entitate numită introduce zgomot inutil în procesarea semantică .. Este de dorit să se filtreze aceste manifestări în tratamentele morfologice.

Conformitatea lexicală constă în alegerea termenului potrivit pentru un concept: astfel, „hayon” este un cuvânt explicit compus, „poarta din spate” fiind tradusă în franceză prin „hayon”, chiar dacă în franceză, acest termen este redundant deoarece „hayon” este suficient.

Utilizarea unui dicționar este satisfăcătoare atâta timp cât se caută nu numai cuvintele întâlnite, ci părțile cuvintelor (lexeme) susceptibile să constituie cuvinte.

Astfel a fost impusă alegerea, în primele două documente ale corpusului, de a înlocui „decklid” cu „capacul portbagajului”, ceea ce înseamnă „capacul portbagajului”. Vom desemna acest tip de eroare prin eroare lexicală referitoare la analiza cuvintelor compuse.

Dincolo de aceasta, trebuie să apelăm la rezolvarea ambiguităților expresiilor. Nu ar trebui să ne oprim la rădăcina lemelor cuvintelor compuse.

Aspecte generice

Calitățile stilistice care contribuie la o mai bună coerență. Documentele generice beneficiază de a fi scrise în prezentul generic, prin standardizarea pe cât posibil a formelor negative. Astfel, o cerință adoptă forma activă și este scrisă în genericul prezent, iar transformarea formelor pasive în forme active este suficientă pentru a satisface nevoia. De asemenea, poate fi util să folosiți o transformare pentru a procesa textele negative.

Aspecte discursive

Calitățile documentelor sunt în principal calificate în ceea ce privește componentele nucleului coerenței:

Note și referințe

Note

  1. Vezi despre acest subiect cercetările genetici de la Institutul Max Planck . În iulie 2006, Institutul și 454 Life Sciences au anunțat că întreprind secvențierea genomului neanderthalienilor. Alcătuit din trei miliarde de perechi de baze, genomul Neanderthal are aproximativ dimensiunea genomului uman și are probabil multe gene identice. Se crede că compararea genomului neanderthalienilor și a genomului uman va oferi informații despre această specie dispărută, precum și despre evoluția oamenilor și a creierului uman. Institutul Max-Planck pentru Antropologie Evolutivă .
  2. Aceste zone au fost identificate la sfârșitul XIX - lea  secol și nici o dovada de activare a acestor zone este dat la alte specii de Homo care Homo sapiens
  3. http://www.tlfq.ulaval.ca/axl/monde/ origin- langues.htm
  4. Îmbunătățirea coerenței documentelor de specificații din industria auto, Jean Noël Martin 2012, Braga Portugalia ardezie 2012 - iunie 2012 http://drops.dagstuhl.de/portals/oasics/index.php?semnr=12004

Referințe

  1. Cécile Lestienne, Ghislain Dehanne, Laurent Sagart, Pascal Picq, The Most Beautiful History of Language , Seuil, 2008.
  2. (în) Alec MacAndrew, FOXP2 și Evoluția limbajului .
  3. Jean-Pierre Changeux, Omul neuronal , Fayard, Paris, 1983.
  4. Jean-Pierre Changeux, Proprietatea seturilor neuronale în Teoriile limbajului și teoriile învățării , Ediția pragului, Paris, 1979.
  5. Joseph Donato, The Linguistic Variation in Linguistics under the direction of Fréderic François, PUF, 1980.
  6. Fabien Wolf și Edward Gibson, Coherence in Natural Language , Massachusetts Institute of Technology , 2006.
  7. Michel Charolles, Coerență, relevanță și integrare conceptuală , Universitatea Paris III, 2002.

Bibliografie

Referințele sunt, printre altele, din lucrarea Aux Origines des Langues et du Langue, editată de Jean-Marie Hombert, Fayard , 2005

  1. Jean-Jacques Hubelin, Limba primilor oameni .
  2. Philippe Vernier, Evoluția creierului și apariția limbajului .
  3. Christophe Coupé, În căutarea indicilor limbajului articulat .
  4. Christophe Coupé, Căutarea imposibilă pentru limba maternă .
  5. Bernard Victorri, Misterele apariției limbajului .

Vezi și tu

Articole similare