Recunoașterea automată a vorbirii

Recunoașterea automată a vorbirii (adesea numit incorect de recunoaștere a vocii ) este o tehnică de calculator , care analizează vocea umană capturat de către un microfon pentru a - l transcrie sub forma unui text care poate fi citit de mașini .

Recunoașterea vorbirii, precum și sinteza vorbirii , identificarea vorbitorului sau verificarea vorbitorului, sunt câteva dintre tehnicile de procesare a vorbirii . Aceste tehnici fac posibilă în special producerea de interfețe om-mașină (HMI) unde o parte a interacțiunii are loc prin voce: „  interfețe vocale”.

Printre numeroasele aplicații, putem cita aplicații de dictare vocală pe un computer în care dificultatea constă în dimensiunea vocabularului și lungimea propozițiilor, dar și aplicații telefonice de tip server interactiv de voce , unde dificultatea constă mai degrabă în nevoia să recunoască orice voce în condiții acustice variabile și adesea zgomotoase (telefoane mobile în locuri publice).

În Speech and Human-Machine Dialogue, W. Minker și S. Bennacef explică faptul că recunoașterea automată a vorbirii este un domeniu complex, deoarece există o diferență importantă între limbajul formal , care este înțeles și utilizat de mașini, și limbajul natural , pe care oamenii îl folosesc . Limbajul formal este structurat prin reguli sintactice stricte și fără ambiguitate. În schimb, în ​​limbajul natural, cuvintele sau propozițiile pot avea mai multe semnificații în funcție de intonația vorbitorului sau de context, de exemplu.

Domeniul cercetării

Recunoașterea vorbirii poate fi legată de multe domenii ale științei: prelucrarea automată a limbajului , lingvistică , teoria informației , procesarea semnalului , rețelele neuronale , inteligența artificială etc.

Istoric

De lucru privind recunoașterea vorbirii de la începutul XX - lea  secol. Primul sistem care poate fi considerat că face recunoașterea vorbirii datează din 1952.

Acest sistem electronic dezvoltat de Davis, Biddulph și Balashek la laboratoarele Bell Labs era în esență compus din relee și performanța sa era limitată la recunoașterea unei singure cifre (a se vedea referința). Cercetările au crescut apoi considerabil în anii 1970, cu lucrările lui Jelinek la IBM (1972-1993). Compania Threshold Technologies a fost prima care a lansat în 1972 un sistem de recunoaștere cu o capacitate de 32 de cuvinte, VIP100 . Astăzi, recunoașterea vorbirii este un domeniu în creștere rapidă datorită creșterii sistemelor de la bord . Evoluție rapidă:

Principii de baza

Pași

O propoziție înregistrată și digitalizată este dată programului de recunoaștere automată a vorbirii (RAP). În formalismul RAP ( ASR în engleză), defalcarea funcțională este după cum urmează:

Material tehnic

Producția documentară într-un sistem GDD începe de la o înregistrare vocală ( dictare digitală ). Este vorba de înregistrarea și restabilirea vocii pe suport digital. Înregistrarea se poate face prin diferite canale de înregistrare: microfoane , dictafoane , smartphone-uri ...

Restituirea, pentru tastarea secretariatului sau verificării, se face folosind difuzoare sau căști .

Modelele

Un astfel de sistem se bazează pe trei modele principale:

Combinația dintre aceste trei modele face posibilă calcularea probabilității oricărei secvențe de cuvinte date unui semnal de vorbire observat. Recunoașterea vorbirii constă în găsirea secvenței de cuvinte care are cea mai mare probabilitate. În mod formal, soluția problemei este rezultatul unor cuvinte care maximizează următoarea expresie matematică .

Pentru a calibra aceste modele pentru o aplicație, este necesar să se utilizeze o cantitate mare de corpus adnotat. Corpusul trebuie să corespundă condițiilor de utilizare a sistemului vizat.

Clasificare

Sistemele de recunoaștere a vorbirii pot fi clasificate pe mai multe axe:

Mărimea vocabularului și complexitatea modelului de limbă sunt direct legate de limbă și de natura datelor care urmează să fie procesate, de la câteva zeci de cuvinte pentru comenzi vocale la câteva sute de mii de cuvinte pentru a acoperi o limbă precum franceza sau Limba germana.

Performanţă

Performanța brută a unui motor de recunoaștere a vorbirii este adesea măsurată în rate de eroare ale cuvintelor ( rata de eroare a cuvintelor ) . În schimb, putem evalua rata de succes. Această rată variază foarte mult în funcție de natura datelor care trebuie transcrise, de difuzor și de condițiile acustice. Depinde puțin de limbă. Iată definiția sa formală:

sau:

Iată câteva rezultate medii pentru rata de eroare:

Literatură menționează

Recunoașterea vorbirii este evocată în Primul cerc de scriitorul disident sovietic Alexander Soljenitsin , ca instrument de represiune în slujba lui Stalin .

Recunoașterea vorbirii este menționată și într-un roman polițist:

„Nimic de-a face cu vechile noastre rapoarte bune de acasă, bâjbâite pe computer cu un deget rece de un prieten care a ezitat mult timp între cariera de polițist și cea de călăreț. În Yankees, vorbești și se înregistrează, curat și în ordine, fără ștergere, repetare sau incorectitate a termenilor. Orice ticălos, care a învățat să citească pe un slot machine, te arde cu mărturisiri în comparație cu care mărturisirea unui copil al secolului ar trece pentru instrucțiunile de utilizare a unei pulberi insecticide traduse din romanș.

Pentru a pilota acest lucru, nu era nevoie să părăsească Princeton. Tot ceea ce operatorul a trebuit să smulgă, în afară de destul de stufos, a fost să repete un cuvânt pronunțat prost și chiar dispozitivul a sugerat o bătaie de sinonime în concordanță cu sensul propoziției. Văzând mașina funcționând, m-am gândit la toți colegii mei care tremurau cu coafura a cărei proză avea să o facă inteligibilă. "

Frédéric Dard alias San Antonio , Nisip în vaselină

Se menționează recunoașterea vorbirii ca singura interfață între om și mașină în trilogia profețiilor lui Pierre Bordage . Într-adevăr, în această trilogie, este prezentat un supercomputer , computerul ADN .

Software de recunoaștere a vorbirii

Sistemele moderne de recunoaștere a vorbirii folosesc modele de limbaj care pot necesita gigabyte de memorie, ceea ce le face impracticabile, în special pe dispozitivele mobile. Din acest motiv, majoritatea sistemelor moderne de recunoaștere a vorbirii sunt găzduite de fapt pe servere la distanță și necesită o conexiune la internet și trimiterea de conținut vocal prin rețea.

Mozilla a început un proiect comunitar, Common Voice , pentru a colecta mostre de voce într-o bază de date gratuită, pentru a instrui motoare de recunoaștere a vorbirii non-proprietare.

Note și referințe

  1. (în) Leonard E. Baum, „  O tehnică de maximizare care apare în analiza statistică a funcțiilor probabilistice ale lanțurilor Markov  ” , Analele statisticilor matematice ,1970, p.  164 - 171.
  2. Peckham, J. (1993). O nouă generație de sisteme de dialog vorbit: rezultate și lecții din proiectul SUNDIAL. În cea de-a treia conferință europeană privind comunicarea și tehnologia vorbirii.
  3. (în) „  Apple lansează iPhone 4S iOS5 iCloud  ” pe apple.com ,4 octombrie 2011(accesat la 21 august 2017 ) .
  4. „  Microsoft anunță un avans considerabil în recunoașterea vorbirii  ” , pe actuia.com ,21 august 2017(accesat la 21 august 2017 ) .
  5. San Antonio , Sand in Vaseline , Paris, Black River ,Septembrie 1998, 209  p. ( ISBN  2-265-06530-7 ) , p.  40-41.

Vezi și tu

Bibliografie

Articole similare

linkuri externe

<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">