Recunoaștere optică a caracterelor

Recunoașterea optică a caracterelor (OCR), limba engleză optică a caracterelor ( OCR ), sau de procesare OCR , înseamnă că procesele de calculator pentru traducerea imaginilor text tipărit sau fișiere text dactilografiate.

Un computer necesită software OCR pentru a efectua această sarcină . Acest lucru vă permite să preluați textul din imaginea unui text tipărit și să îl salvați într-un fișier care poate fi utilizat într-un procesor de text pentru îmbogățire și stocat într-o bază de date sau pe un alt suport care poate fi utilizat de un sistem informatic.

Istorie

Prima mașină OCR a fost creată de Gustav Tauschek , inginer german, în 1929 . Acesta conținea un detector fotosensibil care arăta o lumină către un cuvânt când se potrivea cu un șablon din memoria sa.

În 1950 , Frank Rowlett, care a încălcat codul diplomatic japonez PURPLE , i-a cerut lui David Shepard, un criptanalist al AFSA (predecesorul NSA SUA ), să colaboreze cu Louis Tordella pentru a face propuneri agenției pentru probleme de procedură. Problema a inclus problema conversiei mesajelor tipărite în limbajul mașinii pentru procesarea computerului. Shepard a decis că trebuie să fie posibil să se construiască o mașină pentru a face acest lucru și, cu ajutorul unui prieten Harvey Cook, a construit „Gismo” în podul său în timpul serilor și weekendurilor sale. Faptul a fost raportat în Washington Daily News din27 aprilie 1951și în New York Times of26 decembrie 1953după depunerea brevetului nr. 2.663.758. Shepard a fondat apoi Intelligent Machines Research Corporation (IMR), care a livrat primele sisteme OCR din lume operate de companii private. Primul sistem privat a fost instalat la Reader's Digest în 1955 și mulți ani mai târziu a fost donat de Readers Digest către Smithsonian , unde a fost afișat. Alte sisteme vândute de IMR la sfârșitul anilor 1950 includeau un cititor de bilete la Ohio Bell Telephone Company și un digitalizator (scaner de documente) la Forțele Aeriene ale SUA pentru citirea și transmiterea telexului de mesaje. IBM și alții au folosit ulterior brevetele Shepard.

Din 1965 , Oficiul Poștal al Statelor Unite a folosit mașini OCR pentru sortarea corespondenței, al cărei principiu de funcționare a fost inventat de Jacob Rabinow , un inventator prolific. Canada Post folosește sisteme OCR din 1971 . Sistemele OCR citesc numele și adresa destinatarului la primul centru automat de sortare și imprimă un cod de bare pe baza codului poștal de pe plic . Literele trebuie să fie sortate doar în următoarele centre de către sortatoare mai puțin costisitoare, care trebuie doar să citească codul de bare . Pentru a evita interferențele cu adresa lizibilă care poate fi oriunde pe scrisoare, se utilizează cerneală specială, care este clar vizibilă la lumina UV . Această cerneală apare portocalie în condiții normale de iluminare.

Abia în 1974 un om de știință a adunat aceste noi cunoștințe într-o tehnologie care să permită persoanelor nevăzătoare să citească documentele stocate pe suportul computerizat. Ne îndepărtăm de câmpul precis al recunoașterii optice a caracterelor pentru ao aplica folosind noi tehnologii. Pentru aceasta, acest om de știință, numit Ray Kurzweil , a creat un sintetizator de vorbire pentru a „vorbi” textul și a îmbunătățit procesele de digitalizare. În 1976, prototipul a fost terminat și, pentru înregistrare, Stevie Wonder a finanțat proiectul. Comercializarea „mașinii de citit” a început în 1978. Doi ani mai târziu, Xerox a cumpărat compania.

Învăţare

Sistemele timpurii au avut nevoie de „antrenament” (colectarea de mostre cunoscute pentru fiecare personaj) pentru a citi un tip dat dat. Dar astăzi este obișnuit să găsim sisteme „inteligente” care pot recunoaște majoritatea fonturilor cu un nivel ridicat de precizie .

Operațiune

Un sistem OCR pornește de la imaginea digitală produsă de un scaner optic de o pagină (document tipărit, foaie tastată etc.) sau de o cameră digitală și scoate un fișier text în diferite formate (text simplu, formate). XML etc., de exemplu formatul ALTO standardizat ).

Unele software încearcă să păstreze îmbogățirea textului ( corp , greutate și font ), precum și aspectul, chiar și pentru a reconstrui tabelele și pentru a extrage imaginile.

Unele programe includ, de asemenea, o interfață pentru achiziționarea de imagini digitale.

Până de curând, funcționarea sistemelor OCR eficiente era puțin cunoscută, deoarece era protejată de secretul industrial; software- ul open-source disponibil (de exemplu: GOcr) fiind mai mult munca amatorilor. Publicarea open-source a sistemelor performante (în special Tesseract în 2006) a schimbat oarecum această situație.

Etapele de procesare pot fi schematizate după cum urmează:

Pre - analiză a imaginii: scopul este îmbunătățirea calității imaginii. Aceasta poate include redresarea imaginilor înclinate sau distorsionate, corecțiile contrastului, trecerea la modul cu două culori (alb-negru sau mai bine zis hârtie și cerneală), detectarea marginilor.
Segmentarea liniilor și a caracterelor (sau Analiza paginii): urmărește izolarea liniilor de text și a caracterelor în cadrul liniilor din imagine. Această fază poate detecta și textul subliniat, cadrele, imaginile.
Recunoașterea caracterelor propriu-zise: după normalizare (scară, înclinare), o instanță care trebuie recunoscută este comparată cu o bibliotecă de forme cunoscute, iar forma cea mai „similară” (sau cele mai apropiate forme N) este păstrată pentru pasul următor.) la o distanță sau probabilitate ( probabilitate ). Tehnicile de recunoaștere pot fi clasificate în câteva tipuri principale:
1. Clasificare după caracteristici ( caracteristici ): un formular de recunoscut este reprezentat de un vector de valori numerice - numit caracteristici în limba engleză - calculat din acel formular. Numărul de caracteristici este de ordinul 100 până la 300. Dacă caracteristicile sunt bine alese, o clasă de caractere (de exemplu, setul de majuscule A) va fi reprezentată de un „nor” contigu de puncte în spațiul vectorial. caracteristici . Rolul clasificatorului este de a determina cui nor (și deci cărei clase de caractere) îi aparține cel mai probabil forma care trebuie recunoscută. Clasificarea utilizează în general diferite tipuri de rețele neuronale artificiale antrenate pe o bază largă de forme posibile.
2. Metode metrice: constau în compararea directă a formei care trebuie recunoscută, prin intermediul algoritmilor de distanță, cu un set de modele învățate. Acest tip de metodă este puțin utilizat și puțin apreciat de cercetători, deoarece adesea naiv și probabil mai puțin eficient decât caracteristicile bazate pe metode .
3. Metode statistice: în domeniul recunoașterii scrisului de mână, sunt utilizate frecvent metode probabilistice / statistice precum lanțurile Markov .
Post-procesare utilizând metode lingvistice și contextuale pentru a reduce numărul de erori de recunoaștere: sisteme bazate pe reguli sau metode statistice bazate pe dicționare de cuvinte, silabe, N-grame (secvențe de caractere sau cuvinte). În sistemele industriale, tehnicile specializate pentru anumite casete de text (nume, adrese poștale) pot utiliza baze de date pentru a elimina soluții incorecte.
Generarea formatului de ieșire, cu aspectul pentru cele mai bune sisteme.

Domeniul cercetării

O problemă deosebit de dificilă pentru computere și oameni este cea a vechilor registre de botez religios și căsătorie, care conțin în mare parte nume, unde paginile pot fi deteriorate de timp, apă sau foc, iar numele pot fi deteriorate. Învechite sau scrise în grafii vechi . Tehnicile de procesare a imaginilor pe computer pot ajuta oamenii să citească texte extrem de dificile, cum ar fi Palimpsestul Arhimedean sau manuscrisele Qumran . Abordările cooperative în care computerele ajută oamenii și invers sunt un domeniu interesant de cercetare.

Recunoașterea caracterelor a fost un domeniu activ de cercetare în informatică de la sfârșitul anilor 1950. La început s-a crezut că este o problemă ușoară, dar sa dovedit a fi una ușoară.subiect mult mai interesant. Va dura mult mai multe decenii până când computerele, dacă vor reuși vreodată să facă acest lucru, să citească toate documentele cu aceeași precizie ca și oamenii.

Software principal

Software gratuit :
- GOCR ( Unix , Windows ),
- OCRopus (Unix),
- Tesseract (Unix, Windows),
- CuneiForm (Unix) (en) ;
Software Freemium :
- ManaCount (Windows, Max OS) oerizarea facturilor și a inscrierii bancare;
Software proprietar :
- Software gratuit :
  - Moredata, software freeware care utilizează tessnet ( Windows ),
  - MoredataFast (Windows),
- Software plătit:
  - Ad'doc IIM (Windows) recunoaștere dactilografiată și scrisă de mână Www.imds.ca,
  - Soluții multimedia BotServer (Windows, Linux)
  - Adobe Acrobat Professional (Windows, Mac OS),
  - ExactScan ExactScan Pro și OCRKit (Mac OS),
  - ABBYY FineReader (Unix, Windows, Mac OS),
  - Nuance Omnipage (Windows),
  - IRIS Readiris (Unix, Windows, Mac OS),
  - Nicomsoft OCR (Windows, Unix),
  - Omnipage PRO (Windows 95 și următoarele).

Note și referințe

Principii de clasificare a modelelor: Metode statistice, de rețea neuronală și sintactice de a face roboții să vadă și să audă - Note de curs de D r Michael D. Alder, Universitatea Western Australia, 1994
gratuit, sub licențe GNU GPL sau Apache.

Vezi și tu

Bibliografie

Recunoașterea tiparului , H 1348, de Philippe Lefèvre, edițiile Techniques de l'Ingénieur, 1999.
Combinând recunoașterea caracterelor în mai multe scale și cunoștințele lingvistice pentru textul scenelor naturale OCR , Khaoula Elagouni [Orange Labs], Christophe Garcia [LIRIS], Franck Mamalet [Orange Labs], Pascale Sébillot [IRISA], 2012.

Articole similare

Recunoașterea inteligentă a caracterelor
Scris de mana recunoscut
Recunoasterea formelor
Analiză discriminantă
Tabel de caractere Unicode - recunoaștere optică a caracterelor
MNIST Database , un set de date standard pentru recunoașterea scrisului de mână
Citirea automată a documentelor