Un rezumat este o formă de compresie textuală cu pierderi de informații. Un rezumat automat al textului este o versiune condensată a unui document textual, obținută prin intermediul tehnicilor computerizate . Cea mai cunoscută și mai vizibilă formă de rezumat text este rezumatul, o reprezentare prescurtată și exactă a conținutului unui document. Cu toate acestea, producerea unui rezumat relevant și de înaltă calitate necesită ca rezumatorul (un om sau un sistem automat) să facă efortul de a selecta, evalua, organiza și asambla segmente de informații în funcție de relevanța lor. Înțelegerea și gestionarea fenomenelor de redundanță, coerență și coeziune sunt fundamentale pentru a produce rezumate automate credibile din punct de vedere uman.
Există trei abordări principale pentru a genera rezumate de text: abstractizare, extragere și compresie de propoziții.
Există mai multe tipuri de rezumate în funcție de scopul lor: mono-document, semidocument, ghidat (personalizat) sau nu (generic) de o cerere de utilizator, printre altele. În ultima vreme au apărut alte rezumate decât textuale. Astfel, rezumatele audio și video fac parte din cercetările actuale. Rezumatele din domenii foarte specializate, cum ar fi medicina sau chimia organică, reprezintă adevărate provocări pentru sistemele de procesare automată a limbajului natural.
Un subiect conex este extragerea sentimentelor dintr-un text. Plecăm de la ipoteza că, pentru un anumit text, nu este posibil doar să se determine dacă acesta conține o opinie ( adică o viziune subiectivă), ci și să se determine dacă această opinie este pozitivă sau negativă. Un exemplu imediat de aplicație este găsirea de recenzii pe un film, unde acestea ar fi organizate automat în recenzii pozitive și negative. De asemenea, ne putem gândi la o clasificare a produselor comerciale în funcție de sentimentele date în schimb de comentarii. O primă abordare naivă folosește cuvinte cheie din text: pe baza unui dicționar de adjective, am obține o precizie de 62% pe sentimentele exprimate într-un text, până la 68% dacă luăm în considerare numele., Verbele etc. Alte abordări folosesc arborii de decizie pentru a clasifica subiectul (până la 73% precizie) sau retorica utilizată în text.
Evaluarea rezumatelor automate este o sarcină dificilă la care comunitatea are răspunsuri parțiale. Într-adevăr, o evaluare automată necesită un sistem capabil să genereze rezumate de calitate umană, astfel încât să fie capabil să judece. Pot fi luate în considerare soluții pragmatice. Unul dintre obiectivele conferințelor NIST ( Document Understanding Conferences DUC now Text Analysis Conference (TAC)) este de a utiliza metrica RED (Recall-Oriented Understudy for Gisting Evaluation) . Această valoare măsoară acoperirea între N-grame produse automat de o mașină și cele cuprinse în rezumate scrise de un număr de judecători umani. Un nivel ridicat în RED implică empiric un nivel de corelație cu rezumatele umane.