Extragerea caracteristicilor în vederea computerizată

În viziunea computerizată , extragerea caracteristicilor vizuale (sau extragerea caracteristicilor vizuale în limba engleză) constă din transformări matematice calculate pe pixelii unei imagini digitale . Caracteristicile vizuale permit, în general, să se țină cont mai bine de anumite proprietăți vizuale ale imaginii, utilizate pentru prelucrarea ulterioară în sfera aplicațiilor, cum ar fi detectarea obiectelor sau căutarea de imagini de către conținut . Din anii 2010, marea majoritate a muncii în viziunea pe computer se bazează pe caracteristici care sunt învățate de rețelele convoluționale pe baze de date cu imagini mari, în conformitate cu principiile învățării profunde .

Localizarea caracteristicilor

De obicei, se face distincția între caracteristicile globale care sunt calculate pe întreaga imagine și caracteristicile locale care sunt calculate în jurul punctelor de interes . De asemenea, putem vorbi de caracteristici semi-locale atunci când acestea sunt extrase în zone restricționate ale imaginii, rezultate dintr-o segmentare a imaginii în regiuni sau pur și simplu conform unei grile arbitrare.

Distincția dintre caracteristicile globale și locale prezintă un interes taxonomic . Caracteristicile locale se disting prin faptul că sunt distincte, robuste la ocluzii (deoarece există multe într-o imagine sau regiune) și nu necesită segmentare. Un descriptor local calculat la fiecare pixel al unei imagini sau al unei regiuni obținut prin segmentare, apoi acumulat într-o histogramă este, prin urmare, o descriere globală a imaginii sau a regiunii .

Caracteristici generale de nivel scăzut

Culoare

Histogramă și derivați

Luarea în considerare a culorilor imaginilor a fost, în mod istoric, una dintre primele caracteristici utilizate pentru cercetarea imaginilor bazate pe conținut și produce încă rezultate uneori spectaculoase pe anumite baze. În 1991, Swain și Ballard au propus să folosească o histogramă de culoare pentru acest tip de sarcină. Reprezintă distribuția generală a culorilor în imagine. Calculul său constă într-o cuantificare a spațiului de culoare ales ( RGB de exemplu) urmată de calcularea histogramei pixelilor astfel transformați. De exemplu, dacă luăm în considerare o imagine clasică RGB și cuantificăm fiecare plan de culoare la 4 coșuri, histograma rezultată va avea o dimensiune . Dacă imaginea este codificată inițial pe 24 de biți (valoarea fiecărui plan este în interval ), histograma de culoare pe 64 de biți ar putea fi reprezentată printr-un „cub” : ${\ displaystyle 4 ^ {3} = 64}$ ${\ displaystyle [0-255]}$ ${\ displaystyle 4 \ times 4 \ times 4}$

		roșu
		0-63				64-127				128-191				192-255
		Verde				Verde				Verde				Verde
		0-63	64-127	128-191	192-255	0-63	64-127	128-191	192-255	0-63	64-127	128-191	192-255	0-63	64-127	128-191	192-255
Albastru	0-63	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X
	64-127	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X
	128-191	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X
	192-255	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X	X

Fiecare culoare reprezintă unul dintre cele 64 de coșuri cuantificate, iar x fiind apoi numărul de pixeli ai imaginii corespunzătoare acestui coș. În practică, acest descriptor este în general reprezentat de un vector monodimensional cu 64 de dimensiuni.

cod de octavă calculând o histogramă de culoare % I = double ( imread('xxx.jpg')); quant=4; nb_bin=quant^3; Iq = floor(I/nb_bin); Iq = Iq(:,:,1) + quant*Iq(:,:,2) + quant*quant*Iq(:,:,3); [NN, XX] = hist(Iq(:),nb_bin);

Mulți descriptori pot fi derivați din reprezentarea histogramei, dintre care mai mulți au fost incluși în modelul experimental al standardului MPEG-7 . Acestea includ:

culoare dominantă : raportează culoarea dominantă a unei imagini, calculată ca cea a coșului cu cea mai mare valoare. Spațiul de culoare poate fi orice în teorie, dar utilizarea HSV oferă câteva rezultate interesante.
culoare scalabilă : aceasta este transformata Haar a histogramei de culoare în spațiul HSV , ceea ce duce la un cod foarte compact.
structura culorii : aceasta este o histogramă de culoare „locală”. Construcția sa este identică cu principiul prezentat anterior (histograma globală a culorilor), cu excepția faptului că o fereastră de dimensiuni reduse (8 × 8 pixeli) trece prin imagine atunci când se numără culorile din fiecare pixel. Astfel, reflectă unele informații despre structura spațială a distribuției culorilor.
dispunerea culorii : se calculează transformata discretă a cosinusului a reprezentării histogramei și numai o parte din coeficienți pot fi utilizați pentru semnătură. Acest lucru oferă posibilitatea de a obține un descriptor relativ grosier, dar foarte compact sau un descriptor mai fin, dar ocupând mai mult spațiu. Un astfel de descriptor este interesant pentru aplicațiile care necesită o anumită scalabilitate.

Momente de culoare

Încă din 1995, s-a propus utilizarea momentelor calculate într-un spațiu de culoare dat pentru a caracteriza imaginile. În general, ne restrângem la primele două sau trei momente ( medie , varianță , asimetrie sau chiar momentul de ordinul 4 numit kurtosis ), dar acestea sunt calculate în fiecare dintre cele trei planuri ale spațiului de culoare ales. Un posibil rafinament este împărțirea imaginii în funcție de o grilă și calcularea acestor momente în fiecare celulă.

Se observă culoarea unui pixel , să definim setul . Astfel înseamnă că pixelul p al imaginii I are o culoare c . Să luăm în considerare o valoare a distanței dintre pixeli fixată a priori. Distanța utilizată este de exemplu definită pentru doi pixeli și cu . Corelograma pentru și este apoi definit de: ${\ displaystyle p = (x, y) \ în I}$ ${\ displaystyle I (p)}$ ${\ displaystyle I_ {c} \ triangleq \ {p | I (p) = c \}}$ ${\ displaystyle p \ în I_ {c}}$ ${\ displaystyle d \ in [\! [1 \ dots n] \!]}$ ${\ displaystyle L _ {\ infty}}$ ${\ displaystyle p_ {1} = (x_ {1}, y_ {1})}$ ${\ displaystyle p_ {2} = (x_ {2}, y_ {2})}$ ${\ displaystyle L _ {\ infty} (p_ {1}, p_ {2}) \ triangleq \ max \ {| x_ {1} -x_ {2} |, | y_ {1} -y_ {2} | \ }}$ ${\ displaystyle i, j \ in [\! [1 \ dots m] \!]}$ ${\ displaystyle k \ in [\! [1 \ dots d] \!]}$

{\ displaystyle \ gamma _ {c_ {i}, c_ {j}} ^ {k} (I) \ triangleq {\ overset {Pr} {p_ {1} \ in I_ {c_ {i}}, p_ {2 } \ in I_ {c_ {j}}}} [p_ {2} \ in I_ {c_ {j}} | L _ {\ infty} (p_ {1} -p_ {2}) = k]}

Aceasta reflectă probabilitatea ca un pixel la o distanță k de pixelul luat în considerare să fie colorat . Mărimea corelogramei este . $c_ {j}$ ${\ displaystyle O (m ^ {2} d)}$

Autocorelograma este definită de:

{\ displaystyle \ alpha _ {c} ^ {(k)} (I) \ triangleq \ gamma _ {c, c} ^ {k} (I)}

Necesită spațiu pentru comandă . ${\ displaystyle O (md)}$

Formă

Descrierea formularelor necesită identificarea prealabilă a regiunilor. Acesta poate fi rezultatul segmentării imaginii sau al detectării contururilor acestora. Putem apoi caracteriza regiunile prin intermediul unor indici diferiți, cum ar fi orientarea lor principală (de exemplu, prima lor axă corectă ), simetria lor sau momentele lor Zernike .

O metodă de descriere utilizată în mod deosebit este cea propusă de Mokhtarian, numită Spațiu la scară de curbură. Acesta constă în descrierea unei regiuni în funcție de variațiile de curbură ale conturului său. Pentru o curbă plană în coordonate parametrice într-un sistem de coordonate ortonormale , curbura este exprimată prin: $\ scriptstyle {r (t) = (x (t), y (t))}$

\ gamma (t) = {\ frac {x'y '' - y'x ''} {(x '^ {2} + y' ^ {2}) ^ {{3/2}}}}

Această descriere este invariantă în rotație și traducere. În ceea ce privește zoomul, este necesar să se standardizeze cel puțin după lungimea conturului. Mai important, descriptorul este de obicei calculat la scări diferite, fiecare corespunzând convoluției de către un nucleu gaussian.

Textură

Definiția texturii nu este evidentă și depinde de scară. Există trei abordări pentru a defini noțiunea de textură. În linia lucrării de pionierat a lui Haralick, o primă abordare consideră o textură rezultată dintr-un proces stocastic și încearcă să le descrie în ceea ce privește proprietățile statistice ale valorilor și pozițiilor relative ale pixelilor.

A doua abordare presupune existența primitivelor fundamentale care fac posibilă descrierea texturilor, cum ar fi Textonii definiți de Julesz. Prin urmare, o textură dată este descrisă ca o combinație complexă a acestor primitive, exprimată de exemplu cu grafice .

O abordare mai recentă este mai degrabă inspirată de percepția vizuală și tinde să explice procesul de formare a texturii din punct de vedere uman.

O textură poate fi descrisă statistic, luând în considerare modul în care nivelurile de gri ale imaginii se organizează unul în raport cu celălalt. Considerăm un operator de poziție p care face posibilă definirea unei matrice care numără de câte ori un pixel de nivel de gri i este prezent la poziția p a unui pixel de nivel j . Dacă matricea este normalizată între 0 și 1, vorbim despre o matrice de co-apariție a nivelului de gri . Poziția relativă a doi pixeli poate fi definită și printr-un unghi și o distanță d . De exemplu, dacă luăm în considerare trei niveluri posibile de gri și imaginea definită de: ${\ displaystyle P_ {ij}}$ $\ theta$

{\ displaystyle I = {\ begin {pmatrix} 0 & 1 & 2 & 2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 1 & 2 \\ 0 & 0 & 0 & 1 \\ 0 & 0 & 1 & 1 \\\ end {pmatrix}}}

Iar operatorul este în dreapta (definit și de un unghi și o distanță de pixeli), atunci matricea de co-apariție (non-normalizată) este: $\ theta = 0$ $d = 1$

{\ displaystyle C = {\ begin {pmatrix} 5 & 5 & 0 \\ 0 & 1 & 3 \\ 0 & 0 & 1 \\\ end {pmatrix}}}

3 al matricei semnificând găsim trei ori un pixel din valoarea 2 (deci în coloana a treia) , la dreapta unui pixel de valoare 1 (prin urmare , în al doilea rând). $VS$

Din această matrice de coincidență, este posibil să se definească mulți descriptori, cum ar fi cei enumerați în acest tabel:

Operator	Formulare
Maxim	${\ displaystyle \ max _ {ij} (C_ {ij})}$
Diferența de ordine k	${\ displaystyle \ sum _ {i} \ sum _ {j} {c_ {ij} \, (ij) ^ {k}}}$
Entropie	${\ displaystyle \ sum _ {i} \ sum _ {j} {c_ {ij} \, log (c_ {ij})}}$
Uniformitate	${\ displaystyle \ sum _ {i} {\ sum _ {j} {c_ {ij} ^ {2}}}}$

O altă abordare statistică utilizată pe scară largă este modelul MSAR (Multiresolution Simultaneous Autoregressive Models) folosit, dincolo de recunoașterea texturii, pentru a recunoaște scenele naturale.

Abordare structurală

Această abordare presupune existența primitivelor fundamentale pentru descrierea texturilor. Unul dintre primele exemple de astfel de primitivi a fost textonul propus de Julesz. O textură dată este descrisă ca o combinație complexă a acestor primitive, exprimată de exemplu cu grafice . Aceste grafice pot fi apoi utilizate ca descriptori ai texturii.

Abordare spectrală

Exprimarea periodicităților și a altor regularități într-o imagine sau într-un semnal are loc în mod natural în cadrul analizei spectrale . Astfel, o transformată Fourier discretă a imaginii poate fi o bază pentru realizarea descriptorilor. Cu toate acestea, este mai frecvent să se utilizeze un set de filtre Gabor dispuse la mai multe scale și orientări. Acest lucru face posibilă în special identificarea „trăsăturilor perceptive majore”. Lucrările au arătat că un descriptor bazat pe o astfel de descriere spectrală ar putea explica structura spațială dominantă a unei scene naturale.

O alternativă la transformata Fourier este de a calcula transformata de cosinus discret (DCT). În practică, descriptorii pe baza coeficienților DCT au făcut posibilă discriminarea imaginilor interioare și exterioare, a imaginilor peisajelor urbane față de peisajele naturale și, combinate cu alți descriptori, mai multe categorii de scene naturale simultan.

Caracteristici locale

Caracterizarea unei imagini poate fi calculată într-un număr limitat de pixeli. Pentru aceasta, este mai întâi necesar să se detecteze zonele de interes ale imaginii și apoi să se calculeze un vector caracteristic în fiecare dintre aceste zone. Aceste zone de interes sunt, de exemplu, marginile sau punctele marcante ale imaginii (zone cu contrast ridicat). Ele pot fi, de asemenea, puncte luate aleatoriu sau regulat în imagine (așa-numita eșantionare densă ).

Vectorul caracteristică conține uneori date din detecție, cum ar fi orientarea marginii sau magnitudinea gradientului în zona de interes. În general, vectorul caracteristic într-un pixel este calculat pe o vecinătate a acestui pixel, adică dintr-o imagine centrată pe acest pixel. Poate fi calculat la diferite scale pentru a elimina factorul de zoom. Dintre caracteristicile locale calculate în prezent, există modele utilizate anterior la nivel global, cum ar fi histograme de culoare sau vectori care reprezintă orientarea gradienților nivelurilor de gri.

Anumite metode precum SIFT sau SURF includ atât detectarea unei zone de interes, cât și calculul unui vector caracteristic în fiecare dintre aceste zone. În ceea ce privește vectorul caracteristic, SIFT-urile sunt aproximativ o histogramă a orientărilor gradientului, iar SURF-urile constau din calculul de aproximare a undelor Haar . Într-un mod similar, tiparele de biți locali sunt un calcul al co-apariției nivelurilor locale de gri ale unei imagini, iar HOG-urile sunt histograme ale gradienților orientați, destul de asemănători cu SIFT-urile, calculate folosind eșantionare densă.

Agregare

Descrierea unei imagini prin intermediul caracteristicilor locale are, în general, o dimensiune variabilă, în funcție de numărul de puncte de interes extrase (de fapt, acest număr este mai mare decât dimensiunea descriptorului local). O astfel de reprezentare nu este, prin urmare, adecvată pentru alimentarea algoritmilor de învățare utilizați în mod convențional ( SVM , boosting etc.). Pentru a reveni la o reprezentare într-un spațiu vectorial de dimensiuni fixe, folosește tehnici de agregare a descriptorilor, cum ar fi cele ale sacilor de cuvinte ( sac de visterms ). Rezultatul unei astfel de acumulări este deci o caracteristică generală a unei imagini sau a unei părți (regiune) a imaginii.

Caracteristicile învățării

În 2012, campania internațională de evaluare ImageNet Large Scale Recognition Visual Challenge a fost câștigată folosind o abordare de rețea convoluțională (CNN) care a fost învățată prin progresele recente în învățarea profundă . Îmbunătățirea performanței este deosebit de marcată în comparație cu anii precedenți. La scurt timp după aceea, se arată că un strat al unei rețele convoluționale pre-învățate pe ImageNet poate fi folosit ca vector de reprezentare a unei imagini, în conformitate cu o schemă de transfer de învățare , și astfel să obțină performanțe niciodată până acum. imagini din câmpul viziunii computerizate. Din această perioadă, marea majoritate a muncii în domeniu utilizează, prin urmare, vectori de caracteristici învățați pe imagini naturale prin intermediul unei rețele convoluționale, iar caracteristicile „desemnate manual” devin foarte minore, cu excepția domeniilor de aplicație foarte specifice.

Aplicații

Caracteristicile imaginilor extrase conform metodelor explicate mai sus sunt utilizate în multe domenii ale viziunii computerizate.

Asociate cu imagini adnotate, acestea pot fi utilizate ca intrare într-un algoritm de învățare supravegheat pentru clasificare . Aceasta poate fi utilizată în special pentru a detecta conținutul lor și în special obiectele prezente în imagine . În aceeași ordine de idei, dar în zone mai specifice, ele pot fi utilizate pentru a detecta fețe sau persoane .

Fiind capabili să servească drept semnătură de imagine, acești descriptori sunt folosiți și în căutarea de imagini după conținut .

În general, acestea sunt tehnologii de bază utilizate în multe domenii în care este implicată viziunea pe computer: robotică , supraveghere video , viziune automată , recunoaștere optică a caracterelor etc.

Note și referințe

Prezentare despre descrierea imaginilor de eroare |titre=ale modelului {{Link arhivă}} : completați un parametru " " , folii transparente 22-36.
Mikolajczyk, K.; Schmid, C., „A performance performance of local descriptors”, Pattern Analysis and Machine Intelligence, IEEE Transactions on, vol.27, nr.10, pp.1615,1630, octombrie 2005 (secțiunea 1, linia 4-5)
MJ Swain, DH Ballard: Color Indexing, International Journal of Computer Vision , 1991
Y. Liu, DS Zhang, G. Lu și W.-Y Ma. Regăsirea imaginilor bazate pe regiuni cu culori percepționale. Proc. Conferința Pacific-Rim Multimedia, pp 931-938, decembrie 2004.
M. Stricker și M. Orengo. Similitudinea imaginilor color. In In In SPIE Conference on Storage and Retrieval for Image and Video Databases III, volumul 2420, paginile 381392, februarie. 1995.
Mokhtarian, F. și Mackworth, AK, Scale Based Description and Recognition of Planar Curves and Two-Dimensional Shapes, PAMI (8), No. 1, ianuarie 1986, pp. 34-43.
Th. Gevers and AWM Smeulders, Content-based Image Retrieval: An Overview, din cartea Emerging Topics in Computer Vision, G. Medioni și SB Kang (Eds.), Prentice Hall, 2004
John R. Smith și Shih-fu Chang, un motor de căutare de imagini și video pentru World-Wide Web , în Proc. SPIE Storage and Recuperare pentru imagini și baze de date video, 1997
Haralick R., Shanmugam K. și Dinstein I. (1973) Caracteristici texturale pentru clasificarea imaginilor . Tranzacții IEEE pe sisteme, om și cibernetică 3 (6): 610-621.
Weszka J, Rosenfeld Dyer C & A (1976) Un studiu comparativ al texturii Măsuri pentru clasificarea terenurilor. Tranzacții IEEE pe sisteme, om și cibernetică 6: 269-285.
Unser M (1986) Suma și diferența histogramelor pentru clasificarea texturii. PAMI 8 (1): 118-125.
Julesz B (1981) Textonii, elementele percepției texturii și interacțiunile acestora. Natura 290: 91–97.
Chellappa R & Manjunath B (2001) Clasificarea și segmentarea texturii: tribulații, triumfe și tribute. În: Davis L (ed) Foundations of Image Understanding, pp. 219-240. Kluwer.
RM Haralick, Caracteristică textură pentru clasificarea imaginilor, IEEE Transactions on Systems, Man, and Cybernetics 3 (1973) (1), pp. 610–621
J. Mao și AK Jain, „Clasificarea și segmentarea texturilor folosind modele autoregresive simultane multirezolvate”, Pattern Recognit., Vol. 25, pp. 173–188, februarie 1992.
A. Vailaya, MAT Figeiredo A. Jain și HJ Zhang. Clasificarea imaginilor pentru indexarea bazată pe conținut. Tranzacție IEEE privind procesarea imaginilor, vol. 10, nr. 1, 2001
H. Tamura, S. Mori și T. Yamawaki. Caracteristici texturale corespunzătoare percepției vizuale. IEEE Transactions on Systems, Man și Cybernetics, vol. SMC-8, nr. 6, 1978, 460 - 473
Aude Oliva, Antonio Torralba, Modelarea formei scenei: o reprezentare holistică a anvelopei spațiale. Jurnalul internațional de viziune computerizată , vol. 42 (3): 145-175, 2001
M. Szummer și RW Picard. Clasificarea imaginilor interior-exterior. Atelier internațional IEEE privind accesul bazat pe conținut al imaginilor și bazelor de date video. Bombay, India, 1998
A. Vailaya, A. Jain și HJ Zhang. Cu privire la clasificarea imaginilor: oraș vs peisaj. Recunoașterea modelelor, vol. 31, nr. 12, pp. 1921-1935, 1998
J. Sivic și Andrew Zisserman . Google Video: o abordare de recuperare a textului pentru potrivirea obiectelor în videoclipuri. În Proceedings of the International Conference on Computer Vision , paginile 1470–1477, 2003.