Validare încrucișată

Validarea încrucișată ( „  cross-validare  “ ) este, în masina de învățare , o metodă de estimare a fiabilității unui model bazat pe o tehnică de eșantionare .

Utilitatea validării încrucișate

Să presupunem că avem un model statistic cu unul sau mai mulți parametri necunoscuți și un set de date de formare pe care putem învăța (sau „antrena”) modelul. Procesul de instruire optimizează parametrii modelului astfel încât să se potrivească cu datele de instruire cât mai aproape posibil. Dacă luăm apoi un eșantion de validare independent, presupus din aceeași populație ca eșantionul de antrenament, se va dovedi, în general, că modelul nu modelează datele de validare, precum și datele de antrenament: vorbim despre supradaptare . Cu toate acestea, un eșantion de validare independent nu este întotdeauna disponibil. În plus, de la un eșantion de validare la altul, performanța validării modelului poate varia. Validarea încrucișată face posibilă derivarea mai multor seturi de validare din aceeași bază de date și astfel obținerea unei estimări mai robuste, cu părtinire și varianță, a performanței de validare a modelului.

Tehnici de validare

Există multe variante de validare, dar mai întâi putem distinge:

Tabel de distribuție a datelor pentru validarea încrucișată la k = 3 blocuri
k blocul 1 blocul 2 blocul 3
1 validare învăţare învăţare
2 învăţare validare învăţare
3 învăţare învăţare validare

După efectuarea validării modelului, este necesar să treceți la test cu setul de test anterior pus deoparte.

Gestionarea bazelor de date dezechilibrate

În sarcinile de clasificare , distribuția claselor în baza de date poate fi dezechilibrată, adică numărul de observații pe clasă poate să nu fie același de la o clasă la alta: dacă notăm numărul de observații ale clasei a-a, atunci există astfel că . În acest caz, pentru a preveni ca performanța validării (și învățării) să fie influențată de o distribuție în schimbare a claselor de la o validare (respectiv învățare) setată la alta, se recomandă utilizarea unei validări încrucișate stratificate („validare încrucișată stratificată”) . Stratificarea constă în asigurarea faptului că distribuția claselor este aceeași în toate seturile de instruire și validare utilizate. Adică, dacă baza de date inițială prezintă, de exemplu, 3 observații din clasa 1 pentru 7 observații din clasa 2, atunci fiecare set de validare (respectiv învățare) trebuie să prezinte acest raport de 3 pentru 7.

În cazul validării încrucișate cu blocuri, este pur și simplu o chestiune de distribuire a claselor în același mod de la un bloc la altul. Seturile de validare și instruire care vor deriva din aceasta vor moșteni această distribuție.

Vezi și tu

Legături interne

Referințe

  1. Payam Refaeilzadeh, Lei Tang, Huan Liu, „  Cross-Validation  ” ( ArhivăWikiwixArchive.isGoogle • Que faire? ) (Accesat la 20 aprilie 2020 )
  2. Andrew W. Moore, validare încrucișată pentru detectarea și prevenirea supra-dotării


<img src="https://fr.wikipedia.org/wiki/Special:CentralAutoLogin/start?type=1x1" alt="" title="" width="1" height="1" style="border: none; position: absolute;">