Eșantionare Thompson

Thompson de prelevare de probe, numit după William R. Thompson, este un algoritm euristic pentru a alege acele acțiuni care rezolvă dilema de explorare-exploatare în bandit-K armate problema . Constă în alegerea acțiunii care maximizează recompensa așteptată în comparație cu o credință trasă la întâmplare.

Descrierea

Luați în considerare un set de contexte , un set de acțiuni și recompense în . La fiecare turn, jucătorul primește un context , efectuează o acțiune și primește o recompensă în urma unei distribuții care depinde de context și de acțiunea efectuată. Obiectivul jucătorului este de a efectua acțiunile care maximizează câștigurile cumulate. ${\ mathcal {X}}$ ${\ mathcal {A}}$ $\ mathbb {R}$ ${\ displaystyle x \ in {\ mathcal {X}}}$ $a \ in \ mathcal {A}$ ${\ displaystyle r \ in \ mathbb {R}}$

Elementele eșantionării Thompson sunt după cum urmează:

o funcție de probabilitate ; ${\ displaystyle P (r | \ theta, a, x)}$
un set de parametri de distribuție a ; $\ Theta$ $\ theta$ $r$
distribuție a priori ; ${\ displaystyle P (\ theta)}$
observații ; ${\ displaystyle {\ mathcal {D}} = \ {(x; a; r) \}}$
distribuție a posteriori , unde este funcția de probabilitate. ${\ displaystyle P (\ theta | {\ mathcal {D}}) \ propto P ({\ mathcal {D}} | \ theta) P (\ theta)}$ ${\ displaystyle P ({\ mathcal {D}} | \ theta)}$

Eșantionarea lui Thompson constă în joc care maximizează așteptarea câștigului așteptat: ${\ displaystyle a ^ {\ ast} \ in {\ mathcal {A}}}$

{\ displaystyle \ int \ mathbb {I} \ left [\ mathbb {E} (r | a ^ {\ ast}, x, \ theta) = \ max _ {a '} \ mathbb {E} (r | a ', x, \ theta) \ right] P (\ theta | {\ mathcal {D}}) d \ theta,}

unde este funcția indicator . ${\ mathbb {I}}$

În practică, această regulă este implementată prin eșantionarea, la fiecare rând, a parametrilor din distribuția a posteriori și prin alegerea acțiunii care maximizează , așteptarea câștigului așteptat luând în considerare parametrul eșantionat, acțiunea și contextul actual . Conceptual, aceasta înseamnă că jucătorul își instanțiază aleatoriu convingerile la fiecare tură și acționează optim din aceste informații. În majoritatea aplicațiilor practice, este costisitor din punct de vedere computerizat să se mențină în memorie și eșantion din distribuțiile exacte posterioare. Eșantionarea Thompson este adesea utilizată cu tehnici de eșantionare grosieră. ${\ displaystyle \ theta ^ {\ ast}}$ ${\ displaystyle P (\ theta | {\ mathcal {D}})}$ ${\ displaystyle a ^ {\ ast}}$ ${\ displaystyle \ mathbb {E} [r | \ theta ^ {\ ast}, a ^ {\ ast}, x]}$

Istorie

Eșantionarea Thompson a fost descrisă de Thompson în 1933. Ulterior, a fost redescoperit de mai multe ori independent, în contextul problemelor banditului armat de K. O primă dovadă de convergență pentru aplicarea la bandiți a fost prezentată în 1997. Prima cerere la procesele decizionale markoviene datează din anul 2000. O abordare conexă a fost publicată în 2010. În 2010, s-a arătat, de asemenea, că eșantionarea Thompson se corectează automat instantaneu . Rezultatele care arată convergența asimptotică pentru bandiții de informații contextuale au fost publicate în 2011.

Astăzi, eșantionarea Thompson este utilizată pe scară largă în multe probleme de e-learning: eșantionarea Thompson a fost aplicată și testării A / B în proiectarea web și publicitatea online; Eșantionarea Thompson servește ca bază pentru învățarea accelerată în luarea deciziilor descentralizate.

Legături cu alte abordări

Meci de probabilitate

Probabilitatea de potrivire ( potrivirea probabilității ) este o decizie de politică în care clasa de prognoză a membrilor este proporțională cu ratele clasei de bază. Eșantionarea lui Thompson este o aplicație a acestui principiu general la problema banditului.

Astfel, dacă, la antrenament, se observă extrageri pozitive în 60% din cazuri și extrase negative în 40% din cazuri, observatorul care folosește o strategie de potrivire a probabilității va prezice (pentru exemple neetichetate) un rezultat. „Pozitiv” în 60% din cazuri cazuri, iar un rezultat „negativ” în 40% din cazuri.

Algoritmi de încredere superioară (UCB)

Algoritmii de eșantionare Thompson și algoritmii legați de limita superioară de încredere sunt ambii algoritmi „optimisti”: ei iau în considerare incertitudinea în estimarea parametrilor și explorează acțiuni cu o probabilitate diferită de zero de a fi optime.

Prin exploatarea acestei proprietăți, este posibil să traducem limitele de regret stabilite pentru algoritmii UCB în limite de regret bayesian pentru eșantionarea Thompson sau să unificăm analiza regretului între acești algoritmi și alte clase de probleme.

Referințe

Thompson, William R. „Cu privire la probabilitatea ca o probabilitate necunoscută să o depășească pe alta, având în vedere dovezile a două probe” . Biometrika , 25 (3-4): 285-294, 1933.
Daniel J. Russo, Benjamin Van Roy, Abbas Kazerouni, Ian Osband și Zheng Wen (2018), "Un tutorial despre eșantionarea Thompson", Fundamente și tendințe în învățarea automată: Vol. 11: nr. 1, pp. 1-96. https://web.stanford.edu/~bvr/pubs/TS_Tutorial.pdf
J. Wyatt. Explorarea și inferența în învățarea din întărire . Teză de doctorat, Departamentul de Inteligență Artificială, Universitatea din Edinburgh. Martie 1997.
PA Ortega și DA Braun. „Un principiu minim de entropie relativă pentru învățare și actorie”, Journal of Artificial Intelligence Research , 38, paginile 475-511, 2010.
MJA Strens. „A Bayesian Framework for Reinforcement Learning”, Proceedings of the Seventeenth International Conference on Machine Learning , Universitatea Stanford, California, 29 iunie - 2 iulie 2000, http://citeseerx.ist.psu.edu/viewdoc/summary?doi= 10.1.1.140.1701
BC mai, BC, N. Korda, A. Lee și DS Leslie. „Eșantionare Bayesiană optimistă în problemele contextual-bandit”. Raport tehnic, Grupul de statistici, Departamentul de matematică, Universitatea din Bristol, 2011.
Chapelle, Olivier și Lihong Li. „O evaluare empirică a eșantionării Thompson”. Progrese în sistemele de procesare a informațiilor neuronale. 2011. http://papers.nips.cc/paper/4321-an-empirical-evaluation-of-thompson-sampling
O.-C. Granmo. „Rezolvarea problemelor de bandit cu două brațe Bernoulli folosind un automat de învățare bayesiană”, Jurnalul internațional de computere inteligente și cibernetică , 3 (2), 2010, 207-234.
Ian Clarke . „Testare proporțională A / B”, 22 septembrie 2011, http://blog.locut.us/2011/09/22/proportionate-ab-testing/
OC Granmo și S. Glimsdal , „ Învățare bayesiană accelerată pentru luarea deciziilor descentralizate cu două brațe pe bază de bandiți cu aplicații pentru jocul Goore ”, Inteligență aplicată ,2012( DOI 10.1007 / s10489-012-0346-z )
Daniel J. Russo și Benjamin Van Roy (2014), „Învățarea optimizării prin eșantionare posterioară”, Matematica cercetării operaționale, vol. 39, nr. 4, pp. 1221-1243, 2014. https://pubsonline.informs.org/doi/abs/10.1287/moor.2014.0650
Daniel J. Russo și Benjamin Van Roy (2013), „Eluder Dimension and the Sample Complexity of Optimistic Exploration”, Advances in Neural Information Processing Systems 26, pp. 2256-2264. http://papers.nips.cc/paper/4909-eluder-dimension-and-the-sample-complexity-of-optimistic-exploration.pdf