Podržano učenje iz ljudskih povratnih informacija

(преусмерено са Reward hacking)

U mašinskom učenju, podržano učenje iz ljudskih povratnih informacija (енгл. Reinforcement learning from human feedback, RLHF), takođe poznato kao učenje uz pomoć ljudskih preferencija, tehnika je usklađivanja inteligentnog agenta sa ljudskim preferencijama. U klasičnom podržanom učenju, cilj takvog agenta je da nauči funkciju koja se naziva politika koja maksimizira nagradu koju dobija na osnovu toga koliko dobro obavlja svoj zadatak.[1] U slučaju ljudskih preferencija, međutim, obično je teško eksplicitno definisati funkciju nagrađivanja koja se približava ljudskim preferencijama. Stoga, RLHF nastoji da obuči „model nagrađivanja“ direktno iz povratnih informacija ljudi.[2] Model nagrađivanja se prvo obučava na nadzirani način — nezavisno od politike koja se optimizuje — da bi se predvidelo da li je odgovor na dati upit dobar (visoka nagrada) ili loš (niska nagrada) na osnovu podataka o rangiranju prikupljenih od ljudskih anotatora. Ovaj model se zatim koristi kao funkcija nagrađivanja za poboljšanje politike agenta kroz algoritam optimizacije kao što je proksimalna optimizacija politike.[3]

RLHF se može primeniti na različite domene u mašinskom učenju, uključujući zadatke obrade prirodnog jezika kao što su sumiranje teksta i konverzacijski agenti, zadatke kompjuterskog vida kao što su modeli teksta u sliku i razvoj robota za video igre. Dok je RLHF efikasan metod obučavanja modela da bolje deluju u skladu sa ljudskim preferencijama, on se takođe suočava sa izazovima zbog načina na koji se prikupljaju podaci o ljudskim preferencijama. Iako RLHF ne zahteva ogromne količine podataka za poboljšanje performansi, pronalaženje visokokvalitetnih podataka o preferencijama je i dalje skup proces. Štaviše, ako podaci nisu pažljivo prikupljeni iz reprezentativnog uzorka, rezultujući model može pokazati neželjene pristrasnosti.

Pregled visokog nivoa podržanog učenja iz ljudskih povratnih informacija.

Motivacija

уреди

Optimizacija modela zasnovanog na ljuskim povratnim informacijama je poželjna kada je zadatak teško specificirati, ali lako proceniti.[4][5] Na primer, za zadatak generisanja ubedljive priče, dok bi nastojanje da se od ljudi generišu primeri dobrih i loših priča bilo teško i dugotrajno, ljudi mogu lako i brzo da procene kvalitet različitih priča generisanih veštačkom inteligencijom. Cilj bi tada bio da model koristi ove ljudske povratne informacije kako bi poboljšao svoje generisanje priča.

Bilo je različitih prethodnih pokušaja korišćenja povratnih informacija od ljudi za optimizaciju izlaznih rezultata modela, uključujući podržano učenje, ali većina pokušaja je bila ili uska i teško ih je generalizovati, razložiti na kompleksne zadatke,[6][7][8][9] ili su se suočili sa poteškoćama u učenju iz oskudne ili bučne funkcije nagrađivanja.[10][11] RLHF je bio pokušaj da se stvori opšti algoritam za učenje iz praktične količine povratnih informacija ljudi.[4][3] Takođe se pokazalo da RLHF poboljšava robusnost i istraživanje RL agenasa.[12]

Reference

уреди
  1. ^ Russell, Stuart J.; Norvig, Peter (2016). Artificial intelligence: a modern approach (Third, Global изд.). Boston Columbus Indianapolis New York San Francisco Upper Saddle River Amsterdam Cape Town Dubai London Madrid Milan Munich Paris Montreal Toronto Delhi Mexico City Sao Paulo Sydney Hong Kong Seoul Singapore Taipei Tokyo: Pearson. стр. 830—831. ISBN 978-0-13-604259-4. 
  2. ^ Ziegler, Daniel M.; Stiennon, Nisan; Wu, Jeffrey; Brown, Tom B.; Radford, Alec; Amodei, Dario; Christiano, Paul; Irving, Geoffrey (2019). „Fine-Tuning Language Models from Human Preferences”. arXiv:1909.08593  [cs.CL]. 
  3. ^ а б Lambert, Nathan; Castricato, Louis; von Werra, Leandro; Havrilla, Alex. „Illustrating Reinforcement Learning from Human Feedback (RLHF)”. huggingface.co. Приступљено 4. 3. 2023. 
  4. ^ а б „Learning from human preferences”. openai.com. Приступљено 4. 3. 2023. 
  5. ^ „Learning through human feedback”. www.deepmind.com (на језику: енглески). 12. 6. 2017. Приступљено 4. 3. 2023. 
  6. ^ Knox, W. Bradley; Stone, Peter; Breazeal, Cynthia (2013). „Training a Robot via Human Feedback: A Case Study”. Social Robotics. Lecture Notes in Computer Science (на језику: енглески). Springer International Publishing. 8239: 460—470. ISBN 978-3-319-02674-9. doi:10.1007/978-3-319-02675-6_46. Приступљено 26. 2. 2024. 
  7. ^ Akrour, Riad; Schoenauer, Marc; Sebag, Michèle (2012). „APRIL: Active Preference Learning-Based Reinforcement Learning”. Machine Learning and Knowledge Discovery in Databases. Lecture Notes in Computer Science (на језику: енглески). Springer. 7524: 116—131. ISBN 978-3-642-33485-6. arXiv:1208.0984 . doi:10.1007/978-3-642-33486-3_8. Приступљено 26. 2. 2024. 
  8. ^ Wilson, Aaron; Fern, Alan; Tadepalli, Prasad (2012). „A Bayesian Approach for Policy Learning from Trajectory Preference Queries”. Advances in Neural Information Processing Systems. Curran Associates, Inc. 25. Приступљено 26. 2. 2024. 
  9. ^ Schoenauer, Marc; Akrour, Riad; Sebag, Michele; Souplet, Jean-Christophe (18. 6. 2014). „Programming by Feedback”. Proceedings of the 31st International Conference on Machine Learning (на језику: енглески). PMLR: 1503—1511. Приступљено 26. 2. 2024. 
  10. ^ Warnell, Garrett; Waytowich, Nicholas; Lawhern, Vernon; Stone, Peter (25. 4. 2018). „Deep TAMER: Interactive Agent Shaping in High-Dimensional State Spaces”. Proceedings of the AAAI Conference on Artificial Intelligence. 32 (1). S2CID 4130751. arXiv:1709.10163 . doi:10.1609/aaai.v32i1.11485. 
  11. ^ MacGlashan, James; Ho, Mark K; Loftin, Robert; Peng, Bei; Wang, Guan; Roberts, David L.; Taylor, Matthew E.; Littman, Michael L. (6. 8. 2017). „Interactive learning from policy-dependent human feedback”. Proceedings of the 34th International Conference on Machine Learning - Volume 70. JMLR.org: 2285—2294. arXiv:1701.06049 . 
  12. ^ Bai, Yuntao; Jones, Andy; Ndousse, Kamal; Askell, Amanda; Chen, Anna; DasSarma, Nova; Drain, Dawn; Fort, Stanislav; Ganguli, Deep; Henighan, Tom; Joseph, Nicholas; Kadavath, Saurav; Kernion, Jackson; Conerly, Tom; El-Showk, Sheer; Elhage, Nelson; Hatfield-Dodds, Zac; Hernandez, Danny; Hume, Tristan; Johnston, Scott; Kravec, Shauna; Lovitt, Liane; Nanda, Neel; Olsson, Catherine; Amodei, Dario; Brown, Tom; Clark, Jack; McCandlish, Sam; Olah, Chris; Mann, Ben; Kaplan, Jared (2022). „Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback”. arXiv:2204.05862  [cs.CL].