Usklađivanje veštačke inteligencije

(преусмерено са AI alignment)

U oblasti veštačke inteligencije (VI), istraživanje usklađivanja VI ima za cilj da usmeri sisteme veštačke inteligencije ka ciljevima, preferencijama i etičkim principima neke osobe ili grupe. Sistem veštačke inteligencije se smatra usklađenim ako unapredi svoje predviđene ciljeve. Neusklađeni sistem veštačke inteligencije može da teži nekim ciljevima, ali ne i predviđenim.[1]

Dizajnerima veštačke inteligencije je često izazov da usklade sistem veštačke inteligencije, jer im je teško da preciziraju čitav spektar željenih i neželjenih ponašanja. Stoga, dizajneri veštačke inteligencije često koriste jednostavnije proksi ciljeve, kao što je dobijanje ljudskog odobrenja. Ali taj pristup može da stvori praznine u zakonu, da previdi neophodna ograničenja ili da nagradi sistem veštačke inteligencije samo zato što izgleda usklađen.[1][2]

Neusklađeni sistemi veštačke inteligencije mogu da pokvare funkcionisanje i prouzrokuju štetu. Sistemi veštačke inteligencije mogu pronaći praznine koje im omogućavaju da efikasno ostvare svoje proksi ciljeve, ali na nenamerne, ponekad štetne načine (nagrada hakovanja).[1][3][4] Oni takođe mogu razviti neželjene instrumentalne strategije, kao što su traženje moći ili opstanak jer im takve strategije pomažu da postignu svoje konačne zadate ciljeve.[1][5][6] Štaviše, oni mogu razviti nepoželjne ciljeve koje je teško otkriti pre nego što se sistem primeni i naiđe na nove situacije i distribucije podataka.[7][8]

Danas ovi problemi utiču na postojeće komercijalne sisteme kao što su jezički modeli,[9][10][11] roboti,[12] autonomna vozila,[13] i mašine za preporuke društvenih medija.[9][6][14] Neki istraživači veštačke inteligencije tvrde da će sposobniji budući sistemi biti teže pogođeni, pošto su ovi problemi delimično rezultat toga što su sistemi veoma sposobni.[15][3][2]

Mnogi od najcitiranijih naučnika VI,[16][17][18] uključujući Džefrija Hintona, Jošuu Bendžiha i Stjuarta Rasela, tvrde da se VI približava ljudskim (AGI) i nadljudskim kognitivnim sposobnostima (ASI) i da bi mogla da ugrozi ljudsku civilizaciju ako je neusklađena.[19][6] O ovim rizicima se i dalje raspravlja.[20]

Usklađivanje veštačke inteligencije je podoblast bezbednosti veštačke inteligencije, studija o tome kako izgraditi bezbedne VI sisteme.[21] Ostale podoblasti VI bezbednosti uključuju robusnost, praćenje i kontrolu sposobnosti.[22] Istraživački izazovi u usklađivanju obuhvataju uvođenje kompleksnih vrednosti u veštačku inteligenciju, razvoj poštene veštačke inteligencije, skalabilan nadzor, reviziju i tumačenje VI modela i sprečavanje pojavljivanja VI ponašanja kao što je traženje moći.[22] Istraživanje usklađivanja ima veze sa istraživanjem interpretabilnosti,[23][24] (konkurentnom) robusnošću,[21] otkrivanjem anomalija, kalibrisanom nesigurnošću,[23] formalnom verifikacijom,[25] učenjem o preferencijama,[26][27][28] bezbednono-kritičkom inženjerstvu,[29] teoriji igara,[30] algoritamskoj pravičnosti,[21][31] i društvenim naukama.[32]

Reference

уреди
  1. ^ а б в г Russell, Stuart J.; Norvig, Peter (2021). Artificial intelligence: A modern approach (4th изд.). Pearson. стр. 5, 1003. ISBN 9780134610993. Приступљено 12. 9. 2022. 
  2. ^ а б Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). „The Alignment Problem from a Deep Learning Perspective”. International Conference on Learning Representations. arXiv:2209.00626 . 
  3. ^ а б Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (2022-02-14). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Приступљено 2022-07-21. 
  4. ^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI”. Advances in Neural Information Processing Systems. 33. Curran Associates, Inc. стр. 15763—15773. Приступљено 2023-03-11. 
  5. ^ Carlsmith, Joseph (2022-06-16). „Is Power-Seeking AI an Existential Risk?”. arXiv:2206.13353  [cs.CY]. 
  6. ^ а б в Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915. 
  7. ^ Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Архивирано из оригинала 10. 2. 2023. г. Приступљено 12. 9. 2022. 
  8. ^ Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (2022-06-28). „Goal Misgeneralization in Deep Reinforcement Learning”. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. стр. 12004—12019. Приступљено 2023-03-11. 
  9. ^ а б Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). „On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258 . 
  10. ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback”. arXiv:2203.02155  [cs.CL]. 
  11. ^ Zaremba, Wojciech; Brockman, Greg; OpenAI (2021-08-10). „OpenAI Codex”. OpenAI. Архивирано из оригинала 3. 2. 2023. г. Приступљено 2022-07-23. 
  12. ^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). „Reinforcement learning in robotics: A survey”. The International Journal of Robotics Research (на језику: енглески). 32 (11): 1238—1274. ISSN 0278-3649. S2CID 1932843. doi:10.1177/0278364913495721. Архивирано из оригинала 15. 10. 2022. г. Приступљено 12. 9. 2022. 
  13. ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (2023-03-01). „Reward (Mis)design for autonomous driving”. Artificial Intelligence (на језику: енглески). 316: 103829. ISSN 0004-3702. S2CID 233423198. arXiv:2104.13906 . doi:10.1016/j.artint.2022.103829 . 
  14. ^ Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being”. International Journal of Community Well-Being (на језику: енглески). 3 (4): 443—463. ISSN 2524-5295. PMC 7610010 . PMID 34723107. S2CID 226254676. doi:10.1007/s42413-020-00086-3. 
  15. ^ Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. стр. 1003. ISBN 978-0-13-461099-3. 
  16. ^ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024), „Managing extreme AI risks amid rapid progress”, Science, 384 (6698): 842—845, Bibcode:2024Sci...384..842B, PMID 38768279, arXiv:2310.17688 , doi:10.1126/science.adn0117 
  17. ^ „Statement on AI Risk | CAIS”. www.safe.ai (на језику: енглески). Приступљено 2024-02-11. 
  18. ^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (2024-01-05), Thousands of AI Authors on the Future of AI, arXiv:2401.02843  
  19. ^ Smith, Craig S. „Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'. Forbes (на језику: енглески). Приступљено 2023-05-04. 
  20. ^ Perrigo, Billy (2024-02-13). „Meta's AI Chief Yann LeCun on AGI, Open-Source, and AI Risk”. TIME (на језику: енглески). Приступљено 2024-06-26. 
  21. ^ а б в Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016-06-21). „Concrete Problems in AI Safety” (на језику: енглески). arXiv:1606.06565  [cs.AI]. 
  22. ^ а б Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (2018-09-27). „Building safe artificial intelligence: specification, robustness, and assurance”. DeepMind Safety Research – Medium. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18. 
  23. ^ а б Rorvig, Mordechai (2022-04-14). „Researchers Gain New Understanding From Simple AI”. Quanta Magazine. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18. 
  24. ^ Doshi-Velez, Finale; Kim, Been (2017-03-02). „Towards A Rigorous Science of Interpretable Machine Learning”. arXiv:1702.08608  [stat.ML]. 
  25. ^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (2015-12-31). „Research Priorities for Robust and Beneficial Artificial Intelligence”. AI Magazine. 36 (4): 105—114. ISSN 2371-9621. S2CID 8174496. arXiv:1602.03506 . doi:10.1609/aimag.v36i4.2577 . hdl:1721.1/108478. Архивирано из оригинала 2. 2. 2023. г. Приступљено 12. 9. 2022. 
  26. ^ Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). „A survey of preference-based reinforcement learning methods”. Journal of Machine Learning Research. 18 (136): 1—46. 
  27. ^ Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). „Deep reinforcement learning from human preferences”. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. стр. 4302—4310. ISBN 978-1-5108-6096-4. 
  28. ^ Heaven, Will Douglas (2022-01-27). „The new version of GPT-3 is much better behaved (and should be less toxic)”. MIT Technology Review. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18. 
  29. ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (2022-03-07). „Taxonomy of Machine Learning Safety: A Survey and Primer”. arXiv:2106.04823  [cs.LG]. 
  30. ^ Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda”. Center on Long-Term Risk. Архивирано из оригинала 1. 1. 2023. г. Приступљено 2022-07-18. 
  31. ^ Prunkl, Carina; Whittlestone, Jess (2020-02-07). „Beyond Near- and Long-Term”. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (на језику: енглески). New York NY USA: ACM. стр. 138—143. ISBN 978-1-4503-7110-0. S2CID 210164673. doi:10.1145/3375627.3375803. Архивирано из оригинала 16. 10. 2022. г. Приступљено 12. 9. 2022. 
  32. ^ Irving, Geoffrey; Askell, Amanda (2019-02-19). „AI Safety Needs Social Scientists”. Distill. 4 (2): 10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. doi:10.23915/distill.00014 . Архивирано из оригинала 10. 2. 2023. г. Приступљено 12. 9. 2022. 

Literatura

уреди

Spoljašnje veze

уреди