Usklađivanje veštačke inteligencije
U oblasti veštačke inteligencije (VI), istraživanje usklađivanja VI ima za cilj da usmeri sisteme veštačke inteligencije ka ciljevima, preferencijama i etičkim principima neke osobe ili grupe. Sistem veštačke inteligencije se smatra usklađenim ako unapredi svoje predviđene ciljeve. Neusklađeni sistem veštačke inteligencije može da teži nekim ciljevima, ali ne i predviđenim.[1]
Dizajnerima veštačke inteligencije je često izazov da usklade sistem veštačke inteligencije, jer im je teško da preciziraju čitav spektar željenih i neželjenih ponašanja. Stoga, dizajneri veštačke inteligencije često koriste jednostavnije proksi ciljeve, kao što je dobijanje ljudskog odobrenja. Ali taj pristup može da stvori praznine u zakonu, da previdi neophodna ograničenja ili da nagradi sistem veštačke inteligencije samo zato što izgleda usklađen.[1][2]
Neusklađeni sistemi veštačke inteligencije mogu da pokvare funkcionisanje i prouzrokuju štetu. Sistemi veštačke inteligencije mogu pronaći praznine koje im omogućavaju da efikasno ostvare svoje proksi ciljeve, ali na nenamerne, ponekad štetne načine (nagrada hakovanja).[1][3][4] Oni takođe mogu razviti neželjene instrumentalne strategije, kao što su traženje moći ili opstanak jer im takve strategije pomažu da postignu svoje konačne zadate ciljeve.[1][5][6] Štaviše, oni mogu razviti nepoželjne ciljeve koje je teško otkriti pre nego što se sistem primeni i naiđe na nove situacije i distribucije podataka.[7][8]
Danas ovi problemi utiču na postojeće komercijalne sisteme kao što su jezički modeli,[9][10][11] roboti,[12] autonomna vozila,[13] i mašine za preporuke društvenih medija.[9][6][14] Neki istraživači veštačke inteligencije tvrde da će sposobniji budući sistemi biti teže pogođeni, pošto su ovi problemi delimično rezultat toga što su sistemi veoma sposobni.[15][3][2]
Mnogi od najcitiranijih naučnika VI,[16][17][18] uključujući Džefrija Hintona, Jošuu Bendžiha i Stjuarta Rasela, tvrde da se VI približava ljudskim (AGI) i nadljudskim kognitivnim sposobnostima (ASI) i da bi mogla da ugrozi ljudsku civilizaciju ako je neusklađena.[19][6] O ovim rizicima se i dalje raspravlja.[20]
Usklađivanje veštačke inteligencije je podoblast bezbednosti veštačke inteligencije, studija o tome kako izgraditi bezbedne VI sisteme.[21] Ostale podoblasti VI bezbednosti uključuju robusnost, praćenje i kontrolu sposobnosti.[22] Istraživački izazovi u usklađivanju obuhvataju uvođenje kompleksnih vrednosti u veštačku inteligenciju, razvoj poštene veštačke inteligencije, skalabilan nadzor, reviziju i tumačenje VI modela i sprečavanje pojavljivanja VI ponašanja kao što je traženje moći.[22] Istraživanje usklađivanja ima veze sa istraživanjem interpretabilnosti,[23][24] (konkurentnom) robusnošću,[21] otkrivanjem anomalija, kalibrisanom nesigurnošću,[23] formalnom verifikacijom,[25] učenjem o preferencijama,[26][27][28] bezbednono-kritičkom inženjerstvu,[29] teoriji igara,[30] algoritamskoj pravičnosti,[21][31] i društvenim naukama.[32]
Reference
уреди- ^ а б в г Russell, Stuart J.; Norvig, Peter (2021). Artificial intelligence: A modern approach (4th изд.). Pearson. стр. 5, 1003. ISBN 9780134610993. Приступљено 12. 9. 2022.
- ^ а б Ngo, Richard; Chan, Lawrence; Mindermann, Sören (2022). „The Alignment Problem from a Deep Learning Perspective”. International Conference on Learning Representations. arXiv:2209.00626 .
- ^ а б Pan, Alexander; Bhatia, Kush; Steinhardt, Jacob (2022-02-14). The Effects of Reward Misspecification: Mapping and Mitigating Misaligned Models. International Conference on Learning Representations. Приступљено 2022-07-21.
- ^ Zhuang, Simon; Hadfield-Menell, Dylan (2020). „Consequences of Misaligned AI”. Advances in Neural Information Processing Systems. 33. Curran Associates, Inc. стр. 15763—15773. Приступљено 2023-03-11.
- ^ Carlsmith, Joseph (2022-06-16). „Is Power-Seeking AI an Existential Risk?”. arXiv:2206.13353 [cs.CY].
- ^ а б в Russell, Stuart J. (2020). Human compatible: Artificial intelligence and the problem of control. Penguin Random House. ISBN 9780525558637. OCLC 1113410915.
- ^ Christian, Brian (2020). The alignment problem: Machine learning and human values. W. W. Norton & Company. ISBN 978-0-393-86833-3. OCLC 1233266753. Архивирано из оригинала 10. 2. 2023. г. Приступљено 12. 9. 2022.
- ^ Langosco, Lauro Langosco Di; Koch, Jack; Sharkey, Lee D.; Pfau, Jacob; Krueger, David (2022-06-28). „Goal Misgeneralization in Deep Reinforcement Learning”. Proceedings of the 39th International Conference on Machine Learning. International Conference on Machine Learning. PMLR. стр. 12004—12019. Приступљено 2023-03-11.
- ^ а б Bommasani, Rishi; Hudson, Drew A.; Adeli, Ehsan; Altman, Russ; Arora, Simran; von Arx, Sydney; Bernstein, Michael S.; Bohg, Jeannette; Bosselut, Antoine; Brunskill, Emma; Brynjolfsson, Erik (2022-07-12). „On the Opportunities and Risks of Foundation Models”. Stanford CRFM. arXiv:2108.07258 .
- ^ Ouyang, Long; Wu, Jeff; Jiang, Xu; Almeida, Diogo; Wainwright, Carroll L.; Mishkin, Pamela; Zhang, Chong; Agarwal, Sandhini; Slama, Katarina; Ray, Alex; Schulman, J.; Hilton, Jacob; Kelton, Fraser; Miller, Luke E.; Simens, Maddie; Askell, Amanda; Welinder, P.; Christiano, P.; Leike, J.; Lowe, Ryan J. (2022). „Training language models to follow instructions with human feedback”. arXiv:2203.02155 [cs.CL].
- ^ Zaremba, Wojciech; Brockman, Greg; OpenAI (2021-08-10). „OpenAI Codex”. OpenAI. Архивирано из оригинала 3. 2. 2023. г. Приступљено 2022-07-23.
- ^ Kober, Jens; Bagnell, J. Andrew; Peters, Jan (2013-09-01). „Reinforcement learning in robotics: A survey”. The International Journal of Robotics Research (на језику: енглески). 32 (11): 1238—1274. ISSN 0278-3649. S2CID 1932843. doi:10.1177/0278364913495721. Архивирано из оригинала 15. 10. 2022. г. Приступљено 12. 9. 2022.
- ^ Knox, W. Bradley; Allievi, Alessandro; Banzhaf, Holger; Schmitt, Felix; Stone, Peter (2023-03-01). „Reward (Mis)design for autonomous driving”. Artificial Intelligence (на језику: енглески). 316: 103829. ISSN 0004-3702. S2CID 233423198. arXiv:2104.13906 . doi:10.1016/j.artint.2022.103829 .
- ^ Stray, Jonathan (2020). „Aligning AI Optimization to Community Well-Being”. International Journal of Community Well-Being (на језику: енглески). 3 (4): 443—463. ISSN 2524-5295. PMC 7610010 . PMID 34723107. S2CID 226254676. doi:10.1007/s42413-020-00086-3.
- ^ Russell, Stuart; Norvig, Peter (2009). Artificial Intelligence: A Modern Approach. Prentice Hall. стр. 1003. ISBN 978-0-13-461099-3.
- ^ Bengio, Yoshua; Hinton, Geoffrey; Yao, Andrew; Song, Dawn; Abbeel, Pieter; Harari, Yuval Noah; Zhang, Ya-Qin; Xue, Lan; Shalev-Shwartz, Shai (2024), „Managing extreme AI risks amid rapid progress”, Science, 384 (6698): 842—845, Bibcode:2024Sci...384..842B, PMID 38768279, arXiv:2310.17688 , doi:10.1126/science.adn0117
- ^ „Statement on AI Risk | CAIS”. www.safe.ai (на језику: енглески). Приступљено 2024-02-11.
- ^ Grace, Katja; Stewart, Harlan; Sandkühler, Julia Fabienne; Thomas, Stephen; Weinstein-Raun, Ben; Brauner, Jan (2024-01-05), Thousands of AI Authors on the Future of AI, arXiv:2401.02843
- ^ Smith, Craig S. „Geoff Hinton, AI's Most Famous Researcher, Warns Of 'Existential Threat'”. Forbes (на језику: енглески). Приступљено 2023-05-04.
- ^ Perrigo, Billy (2024-02-13). „Meta's AI Chief Yann LeCun on AGI, Open-Source, and AI Risk”. TIME (на језику: енглески). Приступљено 2024-06-26.
- ^ а б в Amodei, Dario; Olah, Chris; Steinhardt, Jacob; Christiano, Paul; Schulman, John; Mané, Dan (2016-06-21). „Concrete Problems in AI Safety” (на језику: енглески). arXiv:1606.06565 [cs.AI].
- ^ а б Ortega, Pedro A.; Maini, Vishal; DeepMind safety team (2018-09-27). „Building safe artificial intelligence: specification, robustness, and assurance”. DeepMind Safety Research – Medium. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18.
- ^ а б Rorvig, Mordechai (2022-04-14). „Researchers Gain New Understanding From Simple AI”. Quanta Magazine. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18.
- ^ Doshi-Velez, Finale; Kim, Been (2017-03-02). „Towards A Rigorous Science of Interpretable Machine Learning”. arXiv:1702.08608 [stat.ML].
- Wiblin, Robert (4. 8. 2021). „Chris Olah on what the hell is going on inside neural networks” (Подкест). 80,000 hours. Приступљено 2022-07-23.
- ^ Russell, Stuart; Dewey, Daniel; Tegmark, Max (2015-12-31). „Research Priorities for Robust and Beneficial Artificial Intelligence”. AI Magazine. 36 (4): 105—114. ISSN 2371-9621. S2CID 8174496. arXiv:1602.03506 . doi:10.1609/aimag.v36i4.2577 . hdl:1721.1/108478. Архивирано из оригинала 2. 2. 2023. г. Приступљено 12. 9. 2022.
- ^ Wirth, Christian; Akrour, Riad; Neumann, Gerhard; Fürnkranz, Johannes (2017). „A survey of preference-based reinforcement learning methods”. Journal of Machine Learning Research. 18 (136): 1—46.
- ^ Christiano, Paul F.; Leike, Jan; Brown, Tom B.; Martic, Miljan; Legg, Shane; Amodei, Dario (2017). „Deep reinforcement learning from human preferences”. Proceedings of the 31st International Conference on Neural Information Processing Systems. NIPS'17. Red Hook, NY, USA: Curran Associates Inc. стр. 4302—4310. ISBN 978-1-5108-6096-4.
- ^ Heaven, Will Douglas (2022-01-27). „The new version of GPT-3 is much better behaved (and should be less toxic)”. MIT Technology Review. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18.
- ^ Mohseni, Sina; Wang, Haotao; Yu, Zhiding; Xiao, Chaowei; Wang, Zhangyang; Yadawa, Jay (2022-03-07). „Taxonomy of Machine Learning Safety: A Survey and Primer”. arXiv:2106.04823 [cs.LG].
- ^ Clifton, Jesse (2020). „Cooperation, Conflict, and Transformative Artificial Intelligence: A Research Agenda”. Center on Long-Term Risk. Архивирано из оригинала 1. 1. 2023. г. Приступљено 2022-07-18.
- Dafoe, Allan; Bachrach, Yoram; Hadfield, Gillian; Horvitz, Eric; Larson, Kate; Graepel, Thore (2021-05-06). „Cooperative AI: machines must learn to find common ground”. Nature (на језику: енглески). 593 (7857): 33—36. Bibcode:2021Natur.593...33D. ISSN 0028-0836. PMID 33947992. S2CID 233740521. doi:10.1038/d41586-021-01170-0. Архивирано из оригинала 18. 12. 2022. г. Приступљено 12. 9. 2022.
- ^ Prunkl, Carina; Whittlestone, Jess (2020-02-07). „Beyond Near- and Long-Term”. Proceedings of the AAAI/ACM Conference on AI, Ethics, and Society (на језику: енглески). New York NY USA: ACM. стр. 138—143. ISBN 978-1-4503-7110-0. S2CID 210164673. doi:10.1145/3375627.3375803. Архивирано из оригинала 16. 10. 2022. г. Приступљено 12. 9. 2022.
- ^ Irving, Geoffrey; Askell, Amanda (2019-02-19). „AI Safety Needs Social Scientists”. Distill. 4 (2): 10.23915/distill.00014. ISSN 2476-0757. S2CID 159180422. doi:10.23915/distill.00014 . Архивирано из оригинала 10. 2. 2023. г. Приступљено 12. 9. 2022.
Literatura
уреди- Brockman, John, ур. (2019). Possible Minds: Twenty-five Ways of Looking at AI (Kindle изд.). Penguin Press. ISBN 978-0525557999.
- Ngo, Richard; et al. (2023). „The Alignment Problem from a Deep Learning Perspective”. arXiv:2209.00626 [cs.AI].
- Ji, Jiaming; et al. (2023). „AI Alignment: A Comprehensive Survey”. arXiv:2310.19852 [cs.AI].