Усклађивање вештачке интелигенције

У области вештачке интелигенције (VI), истраживање усклађивања VI има за циљ да усмери системе вештачке интелигенције ка циљевима, преференцијама и етичким принципима неке особе или групе. Систем вештачке интелигенције се сматра усклађеним ако унапреди своје предвиђене циљеве. Неусклађени систем вештачке интелигенције може да тежи неким циљевима, али не и предвиђеним.[1]

Дизајнерима вештачке интелигенције је често изазов да ускладе систем вештачке интелигенције, јер им је тешко да прецизирају читав спектар жељених и нежељених понашања. Стога, дизајнери вештачке интелигенције често користе једноставније прокси циљеве, као што је добијање људског одобрења. Али тај приступ може да створи празнине у закону, да превиди неопходна ограничења или да награди систем вештачке интелигенције само зато што изгледа усклађен.[1][2]

Неусклађени системи вештачке интелигенције могу да покваре функционисање и проузрокују штету. Системи вештачке интелигенције могу пронаћи празнине које им омогућавају да ефикасно остваре своје прокси циљеве, али на ненамерне, понекад штетне начине (награда хаковања).[1][3][4] Они такође могу развити нежељене инструменталне стратегије, као што су тражење моћи или опстанак јер им такве стратегије помажу да постигну своје коначне задате циљеве.[1][5][6] Штавише, они могу развити непожељне циљеве које је тешко открити пре него што се систем примени и наиђе на нове ситуације и дистрибуције података.[7][8]

Данас ови проблеми утичу на постојеће комерцијалне системе као што су језички модели,[9][10][11] роботи,[12] аутономна возила,[13] и машине за препоруке друштвених медија.[9][6][14] Неки истраживачи вештачке интелигенције тврде да ће способнији будући системи бити теже погођени, пошто су ови проблеми делимично резултат тога што су системи веома способни.[15][3][2]

Многи од најцитиранијих научника VI,[16][17][18] укључујући Џефрија Хинтона, Јошуу Бенџиха и Стјуарта Расела, тврде да се VI приближава људским (АГИ) и надљудским когнитивним способностима (АСИ) и да би могла да угрози људску цивилизацију ако је неусклађена.[19][6] О овим ризицима се и даље расправља.[20]

Усклађивање вештачке интелигенције је подобласт безбедности вештачке интелигенције, студија о томе како изградити безбедне VI системе.[21] Остале подобласти VI безбедности укључују робусност, праћење и контролу способности.[22] Истраживачки изазови у усклађивању обухватају увођење комплексних вредности у вештачку интелигенцију, развој поштене вештачке интелигенције, скалабилан надзор, ревизију и тумачење VI модела и спречавање појављивања VI понашања као што је тражење моћи.[22] Истраживање усклађивања има везе са истраживањем интерпретабилности,[23][24] (конкурентном) робусношћу,[21] откривањем аномалија, калибрисаном несигурношћу,[23] формалном верификацијом,[25] учењем о преференцијама,[26][27][28] безбедноно-критичком инжењерству,[29] теорији игара,[30] алгоритамској правичности,[21][31] и друштвеним наукама.[32]

Референце

уреди
  1. ^ а б в г Русселл, Стуарт Ј.; Норвиг, Петер (2021). Артифициал интеллигенце: А модерн аппроацх (4тх изд.). Пеарсон. стр. 5, 1003. ИСБН 9780134610993. Приступљено 12. 9. 2022. 
  2. ^ а б Нго, Рицхард; Цхан, Лаwренце; Миндерманн, Сöрен (2022). „Тхе Алигнмент Проблем фром а Дееп Леарнинг Перспецтиве”. Интернатионал Цонференце он Леарнинг Репресентатионс. арXив:2209.00626 . 
  3. ^ а б Пан, Алеxандер; Бхатиа, Кусх; Стеинхардт, Јацоб (2022-02-14). Тхе Еффецтс оф Реwард Мисспецифицатион: Маппинг анд Митигатинг Мисалигнед Моделс. Интернатионал Цонференце он Леарнинг Репресентатионс. Приступљено 2022-07-21. 
  4. ^ Зхуанг, Симон; Хадфиелд-Менелл, Дyлан (2020). „Цонсеqуенцес оф Мисалигнед АИ”. Адванцес ин Неурал Информатион Процессинг Сyстемс. 33. Цурран Ассоциатес, Инц. стр. 15763—15773. Приступљено 2023-03-11. 
  5. ^ Царлсмитх, Јосепх (2022-06-16). „Ис Поwер-Сеекинг АИ ан Еxистентиал Риск?”. арXив:2206.13353  [цс.ЦY]. 
  6. ^ а б в Русселл, Стуарт Ј. (2020). Хуман цомпатибле: Артифициал интеллигенце анд тхе проблем оф цонтрол. Пенгуин Рандом Хоусе. ИСБН 9780525558637. ОЦЛЦ 1113410915. 
  7. ^ Цхристиан, Бриан (2020). Тхе алигнмент проблем: Мацхине леарнинг анд хуман валуес. W. W. Нортон & Цомпанy. ИСБН 978-0-393-86833-3. ОЦЛЦ 1233266753. Архивирано из оригинала 10. 2. 2023. г. Приступљено 12. 9. 2022. 
  8. ^ Лангосцо, Лауро Лангосцо Ди; Коцх, Јацк; Схаркеy, Лее D.; Пфау, Јацоб; Круегер, Давид (2022-06-28). „Гоал Мисгенерализатион ин Дееп Реинфорцемент Леарнинг”. Процеедингс оф тхе 39тх Интернатионал Цонференце он Мацхине Леарнинг. Интернатионал Цонференце он Мацхине Леарнинг. ПМЛР. стр. 12004—12019. Приступљено 2023-03-11. 
  9. ^ а б Боммасани, Рисхи; Худсон, Дреw А.; Адели, Ехсан; Алтман, Русс; Арора, Симран; вон Арx, Сyднеy; Бернстеин, Мицхаел С.; Бохг, Јеаннетте; Босселут, Антоине; Брунскилл, Емма; Брyњолфссон, Ерик (2022-07-12). „Он тхе Оппортунитиес анд Рискс оф Фоундатион Моделс”. Станфорд ЦРФМ. арXив:2108.07258 . 
  10. ^ Оуyанг, Лонг; Wу, Јефф; Јианг, Xу; Алмеида, Диого; Wаинwригхт, Царролл L.; Мисхкин, Памела; Зханг, Цхонг; Агарwал, Сандхини; Слама, Катарина; Раy, Алеx; Сцхулман, Ј.; Хилтон, Јацоб; Келтон, Фрасер; Миллер, Луке Е.; Сименс, Маддие; Аскелл, Аманда; Wелиндер, П.; Цхристиано, П.; Леике, Ј.; Лоwе, Рyан Ј. (2022). „Траининг лангуаге моделс то фоллоw инструцтионс wитх хуман феедбацк”. арXив:2203.02155  [цс.CL]. 
  11. ^ Заремба, Wојциецх; Броцкман, Грег; ОпенАИ (2021-08-10). „ОпенАИ Цодеx”. ОпенАИ. Архивирано из оригинала 3. 2. 2023. г. Приступљено 2022-07-23. 
  12. ^ Кобер, Јенс; Багнелл, Ј. Андреw; Петерс, Јан (2013-09-01). „Реинфорцемент леарнинг ин роботицс: А сурвеy”. Тхе Интернатионал Јоурнал оф Роботицс Ресеарцх (на језику: енглески). 32 (11): 1238—1274. ИССН 0278-3649. С2ЦИД 1932843. дои:10.1177/0278364913495721. Архивирано из оригинала 15. 10. 2022. г. Приступљено 12. 9. 2022. 
  13. ^ Кноx, W. Брадлеy; Аллиеви, Алессандро; Банзхаф, Холгер; Сцхмитт, Фелиx; Стоне, Петер (2023-03-01). „Реwард (Мис)десигн фор аутономоус дривинг”. Артифициал Интеллигенце (на језику: енглески). 316: 103829. ИССН 0004-3702. С2ЦИД 233423198. арXив:2104.13906 . дои:10.1016/ј.артинт.2022.103829 . 
  14. ^ Страy, Јонатхан (2020). „Алигнинг АИ Оптимизатион то Цоммунитy Wелл-Беинг”. Интернатионал Јоурнал оф Цоммунитy Wелл-Беинг (на језику: енглески). 3 (4): 443—463. ИССН 2524-5295. ПМЦ 7610010 . ПМИД 34723107. С2ЦИД 226254676. дои:10.1007/с42413-020-00086-3. 
  15. ^ Русселл, Стуарт; Норвиг, Петер (2009). Артифициал Интеллигенце: А Модерн Аппроацх. Прентице Халл. стр. 1003. ИСБН 978-0-13-461099-3. 
  16. ^ Бенгио, Yосхуа; Хинтон, Геоффреy; Yао, Андреw; Сонг, Даwн; Аббеел, Пиетер; Харари, Yувал Ноах; Зханг, Yа-Qин; Xуе, Лан; Схалев-Схwартз, Схаи (2024), „Манагинг еxтреме АИ рискс амид рапид прогресс”, Сциенце, 384 (6698): 842—845, Бибцоде:2024Сци...384..842Б, ПМИД 38768279, арXив:2310.17688 , дои:10.1126/сциенце.адн0117 
  17. ^ „Статемент он АИ Риск | ЦАИС”. www.сафе.аи (на језику: енглески). Приступљено 2024-02-11. 
  18. ^ Граце, Катја; Стеwарт, Харлан; Сандкüхлер, Јулиа Фабиенне; Тхомас, Степхен; Wеинстеин-Раун, Бен; Браунер, Јан (2024-01-05), Тхоусандс оф АИ Аутхорс он тхе Футуре оф АИ, арXив:2401.02843  
  19. ^ Смитх, Цраиг С. „Геофф Хинтон, АИ'с Мост Фамоус Ресеарцхер, Wарнс Оф 'Еxистентиал Тхреат'. Форбес (на језику: енглески). Приступљено 2023-05-04. 
  20. ^ Перриго, Биллy (2024-02-13). „Мета'с АИ Цхиеф Yанн ЛеЦун он АГИ, Опен-Соурце, анд АИ Риск”. ТИМЕ (на језику: енглески). Приступљено 2024-06-26. 
  21. ^ а б в Амодеи, Дарио; Олах, Цхрис; Стеинхардт, Јацоб; Цхристиано, Паул; Сцхулман, Јохн; Манé, Дан (2016-06-21). „Цонцрете Проблемс ин АИ Сафетy” (на језику: енглески). арXив:1606.06565  [цс.АИ]. 
  22. ^ а б Ортега, Педро А.; Маини, Висхал; ДеепМинд сафетy теам (2018-09-27). „Буилдинг сафе артифициал интеллигенце: специфицатион, робустнесс, анд ассуранце”. ДеепМинд Сафетy Ресеарцх – Медиум. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18. 
  23. ^ а б Рорвиг, Мордецхаи (2022-04-14). „Ресеарцхерс Гаин Неw Ундерстандинг Фром Симпле АИ”. Qуанта Магазине. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18. 
  24. ^ Досхи-Велез, Финале; Ким, Беен (2017-03-02). „Тоwардс А Ригороус Сциенце оф Интерпретабле Мацхине Леарнинг”. арXив:1702.08608  [стат.ML]. 
  25. ^ Русселл, Стуарт; Деwеy, Даниел; Тегмарк, Маx (2015-12-31). „Ресеарцх Приоритиес фор Робуст анд Бенефициал Артифициал Интеллигенце”. АИ Магазине. 36 (4): 105—114. ИССН 2371-9621. С2ЦИД 8174496. арXив:1602.03506 . дои:10.1609/аимаг.в36и4.2577 . хдл:1721.1/108478. Архивирано из оригинала 2. 2. 2023. г. Приступљено 12. 9. 2022. 
  26. ^ Wиртх, Цхристиан; Акроур, Риад; Неуманн, Герхард; Фüрнкранз, Јоханнес (2017). „А сурвеy оф преференце-басед реинфорцемент леарнинг метходс”. Јоурнал оф Мацхине Леарнинг Ресеарцх. 18 (136): 1—46. 
  27. ^ Цхристиано, Паул Ф.; Леике, Јан; Броwн, Том Б.; Мартиц, Миљан; Легг, Схане; Амодеи, Дарио (2017). „Дееп реинфорцемент леарнинг фром хуман преференцес”. Процеедингс оф тхе 31ст Интернатионал Цонференце он Неурал Информатион Процессинг Сyстемс. НИПС'17. Ред Хоок, НY, УСА: Цурран Ассоциатес Инц. стр. 4302—4310. ИСБН 978-1-5108-6096-4. 
  28. ^ Хеавен, Wилл Доуглас (2022-01-27). „Тхе неw версион оф ГПТ-3 ис муцх беттер бехавед (анд схоулд бе лесс тоxиц)”. МИТ Тецхнологy Ревиеw. Архивирано из оригинала 10. 2. 2023. г. Приступљено 2022-07-18. 
  29. ^ Мохсени, Сина; Wанг, Хаотао; Yу, Зхидинг; Xиао, Цхаоwеи; Wанг, Зхангyанг; Yадаwа, Јаy (2022-03-07). „Таxономy оф Мацхине Леарнинг Сафетy: А Сурвеy анд Пример”. арXив:2106.04823  [цс.ЛГ]. 
  30. ^ Цлифтон, Јессе (2020). „Цооператион, Цонфлицт, анд Трансформативе Артифициал Интеллигенце: А Ресеарцх Агенда”. Центер он Лонг-Терм Риск. Архивирано из оригинала 1. 1. 2023. г. Приступљено 2022-07-18. 
  31. ^ Прункл, Царина; Wхиттлестоне, Јесс (2020-02-07). „Беyонд Неар- анд Лонг-Терм”. Процеедингс оф тхе АААИ/АЦМ Цонференце он АИ, Етхицс, анд Социетy (на језику: енглески). Неw Yорк НY УСА: АЦМ. стр. 138—143. ИСБН 978-1-4503-7110-0. С2ЦИД 210164673. дои:10.1145/3375627.3375803. Архивирано из оригинала 16. 10. 2022. г. Приступљено 12. 9. 2022. 
  32. ^ Ирвинг, Геоффреy; Аскелл, Аманда (2019-02-19). „АИ Сафетy Неедс Социал Сциентистс”. Дистилл. 4 (2): 10.23915/дистилл.00014. ИССН 2476-0757. С2ЦИД 159180422. дои:10.23915/дистилл.00014 . Архивирано из оригинала 10. 2. 2023. г. Приступљено 12. 9. 2022. 

Литература

уреди

Спољашње везе

уреди