Дубоко учење (познато као дубоко структурно учење или хијерархијско учење) део је шире породице метода машинског учења базиране на учењу репрезентације података, насупрот алгоритмима који се базирају на листама наредби. Учење може бити надгледано, полу-надгледано или ненадгледано.[1][2][3]

Неке репрезентације подсећају на интерпретацију обраде информација и на шаблоне комуникације у биолошком нервном систему, као што је нервно кодирање које дефинише везу између различитих дражи и одговарајућег нервног одговора у мозгу.

Архитектуре дубоког учења, као што су дубока нервна мрежа или рекурентна нервна мрежа примењена су на пољима рачунарског вида, препознавања говора, обраде природних језика, препознавања звука, филтрирања друштвених мрежа, биоинформатике и дизајна лекова[4] и постигли резултате једнаке, ако не и боље од резултата стручњака.[5][6]

Дефиниције

уреди

Дубоко учење је класа алгоритама машинског учења који:[7]

  • користе вишеслојне нелинеарне процесорске јединице за екстракцију и трансформацију одлика. Сваки следећи слој узима као улаз излазне елементе претходног слоја.
  • уче на надгледан и/или ненадгледан начин.
  • уче већи број нивоа репрезентације који одговарају различитим степенима апстракције.
  • користе некакав облик алгоритма с опадајућим градијентом за тренинг кроз повратно пропагирање грешке.

Слојеви коришћени у дубоком програмирању укључују скривене слојеве вештачке нервне мреже и мноштво исказних формула.[8] Могу укључити и слојевито организоване скривене променљиве у дубоко генерисаним моделима налик онима код Дубоких Болцанових машина.

Поверљиви задатак

уреди
  • Путања поверљивог задатка (CAP)[2] – Ланац трансформација од улаза до излаза. CAP описује потенцијално узрочне везе између улаза и излаза.
  • Дубина CAP-а – за feedforward неуронске мреже, дубина CAP-а је дубина мреже и број сакривених слојева плус један (излазни слој је такође параметризован), али за рекурентне неуронске мреже, у којима се сигнал може пропагирати преко слоја више пута, дубина CAP-а је потенцијално неограничена.
  • Дубоко / плитко – Не постоји универзалан праг дубине који дели плитко учење од дубоког, али се већина истраживача слаже да се подразумева да је код дубоког учења дубина ЦАП-а већа од 2.

Концепти

уреди

Претпоставка у основи дистрибуираних репрезентација је да се посматрани подаци генеришу интеракцијама слојевитих фактора.

Дубоко учење додаје претпоставку да ови слојеви фактора одговарају нивоима апстракције или састава. Различит број слојева и величина слоја могу да обезбеде различите степене апстракције.[1]

Архитектура дубоког учења се често конструише помоћу похлепне слој-по-слој методе. Дубоко учење помаже у раздвајању ових апстракција и одабиру карактеристика које побољшавају перформансе.[1]

За задатке надгледаног учења, методе дубоког учења избегавају карактеристичан инжењеринг, превођењем података у компактне посредоване репрезентације сличне главној компоненти, и изводе слојевите структуре које уклањају редудантост у репрезентацији.

Алгоритми дубоког учења се могу применити за задатке ненадгледаног учења. Ово је важна предност јер су необележени подаци обимнији од обележених података. Примери дубоких структура које могу бити изучаване на ненадгледан начин су компресор неуралне мреже[9] и дубоке мреже веровања.[1][10]

Интерпретације

уреди

Дубоке неуралне мреже се обично тумаче у смислу теорија универзалне апроксимације[11][12][13][14][15]или пробабилистичког закључивања.[7][8][1][2][10][16][17]

Универзална теорема апроксимације се односи на капацитет feedforward неуронских мрежа са једним скривеном слојем коначне величине за проксимацију континуиране функције.[11][12][13][14][15] 1989. је Цибенко објавио први доказ за функције сигмуидне активације[12] и генерализован је за дистрибуцију вишеслојних архитектура 1991. године од стране Хорника.[13] Пробабилистичке интерпретације[16] потичу из области машинског учења. Оне нелинеарне активације разматрају као кумулативну функцију расподеле.[16] Уведене су од стране истраживача, укључујући Хопфилда, Видрова и Наренда и популризоване у анкатема као што је једна од стране Бишопа.[18]

Историја

уреди

Појам дубоко учење уведен је у заједницу машинског учења 1986 од стране Рине Дехтер,[19][9]а вештачке неуронске мреже од стране Игора Ајзенберга и колега 2000. године у контексту Булових неуронских прагова.[20][21] У 2006. години публикација Хинтона, Осиндера и Теха[22][23] показала је како би код вишеслојне feedforward неуронске мреже слој могао бити унапред ефикасно обучен третирајући сваки слој као ненадгледану ограничену Болцманову машину, лепо наштимовану коришћењем надгледане повратне прпопагације.[24] Рад се односи на учење за дубоке мреже веровања.

Први општи агоритам рада за надгледане, дупоке, преносне перцептроне објавили су Alexey Grigorevich Ivakhnenko и Лапа 1965. године.[25] Документ из 1971. описао је дубоку мрежу са осам слојева обучених групном методом алгоритма за обраду података.[26]

Друге радне архитектуре дубоког учења, посебно оне које су изграђене за рачунарски вид почеле су са Неокогнитроном који је 1980. године представио Фукушима.[27] 1989. ЛиЦун применио је алгоритам за повратну пропагацију, који је од 1970. године био окренут резервном режиму аутоматског диференцирања,[28][29][30][31] до дубоке неуронске мреже с циљем препознавања рукописних ЗИП кодова у пошти. Док је алгоритам фнкционисао, обучавање је трајало три дана.[32]

До 1991. године такви системи су коришћени за препознавање 2Д ручно исписаних цифара, док је препознавање 3Д објеката учињено одговарајућим 2Д сликама са ручно изграђеним 3Д објектним модулом. Венг и други су претпоставили да људски мозак не користи монолитни 3Д објектни модел и 1992. године објавили су Кресептрон,[33][34][35] метод за препознавање 3Д објеката у скривеним сценама. Кресептон је слап слојева сличних Неокогнитрону. Међутим док Неокогнитрон очекује од програмера да га ручно споји са карактеристикама, Кресептон је без надзора научио отворен број карактеристика на сваком нивоу, где је свака карактеристика представљена реконструкцијским алгоритмом. Кресептон је учврстио сваки научени објекат из нереда кроз анализу уназад кроз мрежу. Максимално удруживање, сада често усвојено од дубоких неуронских мрежа (нпр. ImageNet тестови) је први пут коришћено у Кресептону да смањи резолуцију позиције за фактор (2x2) до 1 кроз пренос ради бољег генерализовања.

Године 1994. Карваљо је заједно са Фејрурстом и Бисетом објавио експерименталне резултате вишеслојне Булове неуралне мреже, такође познате као бестежинске неуралне мреже, која се састоји од саморганизујуће карактеристике екстракције модула неуралне мреже праћене класификацијом неуронске мреже, које су независно обучене.[36]

Фреј је 1995. године показао да је могуће обучити (током два дана) мрежу која садржи шест потпуно повезаних слојева и неколико стотина сакривених јединица користећи вејк-слип алгоритам, развојен заједно са Дајеном и Хинтоном.[37] Многи фактори доприносе спорости, укључујући и проблем са градијентом, анализиран 1991. од стране Хохрајтера.[38][39]

Једноставни модели који користе ручно направљене карактеристике као што су Габор филтери и машине за подршку векторима (СВМ) бели су популарни током деведесетих и двехиљадитих због рачунских трошкова вештачке неуронске мреже и недостатка разумевања о томе како мозак пролази кроз своје биолошке мреже.

И плитко и дубоко учење код вештачких неуронских мрежа истраживано је већ дуги низ година.[40][41][42] Ови методи никад нису превазишли технологију неуниформног унутрашњег Гаусовог мешовитог модела/сакривеног Марковог модела(GMM-HMM) базирану на генеративним моделима говора обучаваних дискриминативно.[43] Кључне потешкоће су анализиране, укључујући градијент смањења[38] и слабу темпоралну корелациону стуктуру у неуронским предиктивним моделима.[44][45] Додатни проблем били су недостатак података за обуку и ограничена рачунарска снага.

Већина истраживача за препознавање говора преселила се из неуронских мрежа у тражење генеративног моделирања. Изузетак је био SRI International крајем деведесетих. Финансиран од стране Америчке владе, NSA-а и DARPA-е, SRI је проучавао дубоке неуронске мреже у препознавању говора и звучника. Хеков тим за препознавање звучника дошао је до првог значајног успеха са дубоким неуронским мрежама у процесирању говора у Националном институту за стандарде и технологију за препознавање звучника 1998. године.[46] Док је SRI доживљавао успехе са дубоким неуронским мрежама у препознавању звучника, били су неуспешни у демонстрацији сличног успеха у препознавању говора. Деценију касније, Хинтон и Денг су заједно сарађивали, а затим са колегама из различитих група на Универзитету у Торину, Мајкрософту, Гуглу и IBM-у покренули ренесансу дубоких неуронских мрежа у препознавању говора.[47][48][49][50]

Принцип препознавања „сирових” функција над ручно изграђеном оптимизацијом је први пут успешно истражен у архитектури дубоког аутоенкодера на „сировом” спектрограму или у функцијама линеарне филтер-банке крајем 1990. године,[46] показујући своју супериорност над функцијама Мел-Кепстрала које садрже фазе фиксне трансформације из спектрограма. Сирове особине говора, таласних облика, касније су произвеле одличне резултате већег обима.[51]

Многи асшекти препознавања говора су били преузети од стране метода дубоког учења званог дуга краткотрајна меморија (LSTM), рекурентна неуронска мрежа објављена од стране Хохрајтера и Шмидхубера 1997.[52] LSTM RNN избегавају проблеме нестајућег градијента и могу да науче задатке „веома дубоког учења”[2] који захтевају сећање догађаја који су се догодили пре хиљаду одвојених временских корака, што је важно за говор. 2003. године LSTM је почео да буде конкурентан традиционалном препознавању говора у одређеним задацима.[53] Касније је комбинован са везивном временском класификацијом (CTC)[54] у стековима LSTM RNN-а.[55] 2015. године, Гуглово препознавање говора је наводно постигло драматични скок перформанси од 49% кроз CTC - обучени LSTM, који су постали доступни кроз Гуглову претрагу гласом.[56]

Године 2006, су Хинтон и Салакхутидов су показали како вишеслојна feedforward неуронска мрежа може ефикасно бити обучити тренирајући слој истовремено, третирајући сваки слој као ненадгледану Болцманову машину, а затим је фино подесити помоћу надгледане повратне пропагације.[57]

Дубоко учење је део најсавременијих система у различитим дисциплинама, посебно у рачунарском виду и аутоматском препознавању говора (ASR). Резултати о најчешчће коришћеним сетовима евалуације, као што су TIMIT(ASR) и MINIST(класификација слика), као и низ задатака препознавања говора великих речи, постепено се побољшавају.[47][58][59] Конволуционалне неуронске мреже (CNN) су замењене са ASR од стране CTC[54] за LSTM,[52][56][60][61][62][63][64] али су успешније у рачунарском виду.

Утицај дубоког учења у индустрији почео је почетком 2000. х, када су CNN већ обрадиле 10% до 20% свих проверки написаних у САД.[65] Индустријске апликације дубоког учења за препознавање говора великих димензија почеле су око 2010.

Крајем 2009. године, Ли Денг је позвао Хинтона да сарађује са њим и колегама како би применио дубоко учење за препознавање говора. Они су заједно 2009. организовали NIPS радионицу о дубоком учењу за препознавање говора.[66] Радионица је мотивисана ограничењима дубоких генеративних модела говора, као и могућношћу да се добије способнији хардвер и велике количине података да би дубоке неуронске мреже (DNN) могле постати практичне. Веровало се да ће pre-trening DNN-ови користећи генеративне моделе дубоких вероватних мрежа (DBN) превладати главне потешкоће неуронских мрежа.[49] Међутим, открили су да замењују предобуку са великим количинама података о обуци за једноставну повратну пропагацију када користе DNN са великим, контексно зависним излазнима, произведеним значајно мањим степеном грешке од тада најсавременијег Гаусовог модела смеше (GMM)/скривеног Марковог модела (HMM) као и са напредним генеративним системима заснованим на моделу.[47][67] Природа грешака у препознавању произведена од стране два типа система била је карактеристично различита,[48][66] пружајући техничке увиде у како интегрисати дубоко учење у постојећи високо ефикасни систем за декодирање говора за време рада, који користе сви главни системи за препознавање говора.[7][68][69] Анализа око 2009—2010. године супротставила је модел GMM (и другим генеративним моделима говора) против DNN модела, подстаћући рана индустријска улагања у дубоко учење за препознавање говора,[48][66] што је довело до продорне и доминантне употребе у тој индустрији. Та анализа је обављена упоређивањем перформанси између дискриминативних DNN-а и генеративног модела.

Истраживачи су 2010. године проширили дубоко учење од TIMIT-а до препознавања говора великог речника, усвајањем великих излазних слојева DNN-а заснованих на контексно зависним HMM стањима констриушући дрво одлучивања.[70][71][72][68]

Побољшање хардвера омогућио је поновно интересовање. 2009. године Nvidia је била укључена у оно што се назива „биг банг” дубоког учења „јер су неуронске мреже дубоког учења обучаване са Nvidia графичким процесорским јединицама (GPU)”.[73] Те године, Гугл Брејн је користио Nvidia GPU како би креирао способне DNN-ове. Нг је утврдио да GPU може повећати брзину система дубоког учења око 100 пута.[74] GPU је посебно погодан за матрично/векторску математику која се користи у машинском учењу.[75][76] GPU убрзавају алгоритме тренинга по редоследу магнитуде, смањивању времена вожње од неколико недеља до неколико дана.[77][78] За ефикасну обраду се могу користити специјализоване хардверске и алгоритамске оптимизације.[79]

Године 2012, тим вођен Далом освојио је „Merck Molecular Activity Challenge” користећи глобалне multi-task неуронске мреже како би предвидели биомолекуларни циљ једне дроге.[80][81] 2014. године Хохрајтерова група је користила дубоко учење да детектује токсичке ефекте хемикалија у животној средини у хранљивим материјама, кућним производима и лековима и освојила је „Tox21 Data Challenge”.[82][83][84]

Значајни додатни утицаји на слику или објекат осетили су се од 2011. до 2012. године. Иако су CNN-ови били обучавани повратном пропагацијом већ деценијама, GPU импелементирани NN-овима годинама, укључујући CNN-ове, брзе имплементације CNN-а са максималним учинком GPU-а у стилу Циресана и колега потребне су за напредак у рачунарском виду.[75][76][32][85][2] 2011. године је овај систем први пут постигао перформансе надчовека у такмичењу препознавања визуелних узорака. Исте године је освојио такмичење ICDAR кинеског рукописа, а у мају 2012. године освојио је ISBI такмичење за сегментацију слика.[86] До 2011. године CNN-ови нису играли главну улогу на конференцијама о рачунарском виду, али у јуну 2012. чланак Циресана и осталих на водећој конференцији CVPR[5] је показао како максимално удруживање CNN-ова на GPU-у могу драматично побољшати бројне записе о мерењу видљивости. У октобру 2012. године, сличан систем Крижевског и Хинтона[6] победио је на такмичењу „ImageNet” због значајне маргине над методама плитког машинског учења. У новембру 2012. године, систем Циресана и осталих освојио је ICDAR за анализу великих медицинских слика за откривање рака, а наредне године и MICCAI Grand Challenge на исту тему.[87] 2013. и 2014. године степен грешке на задатку „ImageNet” коришћењем дубоког учења додатно је смањена, следи сличан тренд препознавања говора великих размера. Пројекат The Wolfram Image Identification објавио је ова побољшања.[88]

Класификација слика је затим проширена на изазовнији задатак генерисања описа за слике, често као комбинација CNN-а и LSTM-а.[89][90][91][92]

Вештачке неуронске мреже

уреди

Вештачке неуронске мреже или везани системи су компјутерски системи инспирисаним биолошким неуронским мрежама које чине животињски мозак. Такви системи уче (прогресивно побољшавају своју способност) да раде задатке узимајући у обзир примере углавном без специфичног програмирања. На пример, у препознавању слике, они могу да науче да идентификују слике које садрже мачке анализом примера слика које су ручно означене као „мачка” или „без мачке” и користе аналитичке резултате за идентификацију мачака на другим сликама. Највише се користе у апликацијама које се тешко изражавају традиционалним компјутерским алгоритмом користећи програмирање засновано на правилима.

Вештачка неуронска мрежа заснива се на скупу повезаних јединица званих вештачки неурони (аналогно аксонима у биолошком мозгу). Свака веза (синапса) између неурона може пренети сигнал другом неурону. Пријемни (постсинаптички) неурон може обрадити сигнал(е) и потом сингализирати низводне неуроне који су повезани са њим. Неурони могу имати стање, углавном представљено реалним бројем између 0 и 1.

Неурони и синапсе могу имати и тежину која варира као принос учења, што може појачати или смањити јачину сигнала коју шаље низводно.

Типично, неурони су организовани по слојевима. Различити нивои могу вршити различите врсте трансформација на својим улазима. Сигнали путују од првог (улазног) до последњег (излазног) слоја, евентуално након што више пута обиђу слојеве.

Првобитни циљ приступа неуронске мреже био је да реши проблеме на исти начин као и људски мозак. Током времена, пажња се фокусирала на усклађивање специфичних менталних способности, што је довело до одступања од биологије као што је повратна пропагација или преношење информација у обратном смеру и прилагођавање мреже како би се те информације одразиле.

Неуронске мреже су коришћене за разне задатке, укључујући компјутерски вид, препознавање говора, машински превод, филтрирање друштвених мрежа, видео игре и успостављање медицинске дијагнозе.

Од 2017. године неуронске мреже обично имају неколико хиљада до неколико милиона јединица и милионе конекција. Упркос томе што је овај број неколико реда величине мањи од броја неурона у људском мозгу, ове мреже могу обављати неке задатке боље од људи (нпр. препознаваље лица[93]).

Дубока неуронска мрежа

уреди

Дубока неуронска мрежа (DNN) је вештачка неуронска мрежа (ANN) са више сакривених слојева између улазних и излазних слојева.[8][2] Дубоке неуронске мреже могу модулирати комплексне нелинеарне везе. Архитектуре дубоке неуронске мреже генеришу композиционе моделе у којима је објекат изражен као слојевита композиција примитивних типова података.[94] Виши слојеви дозвољавају композицију карактеристика из нижих слојева, потенцијално моделирајући сложене податке са мање јединица које је слично извођењу плитке мреже.[8]

Дубоке архитектуре укључују многе варијанте неколико основних приступа. Свака архитектура је нашла примену у одређеним доменима. Није увек могуће упоређивати перформансе више архитектура, осим ако се не процењује над истим скупом података.

Дубоке неуронске мреже су типичне преносне мреже у којима подаци пролазе од улазног до излазног слоја без повратне петље.

Рекурентне неуронске мреже у којима подаци могу протицати у било ком смеру се користе за апликације као што су моделирање језика.[95][96][97][98] Дуга краткотрајна меморија је нарочито ефикасна за ову употребу.[99]

Конволуцијске дубоке неуронске мреже се користе у рачунараском виду.[100] Оне се такође користе код акустичког моделирања за аутоматско препознавање говора (АСР).

Изазови

уреди

Као и са ANN-овима, многи проблеми могу да се јаве лоше обучаваним DNN-овима. Два најчешћа проблема су overfitting и време обављања операција.

DNN су склони overfitting-гу због додатних слојева апстракције, који им дозвољавају да моделирају ретке зависности у подацима за обраду. Методе регуларизације као што су Ивахненко-ва одсецање јединица или смањивање тежине(l2-регуларизација) или проређеност (l1-регуларизација) могу бити примењене током обучавања да би се превазишао overfitting. Алтернативно насумично прекидање регуларизације искључује јединице мере из скривених слојева током обучавања. Ово помаже да се заобиђу ретке зависности. Коначно, подаци могу бити измењени методама као што су сечење и ротирање тако да мањи сетови у обучавању могу бити повећани на величину довољну да се смањи ризик од overfitting-а.

DNN морају да размотре многе параметре обучавања као што је величина (број слојева и број јединица по слоју), распон учења и почетне тежине. За оптималне параметре може пролажење кроз простор параметара може бити неоствариво због временских трошкова и ресурса прорачуна. РАзни трикови као што су серије (израчунавање градијента неколико примера обучавања одједном уместо појединачних) убрзавају прорачун. Велика оптимуѕација обраде користећи GPU произвела је значајна урзавања у обучавању зато што је захтевани матрични и векторски прорачун одговарајући за GPU.

Алтернативно, инжињери могу тражити друге типове неуронских мрежа са јаснијим и конвергентнијим алгоритмима обучавања. CMAC (cerebellar model articulation controller) је једна од тих неуронских мрежа. Не захтева распоне учења ни насумичне почетне тежине. Процес обучавања гарантује укрштање у неком кораку са неком серијом података, комплексност прорачуна алгоритма обучавања је линеарна узимајући у обзир број укључених неурона.

Апликације

уреди

Аутоматско препознавање говора

уреди

Аутоматско препознавање говора великих размера је први и најуспешнији случај дубоког учења. LSTM RNN могу да науче задатке „веома дубоког учења”[2] који укључују интервале од више секунди које садрже говорне догађаје раздвојене хиљадама дискретних временских корака, при чему једном временском кораку одговара око 10ms. LSTM са заборављеним гејтовима[99] је конкурентан традиционалном препознаватељима говора на одређеним задацима.[53]

Почетни успех у препознавању говора базиран је на задацима мале размере заснованих на TIMIT-у. Скуп података садржи 630 говорника из осам главних дијалеката америчког енглеског, где сваки говорник чита 10 реченица.[101] Његова мала величина дозвољава да се пробају многе конфигурације. Још важније, задатак TIMIT-а се односи на препознавање редоследа гласовних секвенци, што за разлику од препознавања редоследа речи дозвољава слабе језичке конструкције (без јаке граматике). Овим се слабости у акустичном моделирању аспеката препознавања говора лакше анализирају. У наставку су наведене стопе грешке, укључујући раније резултате мерене као проценат грешке у гласу сумираних у последњих 20 година:

Метод %
Randomly Initialized RNN 26.1
Bayesian Triphone GMM-HMM 25.6
Hidden Trajectory (Generative) Model 24.8
Monophone Randomly Initialized DNN 23.4
Monophone DBN-DNN 22.4
Triphone GMM-HMM with BMMI Training 21.7
Monophone DBN-DNN on fbank 20.7
Convolutional DNN[102] 20.0
Convolutional DNN w. Heterogeneous Pooling 18.7
Ensemble DNN/CNN/RNN[103] 18.2
Bidirectional LSTM 17.9

Почетак дубоке неуронске мреже за препознавање говорника крајем 1990-их и препознавање говора 2009-2010 и LTSM 2003-2007 убрзао је напредак у осам главних области:[7][50][68]

  • Побољшавање и убрзавање обучавања и декодирања DNN
  • Обучавање које раздваја секвенце
  • Обрада функције помоћу дубоких модела са солидним разумевањем основних механизама
  • Адаптација DNN-а и сродних дубинских модела
  • Мултитаскинг и трансфер учења од DNN-a и сродних дубинских модела
  • CNN и како их дизајнирати како би најбоље искористили домен знања о говору
  • RNN и његове богате LSTM варијанте
  • Друге врсте дубоких модела, укључујући моделе засноване на тензору и интегрисане дубоке генеративне/дискриминативне моделе

Сви главни комерцијални системи за препознавање говора (на пример: Microsoft Cortana, Xbox, Skype Translator, Amazon Alexa, Google Now, Apple Siri итд.) заснивају се на дубоком учењу.[7][104][105][106]

Препознавање слике

уреди

За класификацију слика постављен је заједнички проценат података који су подаци MNIST базе података. MNIST се састоји од цифара писаних руком и обухвата око 60000 примера обуке, као и 10000 тест примера. Као и код TIMIT-а, мала величина омогућава корисницима да тестирају више конфигурација. Доступна је свеобухватна листа резултата ове базе.[107]

Визуелна обрада уметности

уреди

Напредак који је постигнут у препознавању слика је допринео томе да се техника дубоког учења примени и на различите визуелне уметничке задатке. DNN су корисни за:

  • идентификовање периода стила дате слике
  • „хватање” стила дате слике и примењујући га на визуелно пријатан начин на произвољну фотографију
  • генерисање упечатљивих слика заснованих на случајним визуелним улазним пољима[108][109]

Обрада природног језика

уреди

Неуронске мреже су коришћене за имплементацију језичких модела одд почетка 2000-их.[95][110] LSTM је помогао у побољшању машинског превођења и језичког моделирања.[111][96][97] Остале кључне технике у овој области су негативно узимање узорака[112] и уношење речи. Уношење речи као што је word2vec, може се сматрати као репрезентацијски слој у архитектури дубоког учења који трансформише атомску реч у позиционо представљање речи у односу на друге речи у скупу података, позиција је предтављена као тачка у векторском простору. Коришћење уноса текста као RNN улазнног слоја омогућава мрежи да раздваја реченице и фразе користећи ефективну композициону векторску граматику. Композициона векторска граматика се може сматрати као вероватно контексна слободна граматика(PCFG) коју имплементира RNN.[113] Рекурзивни ауто-енкодери направљени изнад уноса речи могу проценити сличност и детектовати парафразирање.[113] Дубоке неуронске архитектуре пружају најбоље резултате за анализирање изборних група,[114] сентиментална анализа,[115] повраћај информација,[116][117] разумевање говорног језика,[118] машински превод,[111][119] повезивање контекста,[119] препознавање стила писања[120] и друго.

Google Translate (GT) користи велику end-to-end краткорочну меморијску мрежу.[121][122][123][124][125][126] GNMT користи метод машинског превођења заснован на примеру у којем систем „учи од милион примера”.[122] Он преводи "целе реченице у исто време, а не у деловима. Google Translate подржава више од сто језика.[122] Мрежа енкодира семантику реченице; уместо меморисања преведених реченица.[122][127] Google Translate користи енглески језик као посредника у већини језичких парова.[127]

Откривање лекова и токсикологија

уреди

Велики проценат нових лекова не успева да добије регулаторно одобрење. Ови неуспеси су узроковани недовољном ефикасношћу (on-target effect), нежељеним интеракцијама (off-target effect) или неочекиваним токсичним ефектима.[128][129] Истраживало се коришћење дубоког учења за предвиђање биомолекуларних мета,[80][81] не-циљане и токсичне ефекте хемикалија у животној средини, у храњивим састојцима, кућним производима и лековима.[82][83][84]

AtomNet је систем дубоког учења заснованог на структури дизајна лекова.[130] AtomNet је коришћен за предвиђање нових биомолекула за циљеве болести као што су Ebola virus[131] и multiple sclerosis.[132][133]

Менаџмент за односе са потрошача

уреди

Дубоко учење коришћено је за приближавање вредности могућих директних маркетиншких акција, дефинисаних у смислу RFM варијабли. Показало се да функција процењене вредности има природну интерпретацију као доживотна вредност потрошача.[134]

Систем препорука

уреди

Системи препорука користе дубоко учење да искористе значајне карактеристике модела латентног фактора за препоруке за музику засноване на садржају.[135]

Биоинформатика

уреди

У биоинформатици је коришћен ауто-енкодер АNN, да би се предвиделе анотације генетске онтологије и односи између генетских функција.[136]

У медицинској информатици, дубоко учење се користило за предвиђање квалитета сна заснованог на подацима[137][138] и предвиђања здравствених компликација из података електронског здравственог записа.[139]

Мобилно оглашавање

уреди

Проналажење одговарајуће мобилне публике за мобилно оглашавање[140] увек је изазовно, пошто се многе тачке података морају узети у обзир и асимилирати пре него што се циљни сегмент може креирати и користити у огласима који сервирају било који огласни сервер. Дубоко учење коришћено је за тумачење великих, многодимензионалних података о оглашавању. Многе тачке података прикупљају се током циклуса тражења/сервирања/кликтања интернет оглашавања. Ове информације могу бити основа за машинско учење како би се побољшала избор огласа.

Обнова слике

уреди

Дубоко учење је успешно примењивано на инверзне проблеме као што су уклањање буке, супер-резолуција рестаурација фотографија. Ова примена укључује методе учења као штп је „Поља смањивања за ефективну рестаурацију слика” која се обучава на скупу података слике.

Однос према људском когнитивном развоју и развоју мозга

уреди

Дубоко учење је уско повезано са класом теорије развоја мозга (конкретно, развој неокортекса) које су предложили когнитивни неуронаучници почетком деведесетих.[141][142][143][144] Ове развојне теорије су инстанциране у рачунским моделима, што их чини претходницима система дубоког учења. Ови развојни модели имају особину као и различите динамике учења у мозгу које подржавају самоорганизацију донекле аналогну неуронским мрежама које се користе у моделима дубоког учења. Као и неокортекс, неуронске мреже примењују хијерархију слојевитих филтера у којим сваки слој разматра информације са претходног слоја, онда преноси њихове излазне податке (а некад и улазне) осталим слојевима. Овај процес омогућава самоорганизујући стек трансдуктора добро прилагођених околини у којој раде. Опис из 1995 каже: „Мозак детета се организује сам под утицајем таласа трофичних фактора... различите регије у мозгу се узастопно повезују, тако што један слој ткива сазрева пре следећег итд. док цео мозак не сазри”.

Различити приступи су коришћени да би се испитала веродостојност модела дубоког учења из неуробиолошке перспективе. С једне стране, неколико варијанти backpropagation алгоритма су предложене како би се повећала реалност обраде. Други истраживачи тврде да форме дубоког учења које нису надгледане, као што су оне базиране на хијерархијским генеративним моделима могу бити ближе биолошкој стварности. Поштовањем овог, модели генеративних неуронских мрежа су повезани са неуробиолошким доказима о обради података на основу узимања узорака у церебралном кортексу.

Иако систематско поређење организације људског мозго и неуронског кодирања у дубоким мрежама још увек није установљено, предложено је неколико аналогија. На пример прорачуни извршени јединицама дубоког учења могу бити слични онима у неуронима. Слично, прикази развијени моделима дубоког учења су слични онима мереним у примарном визуелном систему како на појединачном нивоу тако и на нивоу популације.

Критике и коментари

уреди

Дубоко учење привукло је и критике и коментаре, у неким случајевима и у областима ван компјутерских наука.

Теорија

уреди

Главна критика се односи на недостатак теорије методе. Учење у дубокој архитектури се најчешће спроводи коришћењем познатог градијента. Међутим, теорија која описује друге алгоритме, као што је контрастна дивергенција, је мање јасна. Методи дубоког учења су углавном потврђени емпиријски, а не теоријски.[145]

Други истичу да дубоко учење треба посматрати као корак ка остварењу вештачке ителигенције (AI), а не као свеобухватно решење. Упркос моћи метода дубоког учења, и даље недостаје велики део функционалности потребног за реализацију овог циља у потпуности. Психолог Gary Marcus је приметио:

„Дубоко учење је само део већег изазова изградње интелигентних машина. Овакве технике немају начин за представљање узрочних односа (...) немају очигледне начине обављања логичких закључака, а и даље су далеко од интеграције апстрактног знања, као што су информације о томе шта су објекти, за шта су, и како се обично користе. Најснажнији AI систем, као Вотсон (...) користе технике попут дубоког учења као само један елемент у врло сложеном саставу техника, у распону од Бајесовог закључка до дедуктивног образложења”.[146]

Као алтернативу овим ограничењима дубоког учења, један аутор наводи како би било могуће обучити машинску визију да изврши софистициран задатак који разликује „старе мајсторе” од аматерског цртања и претпостављао да таква сензитивност може представљати почетак нетривијалне емпатије машине.[147] Исти аутор је предложио да то буде у складу са антропологијом, која идентификује забринутост са естетиком као кључним елементом понашања модерне.[148]

Идеја да се уметничка осетљивост може наћи унутар релативно ниских нивоа когнитивне хијерархије, довела је до објаве серија графичких приказа унутрашњих стања дубоких (20-30 слојева) неуронских мрежа које покушавају да препознају унутар суштински случајних података слике на којима су обучаване[149] и демонстрирају визуелну изглед: првобитно истраживање је имало преко 1.000 коментара и било је предмет онога што је једно време био најчитанији чланак на веб страници The Guardian.[150]

Грешке

уреди

Неке архитектуре дубоког учења приказују проблематично понашање,[151] као што је разврстање непрепознатљивих слика као припадника познатих категорија обичних слика[152] и погрешно разврстање мањих кругова исправно класификованих слика.[153] Goertzel је претпоставио да су ова понашања последица ограничења у њиховим унутрашњим представама и да би ова ограничења инхибирала интеграцију у хетерогене мулти-компонентне AGI архитектуре.[151] Овим питањима се могу решавати архитектуре дубоког учења које интерно формирају хомологне слике-граматике[154] разлагања посматраних ентитета и догађаја.[151] Учење граматике (визуелно или језички) из података за обуку би било еквивалентно ограничавању система на шаблонско разјашњење које функционише на концептима граматичких правила производње и представља основни циљ и природног језика[155] и AI.[156]

Сајбер претња

уреди

Како се дубоко учење помера из лабораторије у свет, истраживање и искуство показују да су вештачке неуронске мреже подложне хаковањима и преварама. Идентификујући обрасце које ови системи користе за функционисање, нападачи могу да модификују улазе у ANN-у на такав начин да ANN проналази поклапања која људи неће препознати. На пример, нападач може направити мале промене на слици такве да ANN пронађе поклапање, а да човеку слика не изгледа као предмет претраге. Таква манипулација се назива „контрадикторни напад”. У 2016. истраживачи су користили један ANN да поправе слике на пробни начин и са грешкама, да идентификују жижне течке и генеришу слике које су их обмануле. Ове измењене слике су изгледале потпуно исто људском оку. Још једна група је показала да су одштампане модификоване слике успешно превариле систем класификације слика. Једна од одбрана је обрнута претрага слика при којој је потенцијално лажна слика прослеђена сајту као што је TinEye, који онда може да пронађе друге сличне примере. Сужавање претраге се постиже коришћењем само делова слике како би се идентификовале слике са којих је тај део потенцијално узет.

Још једна група је показала да психоделичне цестице могу да преваре систем препознавања лица тако да обичне људе препознаје као познате, потенцијално дозвољавајући некој особи да имитира неку другу. У 2017. ови истраживачи су додали стикере стоп знацима што је проузорковало да их ANN погрешно класификује.

ANN могу да буду даље обучавани да детектују покушаје преваре потенцијално креирајући систем одбране сличан индустрији одбране од малвера.

Још једна група је демонстрирала да одређени звукови могу да натерају Google Now гласовни комадни систем да отвори одређени сајт који би скинуо малвер.

У „тровању података” лажни подаци се континуално увлаче у сет за обучавање система машинског учења да га спрече да оствари циљ.

Референце

уреди
  1. ^ а б в г д Bengio, Y.; Courville, A.; Vincent, P. (2013). „Representation Learning: A Review and New Perspectives”. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798—1828. arXiv:1206.5538 . doi:10.1109/tpami.2013.50. 
  2. ^ а б в г д ђ е Schmidhuber, J. (2015). „Deep Learning in Neural Networks: An Overview”. Neural Networks. 61: 85—117. PMID 25462637. arXiv:1404.7828 . doi:10.1016/j.neunet.2014.09.003. 
  3. ^ Bengio, Yoshua; LeCun, Yann; Hinton, Geoffrey (2015). „Deep Learning”. Nature. 521: 436—444. PMID 26017442. doi:10.1038/nature14539. 
  4. ^ Ghasemi, F.; Mehridehnavi, AR.; Fassihi, A.; Perez-Sanchez, H. (2017). „Deep Neural Network in Biological Activity Prediction using Deep Belief Network”. Applied Soft Computing. 
  5. ^ а б Ciresan, Dan; Meier, U.; Schmidhuber, J. (1. 6. 2012). „Multi-column deep neural networks for image classification”. 2012 IEEE Conference on Computer Vision and Pattern Recognition: 3642—3649. doi:10.1109/cvpr.2012.6248110. 
  6. ^ а б Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). „ImageNet Classification with Deep Convolutional Neural Networks” (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada. 
  7. ^ а б в г д Deng, L.; Yu, D. (2014). „Deep Learning: Methods and Applications” (PDF). Foundations and Trends in Signal Processing. 7 (3–4): 1—199. doi:10.1561/2000000039. 
  8. ^ а б в г Bengio, Yoshua (2009). „Learning Deep Architectures for AI” (PDF). Foundations and Trends in Machine Learning. 2 (1): 1—127. doi:10.1561/2200000006. Архивирано из оригинала (PDF) 4. 3. 2016. г. Приступљено 29. 12. 2017. 
  9. ^ а б Schmidhuber, Jürgen (2015). „Deep Learning”. Scholarpedia. 10 (11): 328—32. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832 . 
  10. ^ а б Hinton, G.E. (2009). „Deep belief networks”. Scholarpedia. 4 (5): 5947. doi:10.4249/scholarpedia.5947. 
  11. ^ а б Balázs Csanád Csáji (2001). Approximation with Artificial Neural Networks; Faculty of Sciences; Eötvös Loránd University, Hungary
  12. ^ а б в Cybenko (1989). „Approximations by superpositions of sigmoidal functions” (PDF). Mathematics of Control, Signals, and Systems. 2 (4): 303—314. doi:10.1007/bf02551274. Архивирано из оригинала (PDF) 10. 10. 2015. г. 
  13. ^ а б в Hornik, Kurt (1991). „Approximation Capabilities of Multilayer Feedforward Networks”. Neural Networks. 4 (2): 251—257. doi:10.1016/0893-6080(91)90009-t. 
  14. ^ а б Haykin 1999
  15. ^ а б Hassoun 1995, стр. 48
  16. ^ а б в Murphy 2012
  17. ^ Patel, Ankit; Nguyen, Tan; Baraniuk, Richard (2016). „A Probabilistic Framework for Deep Learning” (PDF). Advances in Neural Information Processing Systems. 
  18. ^ Bishop 2006
  19. ^ Rina Dechter (1986). Learning while searching in constraint-satisfaction problems. University of California, Computer Science Department, Cognitive Systems Laboratory.Online
  20. ^ Igor Aizenberg, Naum N. Aizenberg, Joos P.L. Vandewalle (2000). Multi-Valued and Universal Binary Neurons: Theory, Learning and Applications. Springer Science & Business Media.
  21. ^ Co-evolving recurrent neurons learn deep memory POMDPs. Proc. GECCO, Washington, D. C. pp. 1795–1802, ACM Press, New York, NY, USA, 2005.
  22. ^ Hinton, G. E.; Osindero, S.; Teh, Y. W. (2006). „A Fast Learning Algorithm for Deep Belief Nets” (PDF). Neural Computation. 18 (7): 1527—1554. PMID 16764513. doi:10.1162/neco.2006.18.7.1527. 
  23. ^ Bengio, Yoshua (2012). „Practical recommendations for gradient-based training of deep architectures”. arXiv:1206.5533  [cs.LG]. 
  24. ^ G. E. Hinton., "Learning multiple layers of representation," Trends in Cognitive Sciences, 11. (2007). pp. 428-434.
  25. ^ Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation. 
  26. ^ Ivakhnenko, Alexey (1971). „Polynomial theory of complex systems”. IEEE Transactions on Systems, Man and Cybernetics (4). 1: 364—378. doi:10.1109/TSMC.1971.4308320. 
  27. ^ Fukushima, K. (1980). „Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position”. Biol. Cybern. 36: 193—202. PMID 7370364. doi:10.1007/bf00344251. 
  28. ^ Seppo Linnainmaa (1970). The representation of the cumulative rounding error of an algorithm as a Taylor expansion of the local rounding errors. Master's Thesis (in Finnish), University Helsinki, 6-7.
  29. ^ Griewank, Andreas (2012). „Who Invented the Reverse Mode of Differentiation?” (PDF). Documenta Matematica, Extra Volume ISMP: 389—400. Архивирано из оригинала (PDF) 21. 7. 2017. г. Приступљено 30. 1. 2018. 
  30. ^ Werbos, P. (1974). „Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences”. Harvard University. Приступљено 12. 6. 2017. 
  31. ^ Werbos 1982, стр. 762–770
  32. ^ а б LeCun et al., "Backpropagation Applied to Handwritten Zip Code Recognition," Neural Computation, 1. (1989). pp. 541-551.
  33. ^ J. Weng, N. Ahuja and T. S. Huang, "Cresceptron: a self-organizing neural network which grows adaptively," Proc. International Joint Conference on Neural Networks, Baltimore, Maryland, vol I. pp. 576–581, June, 1992.
  34. ^ J. Weng, N. Ahuja and T. S. Huang, "Learning recognition and segmentation of 3-D objects from 2-D images," Proc. 4th International Conf. Computer Vision, Berlin, Germany. pp. 121–128, May, 1993.
  35. ^ J. Weng, N. Ahuja and T. S. Huang,. „Learning recognition and segmentation using the Cresceptron” (PDF). International Journal of Computer Vision. 25 (2): 105—139. , Nov. 1997.
  36. ^ de Carvalho, Andre C. L. F.; Fairhurst, Mike C.; Bisset, David (8. 8. 1994). „An integrated Boolean neural network for pattern classification”. Pattern Recognition Letters. 15 (8): 807—813. doi:10.1016/0167-8655(94)90009-4. 
  37. ^ Hinton, Geoffrey E.; Dayan, Peter; Frey, Brendan J.; Neal, Radford (26. 5. 1995). „The wake-sleep algorithm for unsupervised neural networks”. Science. 268 (5214): 1158—1161. doi:10.1126/science.7761831. 
  38. ^ а б S. Hochreiter., "Untersuchungen zu dynamischen neuronalen Netzen," Diploma thesis. Institut f. Informatik, Technische University Munich. Advisor: J. Schmidhuber, 1991.
  39. ^ Hochreiter, S.; et al. (2001). „Gradient flow in recurrent nets: the difficulty of learning long-term dependencies”. Ур.: Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5. 
  40. ^ Morgan, Nelson; Bourlard, Hervé; Renals, Steve; Cohen, Michael; Franco, Horacio (1. 8. 1993). „Hybrid neural network/hidden markov model systems for continuous speech recognition”. International Journal of Pattern Recognition and Artificial Intelligence. 07 (04): 899—916. ISSN 0218-0014. doi:10.1142/s0218001493000455. 
  41. ^ Robinson, T. (1992). „A real-time recurrent error propagation network word recognition system”. ICASSP. 
  42. ^ Waibel, A.; Hanazawa, T.; Hinton, G.; Shikano, K.; Lang, K. J. (март 1989). „Phoneme recognition using time-delay neural networks”. IEEE Transactions on Acoustics, Speech, and Signal Processing. 37 (3): 328—339. ISSN 0096-3518. doi:10.1109/29.21701. 
  43. ^ Baker, J.; Deng, Li; Glass, Jim; Khudanpur, S.; Lee, C.-H.; Morgan, N.; O'Shaughnessy, D. (2009). „Research Developments and Directions in Speech Recognition and Understanding, Part 1”. IEEE Signal Processing Magazine. 26 (3): 75—80. doi:10.1109/msp.2009.932166. 
  44. ^ Bengio, Y. (1991). „Artificial Neural Networks and their Application to Speech/Sequence Recognition”. McGill University Ph.D. thesis. 
  45. ^ Deng, L.; Hassanein, K.; Elmasry, M. (1994). „Analysis of correlation structure for a neural predictive model with applications to speech recognition”. Neural Networks. 7 (2): 331—339. doi:10.1016/0893-6080(94)90027-2. 
  46. ^ а б Heck, L.; Konig, Y.; Sonmez, M.; Weintraub, M. (2000). „Robustness to Telephone Handset Distortion in Speaker Recognition by Discriminative Feature Design”. Speech Communication. 31 (2): 181—192. doi:10.1016/s0167-6393(99)00077-1. 
  47. ^ а б в Hinton, G.; Deng, L.; Yu, D.; Dahl, G.; Mohamed, A.; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P.; Sainath, T.; Kingsbury, B. (2012). „Deep Neural Networks for Acoustic Modeling in Speech Recognition --- The shared views of four research groups”. IEEE Signal Processing Magazine. 29 (6): 82—97. doi:10.1109/msp.2012.2205597. 
  48. ^ а б в Deng, L.; Hinton, G.; Kingsbury, B. (2013). „New types of deep neural network learning for speech recognition and related applications: An overview (ICASSP)” (PDF). 
  49. ^ а б Keynote talk: Recent Developments in Deep Neural Networks. ICASSP, 2013 (by Geoff Hinton).
  50. ^ а б Li, Deng (септембар 2014). „Keynote talk: 'Achievements and Challenges of Deep Learning - From Speech Analysis and Recognition To Language and Multimodal Processing'. Interspeech. 
  51. ^ „Acoustic Modeling with Deep Neural Networks Using Raw Time Signal for LVCSR (PDF Download Available)”. ResearchGate. Приступљено 14. 6. 2017. 
  52. ^ а б Hochreiter, Sepp; Schmidhuber, Jürgen (1. 11. 1997). „Long Short-Term Memory”. Neural Computation. 9 (8): 1735—1780. ISSN 0899-7667. PMID 9377276. doi:10.1162/neco.1997.9.8.1735. 
  53. ^ а б Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). „Biologically Plausible Speech Recognition with LSTM Neural Nets” (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. стр. 175—184. Архивирано из оригинала (PDF) 09. 05. 2021. г. 
  54. ^ а б Graves, Alex; Fernández, Santiago; Gomez, Faustino (2006). „Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks”. In Proceedings of the International Conference on Machine Learning, ICML 2006: 369—376. 
  55. ^ Santiago Fernandez, Alex Graves, and Jürgen Schmidhuber (2007). An application of recurrent neural networks to discriminative keyword spotting. Proceedings of ICANN (2). pp. 220–229.
  56. ^ а б Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (септембар 2015). „Google voice search: faster and more accurate”. 
  57. ^ Hinton, Geoffrey E. (1. 10. 2007). „Learning multiple layers of representation”. Trends in Cognitive Sciences. 11 (10): 428—434. ISSN 1364-6613. PMID 17921042. doi:10.1016/j.tics.2007.09.004. 
  58. ^ Deng, Li; Hinton, Geoffrey; Kingsbury, Brian (1. 5. 2013). „New types of deep neural network learning for speech recognition and related applications: An overview” — преко research.microsoft.com. 
  59. ^ Deng, L.; Li, J.; Huang, J. T.; Yao, K.; Yu, D.; Seide, F.; Seltzer, M.; Zweig, G.; He, X. (мај 2013). „Recent advances in deep learning for speech research at Microsoft”. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. стр. 8604—8608. ISBN 978-1-4799-0356-6. S2CID 13412186. doi:10.1109/icassp.2013.6639345. 
  60. ^ Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). „Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling” (PDF). Архивирано из оригинала (PDF) 24. 04. 2018. г. 
  61. ^ Li, Xiangang; Wu, Xihong (2014). „Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition”. arXiv:1410.4281 . 
  62. ^ Zen, Heiga; Sak, Hasim (2015). „Unidirectional Long Short-Term Memory Recurrent Neural Network with Recurrent Output Layer for Low-Latency Speech Synthesis” (PDF). Google.com. ICASSP. стр. 4470—4474. 
  63. ^ Deng, L.; Abdel-Hamid, O.; Yu, D. (2013). „A deep convolutional neural network using heterogeneous pooling for trading acoustic invariance with phonetic confusion” (PDF). Google.com. ICASSP. 
  64. ^ Sainath, T. N.; Mohamed, A. r; Kingsbury, B.; Ramabhadran, B. (мај 2013). „Deep convolutional neural networks for LVCSR”. 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. стр. 8614—8618. ISBN 978-1-4799-0356-6. S2CID 13816461. doi:10.1109/icassp.2013.6639347. 
  65. ^ Yann LeCun (2016). Slides on Deep Learning Online
  66. ^ а б в NIPS Workshop: Deep Learning for Speech Recognition and Related Applications, Whistler, BC, Canada, Dec. 2009 (Organizers: Li Deng, Geoff Hinton, D. Yu).
  67. ^ D. Yu, L. Deng, G. Li, and F. Seide (2011). "Discriminative pretraining of deep neural networks," U.S. Patent Filing.
  68. ^ а б в Yu, D.; Deng, L. (2014). „Automatic Speech Recognition: A Deep Learning Approach (Publisher: Springer)”. ISBN 978-1-4471-5779-3. 
  69. ^ „IEEE (2015)”. Архивирано из оригинала 02. 03. 2016. г. Приступљено 06. 02. 2018. 
  70. ^ Yu, D.; Deng, L. (2010). „Roles of Pre-Training and Fine-Tuning in Context-Dependent DBN-HMMs for Real-World Speech Recognition”. NIPS Workshop on Deep Learning and Unsupervised Feature Learning. 
  71. ^ Seide, F.; Li, G.; Yu, D. (2011). „Conversational speech transcription using context-dependent deep neural networks”. Interspeech. 
  72. ^ Deng, Li; Li, Jinyu; Huang, Jui-Ting; Yao, Kaisheng; Yu, Dong; Seide, Frank; Seltzer, Mike; Zweig, Geoff; He, Xiaodong (1. 5. 2013). „Recent Advances in Deep Learning for Speech Research at Microsoft”. Microsoft Research. 
  73. ^ „Nvidia CEO bets big on deep learning and VR”. Venture Beat. 5. 4. 2016. 
  74. ^ „From not working to neural networking”. The Economist. 
  75. ^ а б Грешка код цитирања: Неважећа ознака <ref>; нема текста за референце под именом jung2004.
  76. ^ а б Chellapilla, K., Puri, S., and Simard, P. (2006). High performance convolutional neural networks for document processing. International Workshop on Frontiers in Handwriting Recognition.
  77. ^ Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (21. 9. 2010). „Deep, Big, Simple Neural Nets for Handwritten Digit Recognition”. Neural Computation. 22 (12): 3207—3220. ISSN 0899-7667. doi:10.1162/neco_a_00052. 
  78. ^ Raina, Rajat; Madhavan, Anand; Ng, Andrew Y. (2009). „Large-scale Deep Unsupervised Learning Using Graphics Processors”. Proceedings of the 26th Annual International Conference on Machine Learning. ICML '09. New York, NY, USA: ACM: 873—880. CiteSeerX 10.1.1.154.372 . ISBN 9781605585161. doi:10.1145/1553374.1553486. 
  79. ^ Sze, Vivienne; Chen, Yu-Hsin; Yang, Tien-Ju; Emer, Joel (2017). „Efficient Processing of Deep Neural Networks: A Tutorial and Survey”. arXiv:1703.09039 . 
  80. ^ а б „Announcement of the winners of the Merck Molecular Activity Challenge”. 
  81. ^ а б „Multi-task Neural Networks for QSAR Predictions | Data Science Association”. www.datascienceassn.org. Приступљено 14. 6. 2017. 
  82. ^ а б "Toxicology in the 21st century Data Challenge] Oh, K.-S.; Jung, K. (2004). „GPU implementation of neural networks”. Pattern Recognition. 37 (6): 1311—1314. doi:10.1016/j.patcog.2004.01.013. 
  83. ^ а б „NCATS Announces Tox21 Data Challenge Winners”. 
  84. ^ а б „Archived copy”. Архивирано из оригинала 28. 2. 2015. г. Приступљено 5. 3. 2015. 
  85. ^ Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). „Flexible, High Performance Convolutional Neural Networks for Image Classification” (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210. 
  86. ^ Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q., ур. Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. стр. 2843—2851. 
  87. ^ Ciresan, D.; Giusti, A.; Gambardella, L.M.; Schmidhuber, J. (2013). „Mitosis Detection in Breast Cancer Histology Images using Deep Neural Networks” (PDF). Proceedings MICCAI. 
  88. ^ „The Wolfram Language Image Identification Project”. www.imageidentify.com. Приступљено 22. 3. 2017. 
  89. ^ Vinyals et al. (2014)."Show and Tell: A Neural Image Caption Generator," Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014). „Show and Tell: A Neural Image Caption Generator”. arXiv:1411.4555 . 
  90. ^ Fang et al. (2014)."From Captions to Visual Concepts and Back," Fang, Hao; Gupta, Saurabh; Iandola, Forrest; Srivastava, Rupesh; Deng, Li; Dollár, Piotr; Gao, Jianfeng; He, Xiaodong; Mitchell, Margaret; Platt, John C.; Lawrence Zitnick, C.; Zweig, Geoffrey (2014). „From Captions to Visual Concepts and Back”. arXiv:1411.4952 . 
  91. ^ Kiros et al. (2014). "Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models," Kiros, Ryan; Salakhutdinov, Ruslan; Zemel, Richard S. (2014). „Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models”. arXiv:1411.2539 . 
  92. ^ Zhong, Sheng-hua; Liu, Yan; Liu, Yang (2011). „Bilinear deep learning for image classification”. Proceedings of the 19th ACM international conference on Multimedia. MM '11. New York, NY, USA: ACM. стр. 343—352. ISBN 9781450306164. S2CID 11922007. doi:10.1145/2072298.2072344. 
  93. ^ Silver, David; Huang, Aja; Maddison, Chris J.; Guez, Arthur; Sifre, Laurent; Driessche, George van den; Schrittwieser, Julian; Antonoglou, Ioannis; Panneershelvam, Veda (2016/01). „Mastering the game of Go with deep neural networks and tree search”. Nature (на језику: енглески). 529 (7587): 484—489. ISSN 1476-4687. doi:10.1038/nature16961.  Проверите вредност парамет(а)ра за датум: |date= (помоћ)
  94. ^ Szegedy, Christian; Toshev, Alexander; Erhan, Dumitru (2013). „Deep neural networks for object detection”. Advances in Neural Information Processing Systems. 26. 
  95. ^ а б Gers, Felix A.; Schmidhuber, Jürgen (2001). „LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages”. IEEE TNN. 12 (6): 1333—1340. PMID 18249962. S2CID 10192330. doi:10.1109/72.963769. 
  96. ^ а б Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016). „Exploring the Limits of Language Modeling”. arXiv:1602.02410 . 
  97. ^ а б Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015). „Multilingual Language Processing From Bytes”. arXiv:1512.00103 . 
  98. ^ Mikolov, T.; et al. (2010). „Recurrent neural network based language model” (PDF). Interspeech: 1045—1048. S2CID 17048224. doi:10.21437/Interspeech.2010-343. Архивирано из оригинала (PDF) 16. 05. 2017. г. Приступљено 02. 02. 2018. 
  99. ^ а б „Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)”. ResearchGate. Приступљено 13. 6. 2017. 
  100. ^ LeCun, Y.; et al. (1998). „Gradient-based learning applied to document recognition”. Proceedings of the IEEE. 86 (11): 2278—2324. S2CID 14542261. doi:10.1109/5.726791. 
  101. ^ TIMIT Acoustic-Phonetic Continuous Speech Corpus Linguistic Data Consortium, Philadelphia.
  102. ^ Abdel-Hamid, O.; et al. (2014). „Convolutional Neural Networks for Speech Recognition”. IEEE/ACM Transactions on Audio, Speech, and Language Processing. 22 (10): 1533—1545. S2CID 206602362. doi:10.1109/taslp.2014.2339736. 
  103. ^ Deng, L.; Platt, J. (2014). „Ensemble Deep Learning for Speech Recognition” (PDF). Proc. Interspeech: 1915—1919. S2CID 15641618. doi:10.21437/Interspeech.2014-433. Архивирано из оригинала (PDF) 20. 10. 2017. г. Приступљено 16. 02. 2018. 
  104. ^ McMillan, Robert. „How Skype Used AI to Build Its Amazing New Language Translator | WIRED”. Wired. Приступљено 14. 6. 2017. 
  105. ^ Hannun et al. (2014) "Deep Speech: Scaling up end-to-end speech recognition". Hannun, Awni; Case, Carl; Casper, Jared; Catanzaro, Bryan; Diamos, Greg; Elsen, Erich; Prenger, Ryan; Satheesh, Sanjeev; Sengupta, Shubho; Coates, Adam; Ng, Andrew Y. (2014). „Deep Speech: Scaling up end-to-end speech recognition”. arXiv:1412.5567 . 
  106. ^ „Plenary presentation at ICASSP-2016” (PDF). 
  107. ^ „MNIST handwritten digit database, Yann LeCun, Corinna Cortes and Chris Burges”. yann.lecun.com. 
  108. ^ Smith, G. W.; Leymarie, Frederic Fol (10. 4. 2017). „The Machine as Artist: An Introduction”. Arts. Приступљено 4. 10. 2017. 
  109. ^ Blaise Agüera y Arcas (29. 9. 2017). „Art in the Age of Machine Intelligence”. Arts. Приступљено 4. 10. 2017. 
  110. ^ Bengio, Yoshua; Ducharme, Réjean; Vincent, Pascal; Janvin, Christian (март 2003). „A Neural Probabilistic Language Model”. J. Mach. Learn. Res. 3: 1137—1155. ISSN 1532-4435. 
  111. ^ а б Sutskever, L.; Vinyals, O.; Le, Q. (2014). „Sequence to Sequence Learning with Neural Networks” (PDF). Proc. NIPS. arXiv:1409.3215 . 
  112. ^ Goldberg, Yoav; Levy, Omar (2014). „word2vec Explained: Deriving Mikolov et al.'s Negative-Sampling Word-Embedding Method”. arXiv:1402.3722  [cs.CL]. 
  113. ^ а б Socher, Richard; Manning, Christopher. „Deep Learning for NLP” (PDF). Приступљено 26. 10. 2014. 
  114. ^ Socher, Richard; Bauer, John; Manning, Christopher; Ng, Andrew (2013). „Parsing With Compositional Vector Grammars” (PDF). Proceedings of the ACL 2013 Conference. Приступљено 1. 7. 2018. 
  115. ^ Socher, Richard (2013). „Recursive Deep Models for Semantic Compositionality Over a Sentiment Treebank” (PDF). Emnlp 2013. Приступљено 1. 7. 2018. 
  116. ^ Shen, Yelong; He, Xiaodong; Gao, Jianfeng; Deng, Li; Mesnil, Gregoire (1. 11. 2014). „A Latent Semantic Model with Convolutional-Pooling Structure for Information Retrieval”. Microsoft Research. 
  117. ^ Huang, Po-Sen; He, Xiaodong; Gao, Jianfeng; Deng, Li; Acero, Alex; Heck, Larry (1. 10. 2013). „Learning Deep Structured Semantic Models for Web Search using Clickthrough Data”. Microsoft Research. 
  118. ^ Mesnil, G.; Dauphin, Y.; Yao, K.; Bengio, Y.; Deng, L.; Hakkani-Tur, D.; He, X.; Heck, L.; Tur, G.; Yu, D.; Zweig, G. (2015). „Using recurrent neural networks for slot filling in spoken language understanding”. IEEE Transactions on Audio, Speech, and Language Processing. 23 (3): 530—539. S2CID 1317136. doi:10.1109/taslp.2014.2383614. 
  119. ^ а б Gao, Jianfeng; He, Xiaodong; Yih, Scott Wen-tau; Deng, Li (1. 6. 2014). „Learning Continuous Phrase Representations for Translation Modeling”. Microsoft Research. 
  120. ^ Brocardo, Marcelo Luiz; Traore, Issa; Woungang, Isaac; Obaidat, Mohammad S. (2017). „Authorship verification using deep belief network systems”. International Journal of Communication Systems. 30 (12): e3259. S2CID 40745740. doi:10.1002/dac.3259. 
  121. ^ Turovsky, Barak (15. 11. 2016). „Found in translation: More accurate, fluent sentences in Google Translate”. The Keyword Google Blog. Google. Приступљено 23. 3. 2017. 
  122. ^ а б в г Schuster, Mike; Johnson, Melvin; Thorat, Nikhil (22. 11. 2016). „Zero-Shot Translation with Google's Multilingual Neural Machine Translation System”. Google Research Blog. Google. Приступљено 23. 3. 2017. 
  123. ^ Hochreiter, Sepp; Schmidhuber, Jürgen (1997). „Long short-term memory”. Neural Computation. 9 (8): 1735—1780. PMID 9377276. S2CID 1915014. doi:10.1162/neco.1997.9.8.1735. 
  124. ^ Gers, Felix A.; Schmidhuber, Jürgen; Cummins, Fred (2000). „Learning to Forget: Continual Prediction with LSTM”. Neural Computation. 12 (10): 2451—2471. CiteSeerX 10.1.1.55.5709 . PMID 11032042. S2CID 11598600. doi:10.1162/089976600300015015. 
  125. ^ Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation (26 Sep 2016): Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Łukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean. Wu, Yonghui; et al. (2016). „Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation”. arXiv:1609.08144 . 
  126. ^ "An Infusion of AI Makes Google Translate More Powerful Than Ever." Cade Metz, WIRED, Date of Publication: 09.27.16. https://www.wired.com/2016/09/google-claims-ai-breakthrough-machine-translation/
  127. ^ а б Boitet, Christian; Blanchon, Hervé; Seligman, Mark; Bellynck, Valérie (2010). „MT on and for the Web” (PDF). Архивирано из оригинала (PDF) 29. 03. 2017. г. Приступљено 1. 12. 2016. 
  128. ^ Arrowsmith, J; Miller, P (2013). „Trial watch: Phase II and phase III attrition rates 2011-2012”. Nature Reviews Drug Discovery. 12 (8): 569. PMID 23903212. doi:10.1038/nrd4090. 
  129. ^ Verbist, B; Klambauer, G; Vervoort, L; Talloen, W; The Qstar, Consortium; Shkedy, Z; Thas, O; Bender, A; Göhlmann, H. W.; Hochreiter, S (2015). „Using transcriptomics to guide lead optimization in drug discovery projects: Lessons learned from the QSTAR project”. Drug Discovery Today. 20: 505—513. PMID 25582842. doi:10.1016/j.drudis.2014.12.014. 
  130. ^ Wallach, Izhar; Dzamba, Michael; Heifets, Abraham (9. 10. 2015). „AtomNet: A Deep Convolutional Neural Network for Bioactivity Prediction in Structure-based Drug Discovery”. arXiv:1510.02855 . 
  131. ^ „Toronto startup has a faster way to discover effective medicines”. The Globe and Mail. Приступљено 9. 11. 2015. 
  132. ^ „Startup Harnesses Supercomputers to Seek Cures”. KQED Future of You. Приступљено 9. 11. 2015. 
  133. ^ „Toronto startup has a faster way to discover effective medicines”. 
  134. ^ Tkachenko, Yegor (8. 4. 2015). „Autonomous CRM Control via CLV Approximation with Deep Reinforcement Learning in Discrete and Continuous Action Space”. 
  135. ^ van den Oord, Aaron; Dieleman, Sander; Schrauwen, Benjamin (2013). Burges, C. J. C.; Bottou, L.; Welling, M.; Ghahramani, Z.; Weinberger, K. Q., ур. Advances in Neural Information Processing Systems 26 (PDF). Curran Associates, Inc. стр. 2643—2651. 
  136. ^ Chicco, Davide; Sadowski, Peter; Baldi, Pierre (1. 1. 2014). „Deep Autoencoder Neural Networks for Gene Ontology Annotation Predictions”. Proceedings of the 5th ACM Conference on Bioinformatics, Computational Biology, and Health Informatics - BCB '14. ACM: 533—540. doi:10.1145/2649387.2649442 — преко ACM Digital Library. 
  137. ^ Sathyanarayana, Aarti (1. 1. 2016). „Sleep Quality Prediction From Wearable Data Using Deep Learning”. JMIR mHealth and uHealth. 4 (4): e125. doi:10.2196/mhealth.6562. 
  138. ^ Movahedi, F.; Coyle, J. L.; Sejdić, E. (2017). „Deep belief networks for electroencephalography: A review of recent contributions and future outlooks”. IEEE Journal of Biomedical and Health Informatics. PP (99): 1—1. ISSN 2168-2194. doi:10.1109/JBHI.2017.2727218. 
  139. ^ Choi, Edward; Schuetz, Andy; Stewart, Walter F.; Sun, Jimeng (13. 8. 2016). „Using recurrent neural network models for early detection of heart failure onset”. Journal of the American Medical Informatics Association: ocw112. ISSN 1067-5027. PMID 27521897. doi:10.1093/jamia/ocw112. 
  140. ^ IJSTR (PDF). 5 (04) http://www.ijstr.org/final-print/apr2016/Using-Deep-Learning-Neural-Networks-To-Find-Best-Performing-Audience-Segments.pdf.  Недостаје или је празан параметар |title= (помоћ)
  141. ^ Utgoff, P. E.; Stracuzzi, D. J. (2002). „Many-layered learning”. Neural Computation. 14: 2497—2529. doi:10.1162/08997660260293319. 
  142. ^ Elman, Jeffrey L. (1998). Rethinking Innateness: A Connectionist Perspective on Development. MIT Press. ISBN 978-0-262-55030-7. 
  143. ^ Shrager, J.; Johnson, MH (1996). „Dynamic plasticity influences the emergence of function in a simple cortical array”. Neural Networks. 9 (7): 1119—1129. doi:10.1016/0893-6080(96)00033-0. 
  144. ^ Quartz, SR; Sejnowski, TJ (1997). „The neural basis of cognitive development: A constructivist manifesto”. Behavioral and Brain Sciences. 20 (4): 537—556. CiteSeerX 10.1.1.41.7854 . doi:10.1017/s0140525x97001581. 
  145. ^ Knight, Will (14. 3. 2017). „DARPA is funding projects that will try to open up AI’s black boxes”. MIT Technology Review. Приступљено 2. 11. 2017. 
  146. ^ Marcus, Gary (25. 11. 2012). „Is "Deep Learning" a Revolution in Artificial Intelligence?”. The New Yorker. Приступљено 14. 6. 2017. 
  147. ^ Smith, G. W. (27. 3. 2015). „Art and Artificial Intelligence”. ArtEnt. Архивирано из оригинала 25. 6. 2017. г. Приступљено 27. 3. 2015. 
  148. ^ Mellars, Paul (1. 2. 2005). „The Impossible Coincidence: A Single-Species Model for the Origins of Modern Human Behavior in Europe” (PDF). Evolutionary Anthropology: Issues, News, and Reviews. Приступљено 5. 4. 2017. 
  149. ^ Mordvintsev, Alexander; Olah, Christopher; Tyka, Mike (17. 6. 2015). „Inceptionism: Going Deeper into Neural Networks”. Google Research Blog. Приступљено 20. 6. 2015. 
  150. ^ Hern, Alex (18. 6. 2015). „Yes, androids do dream of electric sheep”. The Guardian. Приступљено 20. 6. 2015. 
  151. ^ а б в Goertzel, Ben (2015). „Are there Deep Reasons Underlying the Pathologies of Today's Deep Learning Algorithms?” (PDF). 
  152. ^ Nguyen, Anh, Jason Yosinski, and Jeff Clune. "Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images." Nguyen, Anh; Yosinski, Jason; Clune, Jeff (2014). „Deep Neural Networks are Easily Fooled: High Confidence Predictions for Unrecognizable Images”. arXiv:1412.1897 .  (2014).
  153. ^ Szegedy, Christian, et al. "Intriguing properties of neural networks." Szegedy, Christian; Zaremba, Wojciech; Sutskever, Ilya; Bruna, Joan; Erhan, Dumitru; Goodfellow, Ian; Fergus, Rob (2013). „Intriguing properties of neural networks”. arXiv:1312.6199 .  (2013).
  154. ^ Zhu, S.C.; Mumford, D. (2006). „A stochastic grammar of images”. Found. Trends Comput. Graph. Vis. 2 (4): 259—362. doi:10.1561/0600000018. 
  155. ^ Miller, G. A., and N. Chomsky. "Pattern conception." Paper for Conference on pattern detection, University of Michigan. 1957.
  156. ^ Eisner, Jason. „Deep Learning of Recursive Structure: Grammar Induction”. Архивирано из оригинала 30. 12. 2017. г. Приступљено 17. 02. 2018. 

Литература

уреди

Спољашње везе

уреди