Задаци рачунарског вида обухватају методе за стицање, обраду, анализу и разумевање дигиталних слика, и екстракцију високодимензионалних података из стварног света како би се произвеле нумеричке или симболичке информације, нпр. у форми одлука.[1][2][3][4] Разумевање у овом контексту значи трансформацију визуелних слика у описе који имају смисла за мисаоне процесе и могу да изазову одговарајућу акцију. Ово разумевање слике може се посматрати као раздвајање симболичких информација од података слике коришћењем модела конструисаних уз помоћ геометрије, физике, статистике и теорије учења.

Научна дисциплина рачунарског вида бави се теоријом која стоји иза вештачких система који извлаче информације из слика. Подаци о слици могу имати различите облике, као што су видео секвенце, прикази са више камера, вишедимензионални подаци са 3Д скенера, 3Д скупови тачака са ЛиДаР сензора или медицински уређаји за скенирање. Технолошка дисциплина рачунарског вида настоји да примени своје теорије и моделе на конструкцију система рачунарског вида.

Под-домени рачунарског вида укључују реконструкцију сцена, детекцију објеката, детекцију догађаја, препознавање активности, видео праћење, препознавање објеката, 3Д процену положаја, учење, индексирање, процену покрета, 3Д моделирање сцене и рестаурацију слике.

Усвајање технологије рачунарског вида може бити мукотрпно за организације јер за то не постоји јединствено решење. Постоји врло мало компанија које обезбеђују јединствену и дистрибуирану платформу или оперативни систем где се апликације рачунарског вида могу лако применити.

Дефиниција

уреди

Рачунарски вид је интердисциплинарно поље које се бави начином на који се рачунари могу направити да стекну разумевање на високом нивоу из дигиталних слика или видео записа. Из перспективе инжењерства, он настоји да аутоматизује задатке које људско чуло вида може да уради.[5][6][7] "Рачунарски вид се бави аутоматским издвајањем, анализом и разумевањем корисних информација из једне слике или низа слика. То укључује развој теоријске и алгоритамске основе за постизање аутоматског визуелног разумевања."[8] Као научна дисциплина, рачунарски вид се бави теоријом која стоји иза вештачких система који извлаче информације из слика. Подаци о слици могу имати различите облике, као што су видео секвенце, прикази са више камера или вишедимензионални подаци са медицинских скенера.[9] Као технолошка дисциплина, рачунарски вид настоји да примени своје теорије и моделе за конструкцију система рачунарског вида. Машински вид се односи на дисциплину системског инжењеринга, посебно у контексту аутоматизације фабрика. У новије време термини рачунарски вид и машински вид су се у већој мери приближили.[10]

Историја

уреди

Касних 1960-их, рачунарски вид је почео на универзитетима који су били пионири у вештачкој интелигенцији. Требало је да опонаша људско чуло вида, као одскочна даска за креирање робота са интелигентним понашањем.[11] Године 1966. веровало се да се то може постићи кроз летњи пројекат дипломских студија[12] тако што би се камера прикључила на рачунар и дала му да „опише шта је видела“.[13]

Оно што је рачунарски вид разликовало од преовлађујуће области дигиталне обраде слика у то време била је жеља да се из слика издвоји тродимензионална структура са циљем постизања потпуног разумевања сцене. Студије из 1970-их формирале су рану основу за многе алгоритме рачунарског вида који постоје данас, укључујући издвајање ивица из слика, означавање линија, неполиедарско и полиедарско моделирање, представљање објеката као међувезе мањих структура, оптички ток и процена кретања.[11]

Следеће деценије биле су студије засноване на ригорознијој математичкој анализи и квантитативним аспектима рачунарског вида. То укључује концепт скалираног простора, закључивање облика из различитих знакова као што су сенчење, текстура и фокус, и контурни модели познати као змије. Истраживачи су такође схватили да се многи од ових математичких концепата могу третирати унутар истог оквира оптимизације као регуларизација и Марковљева насумична поља.[14] До 1990-их, неке од претходних истраживачких тема постале су активније од других. Истраживање пројективних 3Д реконструкција довело је до бољег разумевања калибрације камере. Са појавом метода оптимизације за калибрацију камере, увидело се да су многе идеје већ истражене у теорији подешавања пакета из области фотограметрије. Ово је довело до метода за ретке 3Д реконструкције сцена са више слика. Напредак је постигнут у проблему густе стерео кореспонденције и даљим стерео техникама са више приказа. Истовремено, варијације резања графикона су коришћене за решавање сегментације слике. Ова деценија је такође означила први пут да су технике статистичког учења коришћене у пракси за препознавање лица на сликама. Крајем 1990-их дошло је до значајне промене са повећаном интеракцијом између поља рачунарске графике и рачунарског вида. Ово је укључивало рендеровање засновано на слици, преобликовање слике, интерполацију приказа, спајање панорамских слика и рано приказивање светлосног поља.[11]

Недавни рад је доживео поновну појаву метода заснованих на карактеристикама, које се користе заједно са техникама машинског учења и сложеним оквирима за оптимизацију.[15][16] Напредак техника дубоког учења донео је даљи живот пољу рачунарског вида. Тачност алгоритама дубоког учења на неколико референтних скупова података рачунарског вида за задатке који се крећу од класификације,[17] сегментације и оптичког тока надмашила је претходне методе.[18]

Повезане области

уреди

Физика чврстог стања

уреди

Физика чврстог стања је још једна област која је уско повезана са рачунарским видом. Већина система рачунарског вида ослања се на сензоре слике, који детектују електромагнетно зрачење, које је обично у облику видљиве или инфрацрвене светлости. Сензори су дизајнирани помоћу квантне физике. Процес којим светлост ступа у интеракцију са површинама објашњава се помоћу физике. Физика објашњава понашање оптике која је суштински део већине система за снимање. Софистицирани сензори слике захтевају чак и квантну механику да би пружили потпуно разумевање процеса формирања слике.[11] Такође, различити проблеми мерења у физици могу се решити коришћењем рачунарског вида, на пример, кретање у течностима.

Неуробиологија

уреди

Неуробиологија је у великој мери утицала на развој алгоритама рачунарског вида. Током прошлог века, било је опсежно проучавање очију, неурона и можданих структура посвећених обради визуелних стимуланса и код људи и код разних животиња. Ово је довело до грубог, али замршеног описа како природно чуло вида функционише у циљу решавања одређених задатака у вези са видом. Ови резултати су довели до под-области у рачунарском виду где су вештачки системи дизајнирани да опонашају обраду и понашање биолошких система на различитим нивоима сложености. Такође, неке од метода заснованих на учењу развијене у оквиру рачунарског вида (нпр. неуронска мрежа и анализа и класификација слика и карактеристика заснованих на дубоком учењу) имају своју позадину у неуробиологији. Неокогнитрон, неуронска мрежа коју је 1970-их развио Кунихико Фукушима, рани је пример рачунарског вида који узима директну инспирацију из неуробиологије, посебно примарног визуелног кортекса.

Неки правци истраживања рачунарског вида су уско повезани са проучавањем биолошког вида – заиста, као што су многи правци истраживања вештачке интелигенције уско повезани са истраживањем људске интелигенције и употребом ускладиштеног знања за тумачење, интеграцију и коришћење визуелних информација. Област биолошког вида проучава и моделира физиолошке процесе иза визуелне перцепције код људи и других животиња. Рачунарски вид, с друге стране, развија и описује алгоритме имплементиране у софтвер и хардвер иза система вештачког вида. Интердисциплинарна размена између биолошке и компјутерске визије показала се плодном за обе области.[19]

Обрада сигнала

уреди

Још једно поље везано за рачунарски вид је обрада сигнала. Многе методе за обраду сигнала са једном променљивом, типично временских сигнала, могу се на природан начин проширити на обраду сигнала са две променљиве или сигнала са више варијабли у компјутерском виду. Међутим, због специфичне природе слика, постоји много метода развијених у рачунарском виду које немају пандан у обради сигнала са једном променљивом. Заједно са вишедимензионалношћу сигнала, ово дефинише под-област у обради сигнала као део рачунарског вида.

Роботска навигација

уреди

Роботска навигација се понекад бави аутономним планирањем путање или промишљањем роботских система за навигацију кроз окружење.[20] За навигацију кроз њих потребно је детаљно разумевање ових окружења. Информације о животној средини може да обезбеди рачунарски систем за вид, који делује као сензор вида и пружа информације високог нивоа о окружењу и роботу.

Остале области

уреди

Поред горе наведених ставова о рачунарском виду, многе од сродних истраживачких тема могу се проучавати и са чисто математичке тачке гледишта. На пример, многе методе у рачунарском виду су засноване на статистици, оптимизацији или геометрији. Коначно, значајан део области посвећен је аспекту имплементације рачунарског вида; како се постојеће методе могу реализовати у различитим комбинацијама софтвера и хардвера, или како се ове методе могу модификовати да би се добила брзина обраде без превише губитка перформанси. Рачунарски вид се такође користи у модној е-трговини, управљању залихама, претраживању патената, намештају и индустрији лепоте.

Разлике

уреди

Области које су најближе рачунарском виду су обрада слике, анализа слике и машински вид. Постоји значајно преклапање у распону техника и апликација које ове области покривају. То имплицира да су основне технике које се користе и развијају у овим областима сличне, што се може протумачити да постоји само једно поље са различитим називима. С друге стране, чини се да је неопходно да се истраживачке групе, научни часописи, конференције и компаније представе или пласирају као особе које припадају једној од ових области и, стога, имају различите карактеризације које разликују сваку од области од осталих. представљено. У обради слике, улаз је слика, а излаз је такође слика, док се у рачунарском виду слика или видео узимају као улаз и излаз може бити побољшана слика, разумевање садржаја слике или чак понашање рачунарског система заснованог на таквом разумевању.

Рачунарска графика производи сликовне податке из 3Д модела, а компјутерски вид често производи 3Д моделе из података слике.[21] Такође постоји тренд ка комбинацији ове две дисциплине, на пример, како се истражује у проширеној стварности.

Чини се да су следеће карактеристике релевантне, али их не треба узимати као универзално прихваћене:

  • Обрада слике и анализа слике имају тенденцију да се фокусирају на 2Д слике, како да трансформишу једну слику у другу, на пример, операцијама у пикселима као што је побољшање контраста, локалним операцијама као што је екстракција ивица или уклањање шума, или геометријске трансформације као што је ротирање слике. Ова карактеризација имплицира да обрада/анализа слике не захтева претпоставке нити производи интерпретације садржаја слике.
  • Рачунарски вид укључује 3Д анализу из 2Д слика. Ово анализира 3Д сцену пројектовану на једну или више слика, на пример, како реконструисати структуру или друге информације о 3Д сцени са једне или више слика. Рачунарски вид се често ослања на мање или више сложене претпоставке о сцени приказаној на слици.
  • Машински вид је процес примене низа технологија и метода за обезбеђивање аутоматске инспекције засноване на слици, контролу процеса и навођење робота[22] у индустријским применама.[19] Машински вид има тенденцију да се фокусира на апликације, углавном у производњи, на пример, роботе засноване на визији и системе за инспекцију, мерење или бирање на основу вида (као што је бирање смећа[23]). Ово имплицира да су технологије сензора слике и теорија управљања често интегрисане са обрадом података слике за контролу робота и да је обрада у реалном времену наглашена путем ефикасних имплементација у хардверу и софтверу. То такође подразумева да спољни услови као што је осветљење могу бити и често су више контролисани у машинском виду него у општем рачунарском виду, што може омогућити коришћење различитих алгоритама.
  • Постоји и област која се зове осликавање која се првенствено фокусира на процес производње слика, али се понекад бави и обрадом и анализом слика. На пример, медицинско снимање укључује значајан рад на анализи сликовних података у медицинским апликацијама.
  • Коначно, препознавање образаца је поље које користи различите методе за издвајање информација из сигнала уопште, углавном засновано на статистичким приступима и вештачким неуронским мрежама.[24] Значајан део ове области посвећен је примени ових метода на сликовне податке.

Фотограметрија се такође преклапа са рачунарским видом, на пример, стереофотограметрија наспрам рачунарског стерео вида.

Примена

уреди

Примене се крећу од задатака као што су индустријски системи машинског вида који, рецимо, прегледају боце које пролазе на производној линији, до истраживања вештачке интелигенције и рачунара или робота који могу да разумеју свет око себе. Поља рачунарског и машинског вида се значајно преклапају. Рачунарски вид покрива основну технологију аутоматске анализе слике која се користи у многим областима. Машински вид се обично односи на процес комбиновања аутоматизоване анализе слике са другим методама и технологијама како би се обезбедила аутоматска контрола и навођење робота у индустријским апликацијама. У многим апликацијама рачунарског вида, рачунари су унапред програмирани да реше одређени задатак, али методе засноване на учењу сада постају све чешће. Примери примене рачунарског вида укључују системе за:

  • Аутоматска инспекција, на пример, у производним апликацијама;
  • Помагање људима у задацима идентификације, нпр. систем идентификације врста;[25]
  • Контролисање процеса, на пример, индустријски роботи;
  • Откривање догађаја, на пример, за визуелни надзор или бројање људи, на пример, у ресторанској индустрији;
  • Интеракција, на пример, као улаз за уређај за интеракцију рачунар-човек;
  • Моделирање објеката или окружења, на пример, анализа медицинске слике или топографско моделирање;
  • Навигација, на пример, аутономним возилом или мобилним роботом;
  • Организовање информација, на пример, за индексирање база података слика и секвенци слика.
  • Праћење површина или равни у 3Д координатама за омогућавање доживљаја проширене стварности.

Медицина

уреди

Једно од најистакнутијих области примене је медицински рачунарски вид, или обрада медицинске слике, коју карактерише екстракција информација из података слике ради дијагностиковања пацијента. Пример за то је откривање тумора, артериосклерозе или других малигних промена и разних зубних патологија; мерења димензија органа, протока крви итд. Такође подржава медицинска истраживања пружањем нових информација: на пример, о структури мозга или квалитету медицинских третмана. Примене компјутерског вида у медицинској области такође укључују побољшање слика које тумаче људи – ултразвучне слике или рендгенске слике, на пример – да би се смањио утицај буке.

Машински вид

уреди

Друга област примене рачунарског вида је у индустрији, која се понекад назива машински вид, где се информације издвајају у сврху подршке производном процесу. Један пример је контрола квалитета где се детаљи или финални производи аутоматски проверавају како би се пронашли недостаци. Једно од најзаступљенијих поља за такву инспекцију је индустрија вафера у којој се свака појединачна плочица мери и проверава у погледу нетачности или дефеката како би се спречило да рачунарски чип дође на тржиште на неупотребљив начин. Други пример је мерење положаја и оријентације детаља које треба да покупи роботска рука. Машински вид се такође у великој мери користи у пољопривредним процесима за уклањање непожељних намирница из расутих материјала, процес који се назива оптичко сортирање.[26]

Војска

уреди

Војне примене су вероватно једна од највећих области рачунарског вида. Очигледни примери су откривање непријатељских војника или возила и навођење пројектила. Напреднији системи за навођење пројектила шаљу пројектил на подручје, а не на одређену мету, а избор циља се врши када пројектил стигне до подручја на основу локално добијених података о слици. Савремени војни концепти, као што је „свесност на бојном пољу“, подразумевају да различити сензори, укључујући сензоре слике, пружају богат скуп информација о сцени борбе које се могу користити за подршку стратешким одлукама. У овом случају, аутоматска обрада података се користи за смањење сложености и за спајање информација са више сензора ради повећања поузданости.

Аутономна возила

уреди

Једна од новијих области примене су аутономна возила, која укључују подморнице, копнена возила (мали роботи са точковима, аутомобили или камиони), летелице и беспилотне летелице (УАВ). Ниво аутономије се креће од потпуно аутономних (беспилотних) возила до возила у којима системи засновани на компјутерском виду подржавају возача или пилота у различитим ситуацијама. Потпуно аутономна возила обично користе рачунарски вид за навигацију, на пример, да знају где се налазе или да мапирају своје окружење (СЛАМ), за откривање препрека. Такође се може користити за откривање одређених догађаја специфичних за задатак, на пример, беспилотна летелица која тражи шумске пожаре. Примери пратећих система су системи упозорења на препреке у аутомобилима, камере и ЛиДАР сензори у возилима и системи за аутономно слетање авиона. Неколико произвођача аутомобила демонстрирало је системе за аутономну вожњу аутомобила. Постоји велики број примера војних аутономних возила у распону од напредних пројектила до беспилотних летелица за извиђачке мисије или навођење пројектила. Истраживања свемира се већ врше са аутономним возилима која користе рачунарски вид, на пример, НАСА-ин Кјуриосити и ЦНСА-ин Јуту-2 ровер.

Тактилне повратне информације

уреди

Материјали као што су гума и силицијум се користе за креирање сензора који омогућавају примене као што су откривање микро таласа и калибрација роботских руку. Гума се може користити да би се направио калуп који се може ставити преко прста, унутар овог калупа би било више мерача напрезања. Калуп за прсте и сензори могу се затим поставити на мали лист гуме који садржи низ гумених иглица. Корисник тада може носити калуп за прсте и пратити површину. Рачунар тада може да прочита податке са мерача напрезања и измери да ли се један или више иглица гура нагоре. Ако се игла гура нагоре, рачунар то може препознати као несавршеност површине. Ова врста технологије је корисна за добијање тачних података о несавршеностима на веома великој површини.[27] Још једна варијација овог сензора за прсте су сензори који садрже камеру окачену у силицијум. Силицијум формира куполу око спољашње стране камере и уграђени у силицијум су тачкасти маркери који су подједнако распоређени. Ове камере се затим могу поставити на уређаје као што су роботске руке како би се омогућило рачунару да прима високо прецизне тактилне податке.[28]

Остале области примене укључују:

  • Подршка креирању визуелних ефеката за биоскоп и емитовање, на пример, праћење камере.
  • Надзор.
  • Откривање поспаности возача[29][30][31]
  • Праћење и бројање организама у биолошким наукама[32]

Типични задаци

уреди

Свака од горе описаних области примене користи низ задатака рачунарског вида; мање или више добро дефинисани проблеми мерења или проблеми обраде, који се могу решити коришћењем разних метода. Неки примери типичних задатака рачунарског вида су представљени у наставку.

Задаци рачунарског вида обухватају методе за стицање, обраду, анализу и разумевање дигиталних слика, и екстракцију високодимензионалних података из стварног света како би се произвеле нумеричке или симболичке информације, на пример, у облику одлука.[1][2][3][4] Разумевање у овом контексту значи трансформацију визуелних слика у описе света који се могу повезати са другим мисаоним процесима и изазвати одговарајућу акцију. Ово разумевање слике може се посматрати као раздвајање симболичких информација од података слике коришћењем модела конструисаних уз помоћ геометрије, физике, статистике и теорије учења.[33]

Препознавање

уреди

Класичан проблем у компјутерском виду, обради слике и машинском виду је одређивање да ли подаци о слици садрже неки специфичан објекат, карактеристику или активност. У литератури су описане различите врсте проблема препознавања.[34]

  • Препознавање објеката (назива се и класификација објеката) – може се препознати један или неколико унапред специфицираних или научених објеката или класа објеката, обично заједно са њиховим 2Д позицијама на слици или 3Д позама у сцени. Блипар, Гугл наочаре и ЛајкДет пружају самосталне програме који илуструју ову функционалност.
  • Идентификација – препознаје се појединачна инстанца објекта. Примери укључују идентификацију лица или отиска прста одређене особе, идентификацију руком исписаних цифара или идентификацију одређеног возила.
  • Детекција – подаци о слици се скенирају за одређене објекте заједно са њиховом локацијом. Примери укључују откривање препреке у видном пољу аутомобила и могуће абнормалне ћелије или ткива на медицинским сликама или детекцију возила у аутоматском систему наплате путарине. Детекција заснована на релативно једноставним и брзим прорачунима се понекад користи за проналажење мањих области занимљивих података слике који се могу даље анализирати рачунарски захтевнијим техникама да би се произвела исправна интерпретација.

Тренутно су најбољи алгоритми за такве задатке засновани на конволуционим неуронским мрежама. Илустрацију њихових могућности даје ИмиџНет; ово је мерило за класификацију и детекцију објеката, са милионима слика и 1000 класа објеката коришћених у такмичењу.[35] Перформансе конволуционих неуронских мрежа на ИмиџНет тестовима су сада блиске онима које имају људи.[35] Најбољи алгоритми се и даље боре са објектима који су мали или танки, као што је мали мрав на стабљици цвета или особа која држи перо у руци. Такође имају проблема са сликама које су изобличене филтерима (све чешћи феномен код модерних дигиталних фотоапарата). Насупрот томе, такве слике ретко сметају људима. Људи, међутим, имају тенденцију да имају проблема са другим проблемима. На пример, они нису добри у класификовању објеката у специфичније класе, као што је одређена раса паса или врста птица, док конволуционе неуронске мреже то с лакоћом решавају.

Постоји неколико специјализованих задатака заснованих на препознавању, као што су:

  • Преузимање слика засновано на садржају – проналажење свих слика у већем скупу слика које имају специфичан садржај. Садржај се може специфицирати на различите начине, на пример у смислу сличности у односу на циљну слику (дај ми све слике сличне слици А) коришћењем техника претраге обрнутих слика, или у смислу критеријума за претрагу високог нивоа датих као унос текста (дајте ми све слике које садрже много кућа, снимљене су током зиме и у њима нема аутомобила).
  • Процена позе – процена положаја или оријентације одређеног објекта у односу на камеру. Пример апликације за ову технику би био помоћ роботској руци у преузимању предмета са покретне траке у ситуацији на монтажној линији или бирању делова из канте.
  • Оптичко препознавање знакова (ОЦР) – идентификација знакова на сликама штампаног или руком писаног текста, обично са циљем да се текст кодира у формату који је погоднији за уређивање или индексирање (нпр. АСЦИИ). Сродни задатак је читање 2Д кодова као што су матрица података и КР кодови.
  • Препознавање лица – технологија која омогућава упаривање лица у дигиталним сликама или видео оквирима са базом података лица, која се сада широко користи за закључавање лица на мобилном телефону, паметно закључавање врата, итд.[36]
  • Препознавање емоција – подскуп препознавања лица, препознавање емоција се односи на процес класификације људских емоција. Психолози ипак упозоравају да се унутрашње емоције не могу поуздано открити са лица.[37]
  • Технологија препознавања облика (СРТ) у системима који разликују људска бића (обрасци главе и рамена) од објеката.
  • Препознавање људске активности – бави се препознавањем активности из серије видео кадрова, на пример, ако особа узима предмет или хода.

Анализа покрета

уреди

Неколико задатака се односи на процену покрета где се секвенца слике обрађује да би се произвела процена брзине било у свакој тачки на слици или у 3Д сцени или чак камере која производи слике. Примери таквих задатака су:

  • Егомоција – одређивање 3Д крутог кретања (ротације и транслације) камере из секвенце слике коју производи камера.
  • Праћење – праћење кретања (обично) мањег скупа интересних тачака или објеката (нпр. возила, објеката, људи или других организама[32]) у секвенци слике. Ово има широку индустријску примену јер се већина машина са високим погоном може надгледати на овај начин.
  • Оптички ток – да се одреди, за сваку тачку на слици, како се та тачка креће у односу на раван слике, односно њено привидно кретање. Ово кретање је резултат како се одговарајућа 3Д тачка креће у сцени и како се камера креће у односу на сцену.

Реконструкција сцена

уреди

Уз једну или (обично) више слика сцене, или видео снимка, реконструкција сцене има за циљ израчунавање 3Д модела сцене. У најједноставнијем случају, модел може бити скуп 3Д тачака. Софистицираније методе производе комплетан 3Д модел површине. Појава 3Д слика које не захтевају кретање или скенирање и сродних алгоритама обраде омогућавају брз напредак у овој области. 3Д осећај заснован на мрежи може се користити за добијање 3Д слика из више углова. Алгоритми су сада доступни за спајање више 3Д слика у скупове тачака и 3Д моделе.[21]

Рестаурација слика

уреди

Рестаурација слике се користи у случајевима када је оригинална слика деградирана или оштећена због неких спољних фактора као што су погрешно позиционирање сочива, сметње у преносу, слабо осветљење или замућење покрета итд. што се назива шумом. Када се слике деградирају или оштете, информације које треба извући из њих се такође оштећују. Због тога морамо да повратимо или вратимо слику како је требало да буде. Циљ рестаурације слике је уклањање шума (шум сензора, замућење покрета, итд.) са слика. Најједноставнији могући приступ за уклањање буке су различити типови филтера као што су нископропусни филтери или средњи филтери. Софистицираније методе претпостављају модел на основу локалне структуре слике, да би се разликовале од шума. Прво анализирањем података о слици у смислу локалних структура слике, као што су линије или ивице, а затим контролисањем филтрирања на основу локалних информација из корака анализе, обично се постиже бољи ниво уклањања шума у ​​поређењу са једноставнијим приступима.

Системске методе

уреди

Организација система рачунарског вида у великој мери зависи од примене. Неки системи су самосталне апликације које решавају конкретан проблем мерења или детекције, док други чине подсистем већег дизајна који, на пример, садржи и подсистеме за управљање механичким актуаторима, планирање, информационе базе података, машински интерфејси итд. Специфична имплементација система рачунарског вида зависи и од тога да ли је његова функционалност унапред одређена или се неки део може научити или модификовати током рада. Многе функције су јединствене за апликацију. Међутим, постоје типичне функције које се налазе у многим системима рачунарског вида.

  • Аквизиција слике – Дигиталну слику производи један или више сензора слике, који, поред различитих типова камера осетљивих на светлост, укључују сензоре домета, уређаје за томографију, радаре, ултразвучне камере, итд. У зависности од типа сензора, резултирајући сликовни подаци су обична 2Д слика, 3Д волумен или секвенца слике. Вредности пиксела обично одговарају интензитету светлости у једном или неколико спектралних опсега (сиве слике или слике у боји), али такође могу бити повезане са различитим физичким мерама, као што су дубина, апсорпција или рефлексија звучних или електромагнетних таласа, или нуклеарна магнетна резонанца. [26]
  • Предпроцесирање – Пре него што се метода рачунарског вида може применити на сликовне податке како би се издвојила нека специфична информација, обично је потребно обрадити податке како би се уверило да задовољавају одређене претпоставке које метода подразумева. Примери су:
    • Поновно узорковање да би се уверило да је координатни систем слике исправан.
    • Смањење буке како би се осигурало да шум сензора не доноси лажне информације.
    • Побољшање контраста како би се осигурало да се релевантне информације могу открити.
    • Скалирање приказа простора да би се побољшале структуре слике у локално одговарајућим размерама.
  • Екстракција карактеристика – Карактеристике слике на различитим нивоима сложености се издвајају из података слике.[26] Типични примери таквих карактеристика су:
    • Линије, ивице и гребени.
    • Локализоване интересне тачке као што су углови, мрље или тачке.
    • Сложеније карактеристике могу бити повезане са текстуром, обликом или кретањем.
  • Детекција/сегментација – У неком тренутку обраде се доноси одлука о томе које тачке или региони слике су релевантни за даљу обраду.[26] Примери су:
    • Избор одређеног скупа интересних тачака.
    • Сегментација једног или више региона слике који садрже одређени објекат од интереса.
    • Сегментација слике у архитектуру угнежђене сцене која се састоји од предњег плана, група објеката, појединачних објеката или истакнутих делова објеката[38] (који се такође називају хијерархијом просторно-таксонске сцене),[39] док се визуелни значај често имплементира као просторна и временска пажња.
    • Сегментација или ко-сегментација једног или више видео снимака у серију маски предњег плана по кадру, уз задржавање временског семантичког континуитета.[40][41]
  • Обрада високог нивоа – У овом кораку улаз је типично мали скуп података, на пример скуп тачака или регион слике за који се претпоставља да садржи одређени објекат.[26] Преостала обрада се бави, на пример:
    • Провера да подаци задовољавају претпоставке засноване на моделу и претпоставке специфичне за апликацију.
    • Процена параметара специфичних за апликацију, као што су поза објекта или величина објекта.
    • Препознавање слике – класификовање откривеног објекта у различите категорије.
    • Регистрација слике – упоређивање и комбиновање два различита погледа на исти објекат.
  • Доношење одлука - Доношење коначне одлуке потребне за пријаву,[26] на пример:
    • Положио/не прошао у апликацијама за аутоматску инспекцију.
    • Подударање/неподударање у апликацијама за препознавање.
    • Ознаке за даљи људски преглед у медицинским, војним, безбедносним апликацијама и апликацијама за препознавање.

Системи за разумевање слика

уреди

Системи за разумевање слике (ИУС) укључују три нивоа апстракције, како следи: ниски ниво укључује примитиве слике као што су ивице, елементи текстуре или региони; средњи ниво обухвата границе, површине и запремине; а високи ниво укључује објекте, сцене или догађаје. Многи од ових захтева су у потпуности теме за даља истраживања.

Репрезентативни захтеви у пројектовању ИУС-а за ове нивое су: представљање прототипских концепата, организација концепта, просторно знање, временско знање, скалирање и опис поређењем и диференцијацијом.

Док се закључивање односи на процес извођења нових, не експлицитно представљених чињеница из тренутно познатих чињеница, контрола се односи на процес који бира која од многих техника закључивања, претраживања и подударања треба да се примени у одређеној фази обраде. Захтјеви закључивања и контроле за ИУС су: претраживање и активација хипотеза, подударање и тестирање хипотеза, генерирање и кориштење очекивања, промјена и фокус пажње, сигурност и снага вјеровања, закључак и задовољство циљем.[42]

Хардвер

уреди

Постоји много врста система рачунарског вида; међутим, сви они садрже ове основне елементе: извор напајања, најмање један уређај за аквизицију слике, процесор и контролне и комуникационе каблове или неку врсту механизма за бежично повезивање. Поред тога, практичан систем визије садржи софтвер, као и дисплеј за праћење система. Системи за преглед унутрашњих простора, као и већина индустријских, садрже систем осветљења и могу се поставити у контролисано окружење. Штавише, комплетан систем укључује много додатака као што су носачи за камере, каблови и конектори.

Већина система рачунарског вида користи камере са видљивим светлом које пасивно посматрају сцену брзином од највише 60 кадрова у секунди (обично много спорије).

Неколико система рачунарског вида користи хардвер за прикупљање слика са активним осветљењем или нечим другим осим видљиве светлости или обоје, као што су 3Д скенери са структурираним светлом, термографске камере, хиперспектрални снимачи, радарско снимање, лидарски скенери, слике магнетне резонанце, сонар за бочно скенирање , сонар са синтетичким отвором, итд. Такав хардвер снима „слике“ које се затим често обрађују коришћењем истих алгоритама рачунарског вида који се користе за обраду слика видљивог светла.

Док традиционални системи за емитовање и видео системи за потрошаче раде брзином од 30 фрејмова у секунди, напредак у дигиталној обради сигнала и графичком хардверу за потрошаче омогућио је брзу аквизицију, обраду и приказ слике за системе у реалном времену од неколико стотина до хиљаде кадрова у секунди. За апликације у роботици, брзи видео системи у реалном времену су критично важни и често могу да поједноставе обраду потребну за одређене алгоритме. Када се комбинује са пројектором велике брзине, брзо прикупљање слике омогућава реализацију 3Д мерења и праћења карактеристика.[43]

Егоцентрични системи вида се састоје од носиве камере која аутоматски снима слике из перспективе првог лица.

Од 2016. јединице за обраду визије појављују се као нова класа процесора, како би допуниле ЦПУ и графичке процесорске јединице (ГПУ) у овој улози.[44]

Референце

уреди
  1. ^ а б Klette, Reinhard (2014). Concise computer vision: an introduction into theory and algorithms. Undergraduate topics in computer science. London: Springer. ISBN 978-1-4471-6320-6. 
  2. ^ а б Shapiro, Linda G.; Stockman, George C. (2001). Computer vision. Upper Saddle River, NJ: Prentice Hall. ISBN 978-0-13-030796-5. 
  3. ^ а б Morris, Tim (2004). Computer vision and image processing. Cornerstones of computing. Basingstoke: Palgrave Macmillan. ISBN 978-0-333-99451-1. 
  4. ^ а б Forsyth, David; Ponce, Jean; Forsyth, David A. (2003). Computer vision: a modern approach. Prentice Hall series in artificial intelligence (Reprinted with corr изд.). Upper Saddle River, NJ: Prentice Hall. ISBN 978-0-13-085198-7. 
  5. ^ Ballard, Dana H.; Ballard, Dana Harry; Brown, Christopher Marlin; Brown, Christopher M. (1982). Computer vision. Englewood Cliffs, N.J: Prentice-Hall. ISBN 978-0-13-165316-0. 
  6. ^ Vandoni, Carlo E., ур. (1996). Proceedings / 1996 CERN School of Computing: Egmont aan Zee, The Netherlands, 8 September - 21 September 1996. CERN. Geneva: CERN. ISBN 978-92-9083-095-5. 
  7. ^ Sonka, Milan; Hlaváč, Václav; Boyle, Roger (2008). Image processing, analysis, and machine vision (3. ed изд.). Toronto: Thompson Learning. ISBN 978-0-495-08252-1. 
  8. ^ „What is computer vision?”. web.archive.org. 2017-02-16. Архивирано из оригинала 16. 02. 2017. г. Приступљено 2023-12-29. 
  9. ^ „Star Trek’s “tricorder” medical scanner just got closer to becoming a reality”. Quartz (на језику: енглески). 2017-04-13. Приступљено 2023-12-29. 
  10. ^ Davies, E. R. (2018). Computer vision: principles, algorithms, applications, learning (Fifth edition изд.). London San Diego, CA: Academic Press, an imprint of Elsevier. ISBN 978-0-12-809284-2. 
  11. ^ а б в г Szeliski, Richard; Szeliski, Richard (2011). Computer vision: algorithms and applications. Texts in computer science. New York London: Springer. ISBN 978-1-84882-935-0. 
  12. ^ Sejnowski, Terrence J. (2018). The deep learning revolution. Cambridge, Massachusetts London, England: The MIT Press. ISBN 978-0-262-03803-4. 
  13. ^ Boden, Margaret A. (2006). Mind as machine: a history of cognitive science. Oxford: Clarendon Press. ISBN 978-0-19-954316-8. 
  14. ^ Kanade, Takeo (2012-12-06). Three-Dimensional Machine Vision (на језику: енглески). Springer Science & Business Media. ISBN 978-1-4613-1981-8. 
  15. ^ Sebe, Nicu, ур. (2005). Machine learning in computer vision. Computational imaging and vision. Dordrecht Berlin Heidelberg: Springer. ISBN 978-1-4020-3274-5. 
  16. ^ Freeman, William; Perona, Pietro; Schölkopf, Bernhard (2008). „Guest Editorial”. International Journal of Computer Vision (на језику: енглески). 77 (1-3): 1—1. ISSN 0920-5691. doi:10.1007/s11263-008-0127-7. 
  17. ^ LeCun, Yann; Bengio, Yoshua; Hinton, Geoffrey (2015-05-28). „Deep learning”. Nature (на језику: енглески). 521 (7553): 436—444. ISSN 0028-0836. doi:10.1038/nature14539. 
  18. ^ Jiao, Licheng; Zhang, Fan; Liu, Fang; Yang, Shuyuan; Li, Lingling; Feng, Zhixi; Qu, Rong (2019). „A Survey of Deep Learning-Based Object Detection”. IEEE Access. 7: 128837—128868. ISSN 2169-3536. doi:10.1109/ACCESS.2019.2939201. 
  19. ^ а б Steger, Carsten; Ulrich, Markus; Wiedemann, Christian, ур. (2018). Machine vision algorithms and applications (2nd, completely revised and enlarged edition изд.). Weinheim: Wiley-VCH. ISBN 978-3-527-41365-2. 
  20. ^ „Wayback Machine”. web.archive.org. 2020-10-31. Архивирано из оригинала 31. 10. 2020. г. Приступљено 2023-12-29. 
  21. ^ а б Soltani, Amir Arsalan; Huang, Haibin; Wu, Jiajun; Kulkarni, Tejas D.; Tenenbaum, Joshua B. (2017). „Synthesizing 3D Shapes via Modeling Multi-view Depth Maps and Silhouettes with Deep Generative Networks”. IEEE: 2511—2519. ISBN 978-1-5386-0457-1. doi:10.1109/CVPR.2017.269. 
  22. ^ Turek, Fred (June 2011). "Machine Vision Fundamentals, How to Make Robots See". NASA Tech Briefs Magazine.
  23. ^ „The Future of Automated Random Bin Picking”. web.archive.org. 2018-01-11. Архивирано из оригинала 11. 01. 2018. г. Приступљено 2023-12-29. 
  24. ^ Chervyakov, N.I.; Lyakhov, P.A.; Deryabin, M.A.; Nagornov, N.N.; Valueva, M.V.; Valuev, G.V. (2020). „Residue Number System-Based Solution for Reducing the Hardware Cost of a Convolutional Neural Network”. Neurocomputing (на језику: енглески). 407: 439—453. doi:10.1016/j.neucom.2020.04.018. 
  25. ^ Wäldchen, Jana; Mäder, Patrick (2018). „Plant Species Identification Using Computer Vision Techniques: A Systematic Literature Review”. Archives of Computational Methods in Engineering (на језику: енглески). 25 (2): 507—543. ISSN 1134-3060. PMC 6003396 . PMID 29962832. doi:10.1007/s11831-016-9206-z. 
  26. ^ а б в г д ђ Davies, E. Roy (2005). Machine vision: theory, algorithms, practicalities (3rd ed изд.). Amsterdam Boston: Elsevier. ISBN 978-0-12-206093-9. 
  27. ^ Ando, Mitsuhito; Takei, Toshinobu; Mochiyama, Hiromi (2020). „Rubber artificial skin layer with flexible structure for shape estimation of micro-undulation surfaces”. ROBOMECH Journal (на језику: енглески). 7 (1). ISSN 2197-4225. doi:10.1186/s40648-020-00159-0. 
  28. ^ Choi, Seung-hyun; Tahara, Kenji (2020). „Dexterous object manipulation by a multi-fingered robotic hand with visual-tactile fingertip sensors”. ROBOMECH Journal (на језику: енглески). 7 (1). ISSN 2197-4225. doi:10.1186/s40648-020-00162-5. 
  29. ^ Garg, Hitendra (2020). „Drowsiness Detection of a Driver using Conventional Computer Vision Application”. IEEE: 50—53. ISBN 978-1-7281-6575-2. doi:10.1109/PARC49193.2020.236556. 
  30. ^ Hasan, Fudail; Kashevnik, Alexey (2021-05-12). „State-of-the-Art Analysis of Modern Drowsiness Detection Algorithms Based on Computer Vision”. IEEE: 141—149. ISBN 978-952-69244-5-8. doi:10.23919/FRUCT52173.2021.9435480. 
  31. ^ Balasundaram, A; Ashokkumar, S; Kothandaraman, D; kora, SeenaNaik; Sudarshan, E; Harshaverdhan, A (2020-12-01). „Computer vision based fatigue detection using facial parameters”. IOP Conference Series: Materials Science and Engineering. 981 (2): 022005. ISSN 1757-8981. doi:10.1088/1757-899X/981/2/022005. 
  32. ^ а б Bruijning, Marjolein; Visser, Marco D.; Hallmann, Caspar A.; Jongejans, Eelke (2018). Golding, Nick, ур. „trackdem : Automated particle tracking to obtain population counts and size distributions from videos in r”. Methods in Ecology and Evolution (на језику: енглески). 9 (4): 965—973. ISSN 2041-210X. doi:10.1111/2041-210X.12975. 
  33. ^ Forsyth, David; Ponce, Jean; Forsyth, David A. (2003). Computer vision: a modern approach. Prentice Hall series in artificial intelligence (Reprinted with corr изд.). Upper Saddle River, NJ: Prentice Hall. ISBN 978-0-13-085198-7. 
  34. ^ Forsyth, David; Ponce, Jean (2012). Computer vision: a modern approach. Pearson.
  35. ^ а б Russakovsky, Olga; Deng, Jia; Su, Hao; Krause, Jonathan; Satheesh, Sanjeev; Ma, Sean; Huang, Zhiheng; Karpathy, Andrej; Khosla, Aditya (2015). „ImageNet Large Scale Visual Recognition Challenge”. International Journal of Computer Vision (на језику: енглески). 115 (3): 211—252. ISSN 0920-5691. doi:10.1007/s11263-015-0816-y. 
  36. ^ „AI Image Recognition: Inevitable Trending of Modern Lifestyle”. web.archive.org. 2022-12-02. Архивирано из оригинала 02. 12. 2022. г. Приступљено 2023-12-29. 
  37. ^ Barrett, Lisa Feldman; Adolphs, Ralph; Marsella, Stacy; Martinez, Aleix M.; Pollak, Seth D. (2019). „Emotional Expressions Reconsidered: Challenges to Inferring Emotion From Human Facial Movements”. Psychological Science in the Public Interest (на језику: енглески). 20 (1): 1—68. ISSN 1529-1006. PMC 6640856 . PMID 31313636. doi:10.1177/1529100619832930. 
  38. ^ „Computer Science”. arxiv.org. Приступљено 2023-12-29. 
  39. ^ „Wayback Machine” (PDF). web.archive.org. Архивирано из оригинала 14. 11. 2018. г. Приступљено 2023-12-29. 
  40. ^ Liu, Ziyi; Wang, Le; Hua, Gang; Zhang, Qilin; Niu, Zhenxing; Wu, Ying; Zheng, Nanning (2018). „Joint Video Object Discovery and Segmentation by Coupled Dynamic Markov Networks”. IEEE Transactions on Image Processing. 27 (12): 5840—5853. ISSN 1057-7149. doi:10.1109/TIP.2018.2859622. 
  41. ^ Wang, Le; Duan, Xuhuan; Zhang, Qilin; Niu, Zhenxing; Hua, Gang; Zheng, Nanning (2018-05-22). „Segment-Tube: Spatio-Temporal Action Localization in Untrimmed Videos with Per-Frame Segmentation”. Sensors (на језику: енглески). 18 (5): 1657. ISSN 1424-8220. PMC 5982167 . PMID 29789447. doi:10.3390/s18051657. 
  42. ^ Encyclopedia of artificial intelligence. 2: M - Z (2. ed изд.). New York, NY: Wiley. 1992. ISBN 978-0-471-50306-4. 
  43. ^ „High-speed vision systems and projectors for real-time perception of the world | IEEE Conference Publication | IEEE Xplore”. ieeexplore.ieee.org. doi:10.1109/cvprw.2010.5543776. Приступљено 2023-12-29. 
  44. ^ „A Third Type Of Processor For VR/AR: Movidius' Myriad 2 VPU | Tom's Hardware”. web.archive.org. 2023-03-15. Архивирано из оригинала 15. 03. 2023. г. Приступљено 2023-12-29. 

Грешка код цитирања: <ref> таг са именом „Ballard-Brown-1982” дефинисан у <references> није употребљен у претходном тексту.
Грешка код цитирања: <ref> таг са именом „Huang-1996” дефинисан у <references> није употребљен у претходном тексту.
Грешка код цитирања: <ref> таг са именом „Sonka-Hlavac-Boyle-2008” дефинисан у <references> није употребљен у претходном тексту.

Грешка код цитирања: <ref> таг са именом „Forsyth-Ponce-2003” дефинисан у <references> није употребљен у претходном тексту.