Статистичка класификација

У статистици, класификација је проблем идентификовања којој од скупа категорија (подпопулација) посматрање (или запажања) припада. Примери су додељивање дате е-поште у класу „нежељена пошта” или „не-спам”, и додељивање дијагнозе датом пацијенту на основу уочених карактеристика пацијента (пол, крвни притисак, присуство или одсуство одређених симптома, итд).

Често се појединачна запажања анализирају у скуп квантитативних својстава, познатих на различите начине као објашњавајуће варијабле или карактеристике. Ова својства могу на различите начине бити категоричка (нпр. „А“, „Б“, „АБ“ или „О“, за крвну групу), редна (нпр. „велика“, „средња“ или „мала“), целобројна (нпр. број појављивања одређене речи у е-поруци) или реалне вредности (нпр. мерење крвног притиска). Други класификатори раде тако што упоређују посматрања са претходним посматрањима помоћу функције сличности или удаљености.

Алгоритам који имплементира класификацију, посебно у конкретној имплементацији, познат је као класификатор. Термин „класификатор” понекад се односи и на математичку функцију, имплементирану класификационим алгоритмом, која мапира улазне податке у категорију.

Терминологија у различитим областима је прилично разнолика. У статистици, где се класификација често врши логистичком регресијом или сличним поступком, својства запажања се називају објашњавајуће варијабле (или независне варијабле, регресори, итд), а категорије које треба предвидети познате су као исходи, за које се сматра да су могуће вредности зависне променљиве. У машинском учењу, запажања су често позната као инстанце, објашњавајуће варијабле се називају карактеристике (груписане у вектор карактеристика), а могуће категорије које треба предвидети су класе. Друге области могу користити другачију терминологију: нпр. у екологији заједнице, термин „класификација” се обично односи на кластерску анализу.

Однос према другим проблемима

уреди

Класификација и груписање су примери општијег проблема препознавања образаца, а то је додељивање неке врсте излазне вредности датој улазној вредности. Други примери су регресија, која сваком улазу додељује излаз реалне вредности; секвенционо означавање, које додељује класу сваком члану низа вредности (на пример, означавање дела говора, које додељује део говора свакој речи у улазној реченици); рашчлањивање, које додељује стабло рашчлањивања улазној реченици, описујући синтаксичку структуру реченице; итд.

Уобичајена подкласа класификације је пробабилистичка класификација. Алгоритми ове природе користе статистичко закључивање да би пронашли најбољу класу за дату инстанцу. За разлику од других алгоритама, који једноставно дају „најбољу” класу, пробабилистички алгоритми дају вероватноћу да је инстанца члан сваке од могућих класа. Најбоља класа се обично бира као она са највећом вероватноћом. Међутим, такав алгоритам има бројне предности у односу на непробабилистичке класификаторе:

  • Он може да произведе вредност поверења која је повезана са његовим избором (уопштено говорећи, класификатор који то може да уради је познат као класификатор са пондерисаним поверењем).
  • Сходно томе, може да се уздржи када је његово самопоуздање у избор било ког одређеног резултата прениско.
  • Због вероватноћа које се генеришу, пробабилистички класификатори могу бити ефикасније уграђени у веће задатке машинског учења, на начин који делимично или потпуно избегава проблем пропагације грешке.

Фреквентистичке процедуре

уреди

Рани рад на статистичкој класификацији предузео је Фишер,[1][2] у контексту проблема са две групе, што је довело до Фишерове линеарне дискриминантне функције као правила за додељивање групе новом посматрању.[3] Овај рани рад претпостављао је да вредности података унутар сваке од две групе имају мултиваријантну нормалну дистрибуцију. Проширење овог истог контекста на више од две групе је такође разматрано уз наметнуто ограничење да правило класификације треба да буде линеарно.[3][4] Каснији рад за мултиваријантну нормалну дистрибуцију омогућио је да класификатор буде нелинеаран:[5] може се извести неколико правила класификације на основу различитих прилагођавања Махаланобисове удаљености, при чему је ново посматрање додељено групи чији центар има најнижу прилагођену удаљеност од опсервације.

Бајесове процедуре

уреди

За разлику од фреквентистичких процедура, Бајесовске класификацијске процедуре обезбеђују природан начин узимања у обзир свих доступних информација о релативним величинама различитих група унутар укупне популације.[6] Бајесове процедуре имају тенденцију да буду рачунски скупе и, у данима пре него што су развијена израчунавања Марковљевог ланца Монте Карло, осмишљене су апроксимације за Бајесова правила груписања.[7]

Неке Бајесове процедуре укључују израчунавање вероватноће чланства у групи: оне дају информативнији резултат од једноставног приписивања једне ознаке групе сваком новом запажању.

Бинарна и вишекласна класификација

уреди

Класификација се може посматрати као два одвојена проблема – бинарна класификација и вишекласна класификација. У бинарној класификацији, боље разумљивом задатку, укључене су само две класе, док мултикласна класификација укључује додељивање објекта једној од неколико класа.[8] Пошто су многе методе класификације развијене посебно за бинарну класификацију, вишекласна класификација често захтева комбиновану употребу више бинарних класификатора.

Вектори карактеристика

уреди

Већина алгоритама описује појединачну инстанцу чија категорија треба да се предвиди коришћењем вектора карактеристика појединачних, мерљивих својстава инстанце. Свако својство се назива обележје, такође познато у статистици као објашњавајућа варијабла (или независна варијабла, иако карактеристике могу или не морају бити статистички независне). Функције могу бити различито бинарне (нпр. „укључено“ или „искључено“); категоричке (нпр. „А”, „Б”, „АБ” или „О”, за крвну групу); редне (нпр. „велики”, „средњи” или „мали”); са целобројним вредностима (нпр. број појављивања одређене речи у е-поруци); или реалним вредностима (нпр. мерење крвног притиска). Ако је инстанца слика, вредности карактеристика могу одговарати пикселима слике; ако је инстанца део текста, вредности обележја могу бити учесталости појављивања различитих речи. Неки алгоритми функционишу само у смислу дискретних података и захтевају да подаци са реалном или целобројном вредношћу буду дискретизовани у групе (нпр. мање од 5, између 5 и 10 или веће од 10).

Референце

уреди
  1. ^ Фисхер, Р. А. (1936). „Тхе Усе оф Мултипле Меасурементс ин Таxономиц Проблемс”. Анналс оф Еугеницс. 7 (2): 179—188. дои:10.1111/ј.1469-1809.1936.тб02137.x. хдл:2440/15227 . 
  2. ^ Фисхер, Р. А. (1938). „Тхе Статистицал Утилизатион оф Мултипле Меасурементс”. Анналс оф Еугеницс. 8 (4): 376—386. дои:10.1111/ј.1469-1809.1938.тб02189.x. хдл:2440/15232 . 
  3. ^ а б Гнанадесикан, Р. (1977) Метходс фор Статистицал Дата Аналyсис оф Мултивариате Обсерватионс, Wилеy. ISBN 0-471-30845-5 (п. 83–86)
  4. ^ Рао, C.Р. (1952) Адванцед Статистицал Метходс ин Мултивариате Аналyсис, Wилеy. (Сецтион 9ц)
  5. ^ Андерсон, Т.W. (1958) Ан Интродуцтион то Мултивариате Статистицал Аналyсис, Wилеy.
  6. ^ Биндер, D. А. (1978). „Баyесиан цлустер аналyсис”. Биометрика. 65: 31—38. дои:10.1093/биомет/65.1.31. 
  7. ^ Биндер, Давид А. (1981). „Аппроxиматионс то Баyесиан цлустеринг рулес”. Биометрика. 68: 275—285. дои:10.1093/биомет/68.1.275. 
  8. ^ Хар-Пелед, С., Ротх, D., Зимак, D. (2003) "Цонстраинт Цлассифицатион фор Мултицласс Цлассифицатион анд Ранкинг." Ин: Бецкер, Б., Тхрун, С., Обермаyер, К. (Едс) Адванцес ин Неурал Информатион Процессинг Сyстемс 15: Процеедингс оф тхе 2002 Цонференце, МИТ Пресс. ISBN 0-262-02550-7

Спољашње везе

уреди