Корелација

(преусмерено са Correlation)

Корелација (лат. con = са, relatio = однос) је међуоднос или међусобна повезаност између различитих појава представљених вредностима две варијабле. При томе повезаност значи да је вредност једне варијабле могуће с одређеном вероватноћом предвидети на основи сазнања о вредности друге. Корелација представља и образац варирања варијабли у зависности од начина на који су повезане, а који је битно другачији од њихових изолованих својстава или очекиваног начина реаговања. У социјалном раду се проучавају корелације људских односа и предузетих мера, услуга и резултата. Високе корелације (изражене коефицијентом корелације) добар су показатељ успеха неке активности. Школски примери повезаности су на пример сазнање о утицају количине салинитета на бројност неких врста риба или шкољки, или о повезаности слане хране и високог крвног притиска и сл.

Неколико скупова (xy) тачака, са Пирсоновим коефицијентом корелације са x и y за сваки скуп. Корелација одражава снагу и смер линеарне везе (горњи ред), али не и нагиб те везе (средина), нити многе аспекте нелинеарних односа (дно). Напомена: лик у центру има нагиб 0, али у том случају коефицијент корелације није дефинисан, јер варијанса Y износи нула.

У математици, променљива је услован наслов за скуп значења. Такође, променљива је број представљен словом који се добија када се од приказаног резултата бројевног израза одузме резултат свих бројева без променљиве. Свака променљива може постојати само у контексту, јер свака променљива је сама по себи асоцирана са датим скупом значења, изван којег она ништа не значи. Променљиве су инструменти логике који чине основицу савремене математике; оне су тамо, можда, најважнији прибор апстракције. Појам променљива је постао део математичког језика током развоја аналитичке геометрије.

Промена вредности једне варијабле утиче на промене друге варијабле. Варијабла која својом вредношћу утиче на другу назива се независна варијабла. Варијабла на коју она утиче назива се зависна варијабла. На пример, уношење више соли у организам утиче на пораст крвног притиска, док пораст крвног притиска не утиче на повећање уношења соли у организам. У овом примеру унос соли је независна, а повећање крвног притиска је зависна варијабла. Могући су случајеви да две варијабле истовремено утичу једна на другу, па су у том случају обе варијабле истовремено и зависне и независне.[1][2][3]

Пирсонов коефицијент производ-момената

уреди
 
Распршени дијаграми примера различитих скупова података са различитим коефицијентима корелације.

Дефиниција

уреди

Најпознатија мера зависности између две величине је Пирсонов коефицијент корелације производа и тачака (PPMCC), или Пирсонов коефицијент корелације, који се обично назива једноставно коефицијент корелације. Математички је дефинисан као квалитет најмањих квадрата који одговарају изворним подацима. Добија се узимајући однос коваријанције две варијабле о којима је реч у датом нумеричком скупу података, нормализован на квадратни корен њихове варијансе. Математички се једноставно дели коваријанса две варијабле са умношком њихове стандардне девијације. Карл Пирсон развио је коефицијент из сличне, али мало другачије идеје Френсиса Галтона.[4]

Пирсонов коефицијент корелације производа и тренутка покушава да успостави линију која најбоље пролази кроз скуп података од две варијабле, у основи постављајући очекиване вредности, а резултирајући Пирсонов коефицијент корелације показује колико је стварни скуп података удаљен од очекиваних вредности. Зависно од предзнака датог Пирсоновог коефицијента корелације, може се наћи негативна или позитивна корелација, ако постоји било каква веза између варијабли посматраних скупова података.

Коефицијент корелације популације   између две случајне варијабле   и   са очекиваном вредностима   и   и стандардном девијацијом   и   дефинисана је као:

 

где је   очекивана вредност оператора,   средње коваријансе, а   је широко кориштена алтернативна нотација коефицијента корелације. Пирсонова корелација је дефинисана само ако су обе стандардне девијације коначне и позитивне. Алтернативна формула чисто у смислу момент је:

 

је широко кориштена алтернативна нотација коефицијента корелације. Пирсонова корелација је дефинисана само ако су обе стандардне девијације коначне и позитивне. Алтернативна формула чисто у смислу момента је:  . То се потврђује комутативним својством множења.

Корелација и независност

уреди

Последица је Коши-Шварцова неједнакост да апсолутна вредност Пирсоновог коефицијента корелације није већа од 1. Стога се вредност коефицијента корелације креће између –1 и +1. Коефицијент корелације је +1 у случају савршене директне (растуће) линеарне везе (корелације), –1 у случају савршене инверзне (опадајуће) линеарне везе (антикорелација),[5] и нека вредност у отвореном интервалу  у свим осталим случајевима, указујући на ступањ линеарне зависности између варијабли. Како се приближава нули, мање је односа (ближи некорелираним). Што је коефицијент ближи или −1 или +1, то је јача корелација између варијабли.

Ако су варијабле независне, Пирсонов коефицијент корелације је 0, али обрнуто није тачно, јер коефицијент корелације открива само линеарне зависности између две варијабле.

 

На пример, ако се претпостави да је случајна варијабла   симетрично распоређена око нуле, а и  . Тада је   у потпуности одређен  , тако да   и   савршено зависе, али њихова корелација је нула; они су неповезани. Међутим, у посебном случају када су   и   заједнички нормална, неусклађеност је еквивалентна независности.

Иако некорелисани подаци не подразумевају нужно независност, може се проверити да ли су случајне варијабле независне ако је њихова међусобна информација 0.

Коефицијент корелације узорка

уреди

С обзиром на низ  мери пар   индексиран са  , коефицијент корелације узорка може се користити за процену Пирсонове корелације популације   između   i  . Коефицијент корелације узорка дефинисан је као:

 

где су   и   просеци узорака   и  , а   и   су кориговане стандардне девијације   и  .

Еквивалентни изрази за   су

 

где су   и   некориговане стандардне девијације узорака   и  .

Ако су   и   резултати мерења који садрже грешку мерења, реална ограничења коефицијента корелације нису од -1 до +1, али су у мањем распону.[6] За случај линеарног модела с једном независном варијаблом, коефицијент детерминације (Р квадрат) је квадрат  , Пирсоновог коефицијента произвођмомент.

Пример

уреди

Размотримо заједничку расподелу вероватноће   и   дате у доњој табели. Размотримо заједничку расподелу вероватноће   и   дату у доњој табели.

       
       
       

За ову заједничку дистрибуцију, маргиналне расподеле су:

 
 

Ово даје следећа очекивања и одступања:

 
 
 
 

Стога:

 

Однос између варијабли

уреди

Међуоднос између две варијабле, може се графички приказати помоћу дводимензионог графикона, тзв. дијаграма распршења. Вредности једне варијабле приказане су на x оси, а друге на y оси дијаграма. Тачке пресека крећу се око одређеног правца који се назива линија регресије. Што су тачке ближе правцу, корелација је већа, а што су распршеније корелација је мања. Осим у случају „савршене“ корелације, у пракси је визуелно врло тешко одредити степен повезаности између варијабли. Зависно од међусобном односу две варијабле међу којима постоји корелација, она може бити линеарна или нелинеарна. Код линеарне корелације, тачке су групиране око правца. Код нелинеарне корелације, оне су групиране око неке друге криве.

Две проматране варијабле с циљем утврђивања њихове корелацијске повезаности могу имати четири различите релације:

  1. Позитивна корелација је онда када мала вредност једне варијабле одговара малој вредности друге, као и када велика вредност једне варијабле одговара великој вредности друге.
  2. Негативна корелација јавља се када мала вредност једне варијабле одговара великој вредности друге и обратно.
  3. Немонотону корелацију обележава појава да вредност једне варијабле у неким интервалима одговара малој вредности друге варијабле, а у другим интервалима великој вредности. Ако се корелација више него једном мења од позитивне према негативној, таква корелација назива се циклична корелација.
  4. Корелација не постоји у примерима када се на основу вредности једне варијабле не може ништа закључити нити претпоставити о вредности друге варијабле, тада. У таквом графикону, тачке су распршене.

Коефицијенти корелације

уреди

Коефицијенти корелације изражавају меру повезаности између две варијабле у јединицама које су независне о конкретним јединицама мере у којима су исказане вредности варијабли. Постоји више коефицијената корелације који се користе у различитим случајевима. Приликом анализе линеарних модела, у пракси се најчешће користи Пирсонов коефицијент корелације. У моделима који нису линеарни, најчешће се користи Спирманов коефицијент корелације.

Пирсонов коефицијент корелације

уреди
 
Пример распршених дијаграма различитих скупова података с различитим коефицијентима корелације

Пирсонов коефицијент корелације користи се у случајевима када између варијабли датог модела постоји линеарна повезаност и непрекидна нормална дистрибуција. Вредност Пирсоновог коефицијента корелације креће се од +1 (савршена позитивна корелација) до –1 (савршена негативна корелација). Предзнак коефицијента упућује на смер корелације: да ли је позитивна или негативна, али нас упућује и на снагу корелације. Пирсонов коефицијент корелације базира се на поређењу стварног међуутицаја проматраних варијабли, у односу на максимални могући утицај две варијабли. Означава се малим словом r. За прорачун коефицијента корелације потребна су три различите суме квадрата (SS): сума квадрата варијабле X, сума квадрата варијабле Y и сума умножака варијабли X и Y.

Сума квадрата варијабле X једнака је збитру квадрата одступања вредности варијабле X од њезине просечне вредности:

 

Просечна вредност варијабле X једнака је:

 

Збир квадрата варијабле Y једнак је суми квадрата одступања вредности варијабле Y од њене просечне вредности:

 

Просечна вредност варијабле Y једнака је:

 

Збир умножака варијабли X и Y једнака је суми умножака одступања вредности варијабли X и Y од њихових просека:

 

Коефицијент корелације једнак је односу:

 

У случају да међу варијаблама не постоји линеарна повезаност, може се извести одговарајућа трансформација којом се вредности варијабли модела своде на линеарне.

Спирманов коефицијент корелације

уреди

Спирманов коефицијент корелације (корелација рангова) користи се за мерење повезаности међу варијаблама у случајевима када није могуће применити Пирсонов коефицијент корелације. Темељи се на мери доследности повезаности између поређених варијабли, а облик повезаности (нпр. линеарни облик који је предуслов за кориштење Пирсоновог коефицијента) није битан. Случајеви у којима се користи Спирманов коефицијент су нпр. када међу варијаблама не постоји линеарна веза, а није могуће применити одговарајућу трансформацију којом би се повезаност превела у линеарну (нпр. веза између сеизмичког атрибута и бушотинског података у нафтној геологији).

Спирманов коефицијент корелације као резултат даје приближну вредност коефицијента корелације који се сматра његовом довољно добром приближном вредношћу. Приликом анализе Спирмановог коефицијента, вредности варијабли потребно је рангирати и на такав начин свести на заједничку меру. Најједноставнији начин рангирања је да се најмањој вредности сваке варијабле додели ранг 1, следећој по величини ранг 2 и тако све до последње, којој се приписује максималан ранг. Израчунавање коефицијента ради се кориштењем вредности приписаних рангова. Спирманов коефицијент означавају се као   ili  ,

Формула за израчун Спиармановог коефицијента корелације је:

 

где је d разлика вредности рангова две проматране варијабле, а n је број различитих серија.

Види још

уреди

Референце

уреди
  1. ^ Croxton, Frederick Emory; Cowden, Dudley Johnstone; Klein, Sidney (1968). Applied General Statistics. Pitman. ISBN 9780273403159. . (page 625)
  2. ^ Dietrich, Cornelius Frank (1991). Uncertainty, Calibration and Probability: The Statistics of Scientific and Industrial Measurement (2nd изд.). CRC Press. ISBN 9780750300605. . A. Higler. (Page 331)
  3. ^ Aitken, Alexander Craig (1957). Statistical Mathematics (8th изд.). Oliver & Boyd. ISBN 9780050013007. . (Page 95)
  4. ^ Rodgers, J. L.; Nicewander, W. A. (1988). „Thirteen ways to look at the correlation coefficient”. The American Statistician. 42 (1): 59—66. JSTOR 2685263. doi:10.1080/00031305.1988.10475524. 
  5. ^ Dowdy, S. and Wearden, S. "Statistics for Research", Wiley. Dowdy, Shirley; Wearden, Stanley (1983). Statistics for Research. Wiley. стр. 230. ISBN 0-471-08602-9. 
  6. ^ Francis, DP; Coats, A. J.; Gibson, D. (1999). „How high can a correlation coefficient be?”. Int J Cardiol. 69 (2): 185—199. PMID 10549842. doi:10.1016/S0167-5273(99)00028-5. 

Литература

уреди
  • Овај чланак или његов део изворно је преузет из Речника социјалног рада Ивана Видановића уз одобрење аутора.
  • Cohen, J.; Cohen P.; West, S.G.; Aiken, L.S. (2002). Applied multiple regression/correlation analysis for the behavioral sciences (3rd изд.). Psychology Press. ISBN 978-0-8058-2223-6.  Непознати параметар |name-list-style= игнорисан (помоћ)
  • Hazewinkel Michiel, ур. (2001). „Correlation (in statistics)”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104. 
  • Oestreicher, J. & D. R. (26. 2. 2015). Plague of Equals: A science thriller of international disease, politics and drug discovery. California: Omega Cat Press. стр. 408. ISBN 978-0963175540. 
  • J. Edwards (1892). Differential Calculus. London: MacMillan and Co. стр. 1 ff. ISBN 978-0-598-54636-4. 
  • Karl Menger (август 1954). „On Variables in Mathematics and in Natural Science”. The British Journal for the Philosophy of Science. 5 (18): 134—142. JSTOR 685170. doi:10.1093/bjps/V.18.134. ,
  • Jaroslav Peregrin, "Variables in Natural Language: Where do they come from?", in M. Boettner, W. Thümmel, eds., Variable-Free Semantics, 2000, pp. 46–65.
  • W.V. Quine. „Variables Explained Away”. Proceedings of the American Philosophical Society. 104: 343—347. , . (1960).

Спољашње везе

уреди