Regresiona analiza

Regresiona analiza kao pojam se vezuje za utvrđivanje međusobnih odnosa između dve ili više pojava. Može nas, na primer, interesovati zavisnost između vremena provedenog u spremanju ispita i dobijene ocene na ispitu, zarada zaposlenih i njihovog obrazovanja, kamatne stope i ponude novca... Kako bismo utvrdili da li su i u kojoj meri ove pojave zavisne, pravimo regresioni model.[1] Regresiona analiza ima široku primenu u predviđanju i prognoziranju[2] pojava u raznim oblastima, kao što su ekonomija, medicina, psihologija, istorija...

Primer linearne regresije

Regresiona analiza se prvenstveno koristi u dve konceptualno različite svrhe. Prvo, regresiona analiza se široko koristi za predviđanje i prognoziranje, gde se njena upotreba značajno preklapa sa poljem mašinskog učenja. Drugo, u nekim situacijama se regresiona analiza može koristiti da se zaključi uzročno-posledična veza između nezavisnih i zavisnih varijabli. Važno je da regresije same po sebi otkrivaju samo odnose između zavisne promenljive i kolekcije nezavisnih varijabli u fiksnom skupu podataka. Da bi se koristile regresije za predviđanje ili da bi se izvele uzročne veze, istraživač mora pažljivo da obrazloži zašto postojeći odnosi imaju prediktivnu moć za novi kontekst ili zašto odnos između dve varijable ima kauzalnu interpretaciju. Ovo poslednje je posebno važno kada se istraživači nadaju da će proceniti uzročne veze koristeći podatke posmatranja.[3][4]

Istorija

uredi

Najraniji oblik regresije bila je metoda najmanjih kvadrata, koju su objavili Ležandr 1805. godine,[5] i Gaus 1809. godine.[6] Ležandr i Gaus su primenili metodu na problem određivanja iz astronomskih posmatranja orbita tela oko Sunca (uglavnom kometa, ali kasnije i novootkrivenih malih planeta). Gaus je objavio dalji razvoj teorije najmanjih kvadrata 1821. godine,[7] uključujući verziju Gaus-Markovljeve teoreme.

Termin „regresija“ je skovao Frensis Galton u 19. veku da bi opisao jedan biološki fenomen. Fenomen je bio da visine potomaka visokih predaka imaju tendenciju da regresiraju ka normalnom proseku (fenomen takođe poznat kao regresija ka srednjoj vrednosti).[8][9] Za Galtona, regresija je imala samo ovo biološko značenje,[10][11] ali su Judni Jul i Karl Pirson kasnije proširili njegov rad na opštiji statistički kontekst.[12][13] U radu Jula i Pirsona, zajednička raspodela responsa i objašnjavajućih varijabli uzima se da podleže Gausovoj raspodeli. Ovu pretpostavku je oslabio R.A. Fišer u svojim delima iz 1922. i 1925. godine.[14][15][16] Fišer je pretpostavio da je uslovna distribucija varijable responsa opisana Gausovom raspodelom, ali da zajednička distribucija ne mora biti. U tom pogledu, Fišerova pretpostavka je bliža Gausovoj formulaciji iz 1821. godine.

Tokom 1950-ih i 1960-ih, ekonomisti su koristili elektromehaničke stone kalkulatore za izračunavanje regresije. Pre 1970, ponekad je trebalo i do 24 sata da se dobije rezultat jedne regresije.[17]

Pojam regresione analize

uredi

U statističkom modelovanju, regresiona analiza je skup statističkih procedura pomoću kojih ocenjujemo međusobnu povezanost zavisne promenljive (kriterijumske promenljive), koju obično označavamo sa    i nezavisnih promenljivih (prediktorske promenljive, regresori, faktori...), koje obično označavamo sa  ,  , ...,   gde je    broj nezavisnih promenljivih.[18] Tačnije, rezultati dobijeni regresionom analizom nam govore kako se vrednost zavisne promenljive menja kada se promeni vrednost jedne nezavisne promenljive, dok su vrednosti ostalih nezavisnih promenljivih fiksirane. Osnovni zadatak regresione analize je aproksimacija regresione funkcije kojom se predstavlja veza između zavisne i nezavisnih promenljivih.  Regresiona analiza se takođe koristi za ocenjivanje funkcionalne zavisnosti između zavisne i nezavisnih promenljivih, kao i prirode te zavisnosti.

Podela metoda regresione analize

uredi

Prema broju nezavisnih promenljivih u regresionom modelu, razlikujemo:

Prema vrsti zavisne promenljive, regresioni modeli mogu da budu:

  • Modeli sa kontinuiranom zavisnom promenljivom
  • Modeli sa kategoričkom zavisnom promenljivom, koja nije dihotomna, već uzima više od dve vrednosti (kategorije)
  • Modeli sa dihotomnom zavisnom promenljivom, koji predstavljaju specijalan slučaj modela sa kategoričkom zavisnom promenljivom, jer zavisna promenljiva može uzimati samo dve vrednosti[26]

Prema prirodi veze između zavisne i nezavisnih promenljivih, regresija može da bude:

Prema broju zavisnih promenljivih, regresioni model može biti:

  • Univarijantni regresioni model, tj. model koji ima jednu zavisnu promenljivu
  • Multivarijantni regresioni model, kod koga postoji više zavisnih promenljivih zbog čega se on sastoji iz više regresionih jednačina[27]

Primena regresione analize

uredi

Koncept regresije je lako razumljiv i implementiran je u skoro svakom statističkom paketu, a omogućava ispitivanje funkcionalne zavisnosti između promenljivih, pa kao takav leži u osnovi mnogih savremenih statističkih tehnika. Zato se primena regresione analize može naći u skoro svim akademskim oblastima ili primenjenoj nauci danas. Neki od primera su:

  • Ekonomija- predviđanje potrošnje, predviđanje kretanja cena akcija na berzi i dr.[28]
  • Psihologija- uticaj inteligencije na postignuća pojedinaca, uticaj načina vaspitanja i kulturnih vrednosti pojedinaca na njihova postignuća u školi i sl.
  • Poljoprivreda- kako predvideti količinu roda pšenice na osnovu poznavanja skupa drugih podataka (broj sunčanih i kišnih dana u godini, semena i veštačkog đubriva koje se koristi...)
  • Istorija- kako proceniti starost nekog objekta na osnovu poznatih karakteristika objekta.
  • Politika- predviđanje kretanja stanovništva na osnovu poznavanja pola, stope nezaposlenosti, visine primanja u nekom regionu

Poreklo reči regresija

uredi

Frensis Galton (engl. Francis Galton) je 1877. godine, u Engleskoj, predstavio rad „Tipični zakoni nasleđa“, u kome je izložio koncept regresije.[29] On je otkrio vezu između veličine zrna graška roditeljske biljke i veličine zrna graška biljke potomka. Ustanovio je da je ova veza približno linearna. Takođe je utvrdio da veličina zrna „regresira“ ka srednjoj vrednosti. Ovaj fenomen je nazvao „regresija ka mediokritetu“.

Reference

uredi
  1. ^ „Necessary Condition Analysis - Erasmus Research Institute of Management - ERIM”. www.erim.eur.nl (na jeziku: engleski). Pristupljeno 19. 5. 2018. 
  2. ^ French, Jordan (2017). „The time traveller's CAPM”. Investment Analysts Journal. 46 (2): 81—96. S2CID 157962452. doi:10.1080/10293523.2016.1255469. 
  3. ^ David A. Freedman (27. 4. 2009). Statistical Models: Theory and Practice. Cambridge University Press. ISBN 978-1-139-47731-4. 
  4. ^ Cook, R. Dennis; Weisberg, Sanford (1982). „Criticism and Influence Analysis in Regression”. Sociological Methodology. 13: 313—361. JSTOR 270724. doi:10.2307/270724. 
  5. ^ A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix.
  6. ^ Chapter 1 of: Angrist, J. D., & Pischke, J. S. Mostly Harmless Econometrics: An Empiricist's Companion. Princeton University Press. 2008. .
  7. ^ C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823)
  8. ^ Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. str. 59. ISBN 978-0-7575-1181-3. 
  9. ^ Galton, Francis (1989). „Kinship and Correlation (reprinted 1989)”. Statistical Science. 4 (2): 80—86. JSTOR 2245330. doi:10.1214/ss/1177012581 . 
  10. ^ Francis Galton. „Typical laws of heredity”. Nature. 15 (388): 492—495. 1877. Bibcode:1877Natur..15..492.. doi:10.1038/015492a0. , 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.)
  11. ^ Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.)
  12. ^ Yule, G. Udny (1897). „On the Theory of Correlation”. Journal of the Royal Statistical Society. 60 (4): 812–54. JSTOR 2979746. doi:10.2307/2979746. 
  13. ^ Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee, Alice (1903). „The Law of Ancestral Heredity”. Biometrika. 2 (2): 211—236. JSTOR 2331683. doi:10.1093/biomet/2.2.211. 
  14. ^ Fisher, R.A. (1922). „The goodness of fit of regression formulae, and the distribution of regression coefficients”. Journal of the Royal Statistical Society. 85 (4): 597—612. JSTOR 2341124. PMC 1084801 . doi:10.2307/2341124. 
  15. ^ Ronald A. Fisher (1954). Statistical Methods for Research Workers  (Twelfth izd.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5. 
  16. ^ Aldrich, John (2005). „Fisher and Regression”. Statistical Science. 20 (4): 401–417. JSTOR 20061201. doi:10.1214/088342305000000331 . 
  17. ^ Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03.
  18. ^ Nagahara, Yuichi (jul 1999). „The PDF and CF of Pearson type IV distributions and the ML estimation of the parameters”. Statistics & Probability Letters. 43 (3): 251—264. ISSN 0167-7152. doi:10.1016/s0167-7152(98)00265-x. 
  19. ^ Seltman, Howard J. (2008-09-08). Experimental Design and Analysis (PDF). str. 227. 
  20. ^ „Statistical Sampling and Regression: Simple Linear Regression”. Columbia University. Arhivirano iz originala 11. 12. 2017. g. Pristupljeno 2016-10-17. „When one independent variable is used in a regression, it is called a simple regression;(...) 
  21. ^ Lane, David M. Introduction to Statistics (PDF). str. 462. 
  22. ^ Zou KH; Tuncali K; Silverman SG (2003). „Correlation and simple linear regression.”. Radiology (na jeziku: engleski). 227 (3): 617—22. ISSN 0033-8419. OCLC 110941167. PMID 12773666. doi:10.1148/radiol.2273011499. 
  23. ^ Altman, Naomi; Krzywinski, Martin (2015). „Simple linear regression”. Nature Methods (na jeziku: engleski). 12 (11): 999—1000. ISSN 1548-7091. OCLC 5912005539. PMID 26824102. doi:10.1038/nmeth.3627. 
  24. ^ Yin-Wen Chang; Cho-Jui Hsieh; Kai-Wei Chang; Ringgaard, Michael; Chih-Jen Lin (2010). „Training and testing low-degree polynomial data mappings via linear SVM”. Journal of Machine Learning Research. 11: 1471—1490. 
  25. ^ Smith, Kirstine (1918). „On the Standard Deviations of Adjusted and Interpolated Values of an Observed Polynomial Function and its Constants and the Guidance They Give Towards a Proper Choice of the Distribution of the Observations”. Biometrika. 12 (1/2): 1—85. JSTOR 2331929. doi:10.2307/2331929. 
  26. ^ Armstrong, J. Scott (jul 2012). „Illusions in regression analysis”. International Journal of Forecasting. 28 (3): 689—694. ISSN 0169-2070. doi:10.1016/j.ijforecast.2012.02.001. 
  27. ^ Chiang, Chin Long (2003). Statistical Methods of Analysis (na jeziku: engleski). World Scientific. ISBN 9789812383105. 
  28. ^ Ramcharan, Rodney (2003). „Reputation, Debt, and Policy Conditionality”. IMF Working Papers. 03 (192): 1. ISSN 1018-5941. doi:10.5089/9781451859782.001. 
  29. ^ „Typical Laws of Heredity 1”. Nature. 15 (389): 512—514. april 1877. Bibcode:1877Natur..15R.512.. ISSN 0028-0836. doi:10.1038/015512b0. 

Literatura

uredi
Evan J. Williams, "I. Regression," pp. 523–41.
Julian C. Stanley, "II. Analysis of Variance," pp. 541–554.

Spoljašnje veze

uredi