Medijana (statistika)
Medijana se u teoriji verovatnoće i statistici opisuje kao broj koji razdvaja gornju polovinu uzorka, populacije ili raspodele verovatnoće od donje polovine. Medijana konačnog niza brojeva se može naći tako što se brojevi poređaju po veličini, i uzme se srednji član niza. Ukoliko postoji paran broj članova niza, medijana nije jedinstvena, pa se često uzima aritmetička sredina dve vrednosti koje su kandidati za medijanu.
Konačan skup podataka brojeva
urediMedijana konačne liste brojeva je „srednji“ broj, kada su ti brojevi navedeni po redu od najmanjeg do najvećeg.
Ako skup podataka ima neparan broj posmatranja, bira se srednji. Na primer, sledeća lista od sedam brojeva,
- 1, 3, 3, 6, 7, 8, 9
ima medijanu 6, što je četvrta vrednost.
Ako skup podataka ima paran broj zapažanja, ne postoji jasna srednja vrednost i medijana se obično definiše kao aritmetička sredina dve srednje vrednosti.[1][2] Na primer, ovaj skup podataka od 8 brojeva
- 1, 2, 3, 4, 5, 6, 8, 9
ima srednju vrednost od 4,5, odnosno . (U više tehničkom smislu, ovo tumači medijanu kao potpuno skraćeni srednji opseg).
Generalno, sa ovom konvencijom, medijana se može definisati na sledeći način: Za skup podataka od elemenata, poređanih od najmanjeg do najvećeg,
- ako je neparno,
- ako je parno,
Tip | Opis | Primer | Rezultat |
---|---|---|---|
Aritmetička sredina | Zbir vrednosti skupa podataka podeljen brojem vrednosti: | (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 | 4 |
Medijana | Srednja vrednost koja razdvaja veću i manju polovinu skupa podataka | 1, 2, 2, 3, 4, 7, 9 | 3 |
Mod | Najčešća vrednost u skupu podataka | 1, 2, 2, 3, 4, 7, 9 | 2 |
Formalna definicija
urediFormalno, medijana populacije je svaka vrednost takva da je najviše polovina populacije manja od predložene medijane, a najviše polovina veća od predložene medijane. Kao što se vidi gore, medijane ne moraju da budu jedinstvene. Ako svaki skup sadrži manje od polovine populacije, onda je deo populacije tačno jednak jedinstvenoj medijani.
Medijana je dobro definisana za sve uređene (jednodimenzionalne) podatke i nezavisna je od bilo koje metrike udaljenosti. Medijana se stoga može primeniti na klase koje su rangirane, ali ne i numeričke (npr. izrada srednje ocene kada su učenici ocenjeni od A do F), iako rezultat može biti na pola puta između klasa ako postoji paran broj slučajeva.
S druge strane, geometrijska medijana je definisana u bilo kom broju dimenzija. Srodni koncept, u kome je ishod primoran da odgovara članu uzorka, je medoid.
Ne postoji široko prihvaćena standardna notacija za medijanu, ali neki autori predstavljaju medijanu promenljive x bilo kao x͂ ili kao μ1/2[1], ponekad i M.[3][4] U bilo kom od ovih slučajeva, upotreba ovih ili drugih simbola za medijanu treba da bude eksplicitno definisana kada se oni uvode.
Medijana je poseban slučaj drugih načina sumiranja tipičnih vrednosti povezanih sa statističkom distribucijom: to je 2. kvartal, 5. decil i 50. percentil.
Upotrebe
urediMedijana se može koristiti kao mera lokacije kada se pridaje smanjeni značaj ekstremnim vrednostima, obično zato što je distribucija iskrivljena, ekstremne vrednosti nisu poznate ili su odstupnici nepouzdani, tj. mogu biti greške merenja/transkripcije.
Na primer, može se razmotriti multiset
- 1, 2, 2, 2, 3, 14.
Medijan je u ovom slučaju 2 (kao i mod), i može se posmatrati kao bolja indikacija centra od aritmetičke sredine od 4, koja je veća od svih vrednosti osim jedne. Međutim, široko citirani empirijski odnos da je srednja vrednost pomerena „dalje u rep“ distribucije od medijane generalno nije tačna. Uglavnom se može reći da ove dve statistike ne mogu biti „previše udaljene”; videti § Nejednakost srednje vrednosti i medijane u nastavku.[5]
Kako je medijana zasnovana na srednjim podacima u skupu, nije potrebno znati vrednost ekstremnih rezultata da bi se izračunala. Na primer, u psihološkom testu koji istražuje vreme potrebno za rešavanje problema, ako mali broj ljudi uopšte nije uspeo da reši problem u datom vremenu, medijana se ipak može izračunati.[6]
Pošto je medijana jednostavna za razumevanje i lako se izračunava, a takođe je robusna aproksimacija srednje vrednosti, ona je popularna sumarna statistika u deskriptivnoj statistici. U ovom kontekstu, postoji nekoliko izbora za meru varijabilnosti: opseg, interkvartilni opseg, srednju apsolutnu devijaciju i srednju apsolutnu devijaciju.
U praktične svrhe, različite mere lokacije i disperzije se često porede na osnovu toga koliko dobro se odgovarajuće vrednosti populacije mogu proceniti iz uzorka podataka. Medijana, procenjena korišćenjem medijane uzorka, ima dobra svojstva u ovom pogledu. Iako obično to nije optimalno ako se pretpostavi data distribucija populacije, njena svojstva su uvek razumno dobra. Na primer, poređenje efikasnosti kandidata za procenu pokazuje da je srednja vrednost uzorka statistički efikasnija kada — i samo kada — podaci nisu kontaminirani podacima iz distribucija teškog repa ili iz mešavina distribucija. Čak i tada, medijana ima efikasnost od 64% u poređenju sa srednjom minimalnom varijansom (za velike normalne uzorke), iz čega proizilazi da će varijansa medijane biti ~50% veća od varijanse srednje vrednosti.[7][8]
Raspodele verovatnoće
urediZa bilo koju kumulativnu distribuciju verovatnoće F realne, medijana je definisana kao bilo koji realan broj m koji zadovoljava nejednakosti
- .
Ekvivalentna fraza koristi slučajnu promenljivu X distribuiranu prema F:
Treba imati na umu da ova definicija ne zahteva da X ima apsolutno kontinuiranu distribuciju (koja ima funkciju gustine verovatnoće ƒ), niti zahteva diskretnu distribuciju. U prvom slučaju, nejednakosti se mogu nadograditi na jednakost: medijana zadovoljava
- .
Svaka distribucija verovatnoće na R ima najmanje jednu medijanu, mada u patološkim slučajevima može biti više od jedne medijane: ako je F konstanta 1/2 na intervalu (tako da je ƒ=0 tamo), onda je bilo koja vrednost tog intervala medijana.
Primer
urediZa niz brojeva 1, 3, 8, 9, 10, aritmetička sredina je (1+3+8+9+10)/5 = 6.2, a medijana je 8.
Za niz brojeva 1, 3, 5, 8, 9, 10, aritmetička sredina je (1+3+5+8+9+10)/6 = 6, a medijana je (5+8)/2 = 6.5
Reference
uredi- ^ a b Weisstein, Eric W. „Statistical Median”. MathWorld.
- ^ Simon, Laura J.; "Descriptive statistics" Arhivirano 2010-07-30 na sajtu Wayback Machine, Statistical Education Resource Kit, Pennsylvania State Department of Statistics
- ^ David J. Sheskin (27. 8. 2003). Handbook of Parametric and Nonparametric Statistical Procedures: Third Edition. CRC Press. str. 7—. ISBN 978-1-4200-3626-8. Pristupljeno 25. 2. 2013.
- ^ Derek Bissell (1994). Statistical Methods for Spc and Tqm. CRC Press. str. 26—. ISBN 978-0-412-39440-9. Pristupljeno 25. 2. 2013.
- ^ Paul T. von Hippel (2005). „Mean, Median, and Skew: Correcting a Textbook Rule”. Journal of Statistics Education, V13n2. Arhivirano iz originala 20. 02. 2016. g. Pristupljeno 18. 12. 2021.
- ^ Robson, Colin (1994). Experiment, Design and Statistics in Psychology. Penguin. str. 42–45. ISBN 0-14-017648-9.
- ^ Williams, D. (2001). Weighing the Odds . Cambridge University Press. str. 165. ISBN 052100618X.
- ^ Maindonald, John; Braun, W. John (2010-05-06). Data Analysis and Graphics Using R: An Example-Based Approach (na jeziku: engleski). Cambridge University Press. str. 104. ISBN 978-1-139-48667-5.
- ^ „AP Statistics Review - Density Curves and the Normal Distributions”. Arhivirano iz originala 8. 4. 2015. g. Pristupljeno 16. 3. 2015.
Literatura
uredi- Brown, George W. (decembar 1947). „On Small-Sample Estimation”. The Annals of Mathematical Statistics. 18 (4): 582—585. doi:10.1214/aoms/1177730349.
- Lehmann, E. L. (1951). „A General Concept of Unbiasedness”. The Annals of Mathematical Statistics. 22 (4): 587—592. doi:10.1214/aoms/1177729549.
- Birnbaum, Allan (1961). „A Unified Theory of Estimation, I”. The Annals of Mathematical Statistics. 32 (1): 112—135. doi:10.1214/aoms/1177705145.
- Van Der Vaart, H. R. (1961). „Some Extensions of the Idea of Bias”. The Annals of Mathematical Statistics. 32 (2): 436—447. doi:10.1214/aoms/1177705051.
- Pfanzagl Johann, with the assistance of R. Hamböker (1994). Parametric Statistical Theory. Walter de Gruyter. ISBN 978-3-11-01-3863-4.
- Stuart, Alan; Ord, Keith; Arnold, Steven [F.] (2010). Classical Inference and the Linear Model. Kendall's Advanced Theory of Statistics. 2A. Wiley. ISBN 978-0-4706-8924-0..
- Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1993). Unbiased estimators and their applications. 1: Univariate case. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-2382-3.
- Voinov, Vassily [G.]; Nikulin, Mikhail [S.] (1996). Unbiased estimators and their applications. 2: Multivariate case. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-3939-8.
- Klebanov, Lev [B.]; Rachev, Svetlozar [T.]; Fabozzi, Frank [J.] (2009). Robust and Non-Robust Models in Statistics. New York: Nova Scientific Publishers. ISBN 978-1-60741-768-2.
- Richard Arnold Johnson; Dean W. Wichern (2007). Applied Multivariate Statistical Analysis. Pearson Prentice Hall. ISBN 978-0-13-187715-3. Pristupljeno 10. 8. 2012.
- Hardy, M. (1. 3. 2003). „An Illuminating Counterexample”. American Mathematical Monthly. 110 (3): 234—238. ISSN 0002-9890. JSTOR 3647938. arXiv:math/0206006 . doi:10.2307/3647938.
- Pfanzagl, Johann (1979). „On optimal median unbiased estimators in the presence of nuisance parameters”. The Annals of Statistics. 7 (1): 187—193. doi:10.1214/aos/1176344563 .
- Brown, L. D.; Cohen, Arthur; Strawderman, W. E. (1976). „A Complete Class Theorem for Strict Monotone Likelihood Ratio With Applications”. Ann. Statist. 4 (4): 712—722. doi:10.1214/aos/1176343543 .
- Dodge, Yadolah, ur. (1987). Statistical Data Analysis Based on the L1-Norm and Related Methods. Papers from the First International Conference held at Neuchâtel, August 31–September 4, 1987. Amsterdam: North-Holland. ISBN 0-444-70273-3.
- Jaynes, E. T. (2007). Probability Theory : The Logic of Science. Cambridge: Cambridge Univ. Press. str. 172. ISBN 978-0-521-59271-0.
- Klebanov, Lev B.; Rachev, Svetlozar T.; Fabozzi, Frank J. (2009). „Loss Functions and the Theory of Unbiased Estimation”. Robust and Non-Robust Models in Statistics. New York: Nova Scientific. ISBN 978-1-60741-768-2.
Dodatna literatura
uredi- „Fast Computation of the Median by Successive Binning”. arXiv:abs/0806.3301 Proverite vrednost parametra
|arxiv=
(pomoć).
Spoljašnje veze
uredi- Hazewinkel Michiel, ur. (2001). „Median (in statistics)”. Encyclopaedia of Mathematics. Springer. ISBN 978-1556080104.
- Median as a weighted arithmetic mean of all Sample Observations
- On-line calculator Arhivirano na sajtu Wayback Machine (17. maj 2020)
- Calculating the median
- A problem involving the mean, the median, and the mode.
- Weisstein, Eric W. „Statistical Median”. MathWorld.
- Python script Arhivirano na sajtu Wayback Machine (25. mart 2010) for Median computations and income inequality metrics
- 'Mean, median, mode and skewness', A tutorial devised for first-year psychology students at Oxford University, based on a worked example.
- The Complex SAT Math Problem Even the College Board Got Wrong: Andrew Daniels in Popular Mechanics