Modus (statistika)

(преусмерено са Mode (statistics))

Modus je vrednost koja se u uzorku ili grupi podataka pojavljuje najčešće.[1] Zajedno sa aritmetičkom sredinom, medijanom, standardnom devijacijom itd. ulazi među mere koje sa najčešće koriste u deskriptivnoj statistici. Ako je X diskretna slučajna promenljiva, modus je vrednost x (i.e, X = x) pri kojoj funkcija mase verovatnoće uzima svoju maksimalnu vrednost. Drugim rečima, to je vrednost s najvećom verovatnoćom da bude uzorkovana.

Poput statističke sredine i medijane, modus je način izražavanja, (obično) pojedinačnog broja, važnih informacija o slučajnoj promenljivoj ili populaciji. Numerička vrednost modusa je ista kao i srednja vrednost i medijana u normalnoj raspodeli, a može biti veoma različita u veoma iskrivljenim raspodelama.

Modus nije nužno jedinstven za datu diskretnu raspodelu, jer funkcija mase verovatnoće može uzeti istu maksimalnu vrednost u nekoliko tačaka x1, x2, itd. Najekstremniji slučaj se javlja u uniformnim raspodelama, gde se sve vrednosti javljaju podjednako često.

Kada funkcija gustine verovatnoće neprekidne raspodele ima više lokalnih maksimuma, uobičajeno je da se svi lokalni maksimumi nazivaju modusima raspodele. Takva kontinuirana distribucija naziva se multimodalna (za razliku od unimodalne). Modusom kontinuirane raspodele verovatnoće često se smatra bilo koja vrednost x pri kojoj njena funkcija gustine verovatnoće ima lokalno maksimalnu vrednost, te je svaki vrh modus.[2]

U simetričnim unimodalnim raspodelama, kao što je normalna raspodela, srednja vrednost (ako je definisana), medijana i modus se podudaraju. Za uzorke, ako je poznato da su uzeti iz simetrične unimodalne raspodele, srednja vrednost uzorka može se koristiti kao procena populacionog modusa.

Modus uzorka

уреди

Modus uzorka je element koji se najčešće javlja u kolekciji. Na primer, modus uzorka [1, 3, 6, 6, 6, 6, 7, 7, 12, 12, 17] je 6. Za listu podataka [1, 1, 2, 4, 4] modus nije jedinstven - za taj skup podataka može se reći da je bimodalan, dok se skup sa više od dva modusa može opisati kao multimodalni.

Za uzorak iz kontinuirane distribucije, kao što je [0,935..., 1,211..., 2,430..., 3,668..., 3,874...], koncept je neupotrebljiv u sirovom obliku, jer nema dve vrednosti koje su potpuno iste, te će se svaka vrednost pojaviti tačno jednom. Da bi se procenio modus takve raspodele, uobičajena praksa je da se podaci diskretizuju dodeljivanjem vrednosti frekvencije intervalima jednakog raspona, poput izrade histograma, efektivno zamenjujući vrednosti srednjim tačkama intervala kojima su dodeljene. Modus je tada vrednost gde histogram dostiže vrhunac. Za uzorke malih ili srednjih veličina ishod ovog postupka je osetljiv na izbor širine intervala, ako je izabran preuski ili preširok opseg; tipično treba imati značajan deo podataka koncentrisan u relativno malom broju intervala (5 do 10), dok je deo podataka koji pada izvan ovih intervala takođe znatan. Alternativni pristup je procena gustine jezgra, koja u osnovi zamućuje uzorke tačaka da bi se proizvela kontinuirana procena funkcije gustine verovatnoće koja može pružiti procenu modusa.

Sledeći primer MATLAB (ili Octave) koda izračunava modus uzorka:

X = sort(x);
indices   =  find(diff([X; realmax]) > 0); % indices where repeated values change
[modeL,i] =  max (diff([0; indices]));     % longest persistence length of repeated values
mode      =  X(indices(i));

Algoritam kao prvi korak zahteva sortiranje uzorka u rastućem redosledu. Zatim izračunava diskretni derivat sortirane liste i pronalazi indekse gde je ovaj derivat pozitivan. Zatim izračunava diskretni derivat ovog skupa indeksa, locirajući maksimum ovog derivata indeksa i na kraju procenjuje sortirani uzorak na mestu gde se taj maksimum javlja, što odgovara poslednjem članu niza ponovljenih vrednosti.

Poređenje aritmetičke sredine, medijane i modusa

уреди
 
Geometrijska vizualizacija modusa, medijane i srednje vrednosti proizvoljne funkcije gustine verovatnoće.[3]
Poređenje uobičajenih proseka vrednosti { 1, 2, 2, 3, 4, 7, 9 }
Tip Opis Primer Result
Aritmetička sredina Zbir vrednosti skupa podataka podeljen brojem vrednosti (1+2+2+3+4+7+9) / 7 4
Medijana Srednja vrednost koja razdvaja veću i manju polovinu skupa podataka 1, 2, 2, 3, 4, 7, 9 3
Modus Najčešća vrednost u skupu podataka 1, 2, 2, 3, 4, 7, 9 2

Upotreba

уреди

Za razliku od srednje vrednosti i medijane, koncept modusa takođe ima smisla za „nominalne podatke“ (tj. koji se ne sastoje od numeričkih vrednosti u slučaju srednje vrednosti, ili čak od uređenih vrednosti u slučaju medijane). Na primer, uzimajući uzorak korejskih prezimena, moglo bi se utvrditi da se „Kim“ javlja češće od bilo kog drugog imena. Tada bi „Kim“ bio modus uzorkovanja. U bilo kojem sistemu glasanja u kojem pluralitet određuje pobedu, pojedinačna modalna vrednost određuje pobednika, dok bi za višemodalni ishod bio potreban određeni postupak prekida.

Za razliku od medijane, koncept modusa ima smisla za bilo koju slučajnu promenljivu koja preuzima vrednosti iz vektorskog prostora, uključujući realne brojeve (jednodimenzionalni vektorski prostor) i cele brojeve (koji se mogu smatrati ugrađenim u realne vrednosti). Na primer, raspodela tačaka u ravni obično ima srednju vrednost i modus, ali koncept medijane se ne primenjuje. Medijana ima smisla kada postoji linearni redosled mogućih vrednosti. Generalizacije koncepta medijane na prostore viših dimenzija su geometrijska medijana i središnja tačka.

Jedinstvenost i definisanost

уреди

Za neke raspodele verovatnoće, očekivana vrednost može biti beskonačna ili nedefinisana, ali ako je definisana, jedinstvena je. Srednja vrednost (konačnog) uzorka je uvek definisana. Medijana je vrednost takva da razlomci koji je ne premašuju i ne padaju ispod nje su svaki najmanje 1/2. To nije nužno jedinstveno, ali nikada nije beskonačno ili potpuno nedefinisano. Za uzorak podataka to je vrednost „na pola puta“ kada je lista vrednosti uređena po rastućim vrednostima, gde se obično za listu parne dužine uzima numerički prosek dve vrednosti najbliže „polovini puta“. Konačno, kao što je prethodno rečeno, modus nije nužno jedinstven. Određene patološke raspodele (na primer, Kantorova raspodela) uopšte nemaju definisan modus.[4][5][6][7] Za konačni uzorak podataka, modus je jedna (ili više) vrednosti u uzorku.

Svojstva

уреди

Pod pretpostavkom definisanosti, i zarad jednostavnosti jedinstvenosti, slede neka od najzanimljivijih svojstava.

  • Sve tri mere imaju sledeće svojstvo: Ako je slučajna promenljiva (ili svaka vrednost iz uzorka) podvrgnuta linearnoj ili afinoj transformaciji, koja zamenjuje X sa aX+b, takvi su i srednja vrednost, medijana i modus.
  • Osim za izuzetno male uzorke, modus je neosetljiv na „izuzetke“ (poput povremenih, retkih, lažnih eksperimentalnih očitavanja). Medijana je takođe vrlo robusna u prisustvu odstupanja, dok je srednja vrednost prilično osetljiva.
  • U kontinuiranoj unimodalnoj raspodeli medijana se često nalazi između srednje vrednosti i modusa, na otprilike jednoj trećini puta idući od srednje vrednosti do modusa. U formuli, medijana ≈ (2 × srednja vrednost + modus) / 3. Ovo pravilo, zahvaljujući Karlu Pirsonu, često se primenjuje na blago nesimetrične raspodele koje podsećaju na normalnu raspodelu, mada to nije uvek tačno i generalno se ova tri statistička parametra mogu pojaviti u bilo kom redosledu.[8][9]
  • Za unimodalne distribucije, modus je unutar   standardne devijacije srednje vrednosti, i koren srednje kvadratne defijacije oko modusa je između jedne i dve standardne devijacije.[10]

Primer za asimetričnu raspodelu

уреди

Primer asimetrične raspodele je lično bogatstvo: Malo ljudi je veoma bogato, ali među njima su neki izuzetno bogati. Međutim, mnogi su prilično siromašni.

 
Poređenje srednje vrednosti, medijane i modusa dve log-normalne raspodele sa različitim asimetrijama.

Dobro poznata klasa raspodela koja može biti proizvoljno asimetrična data je log-normalnom raspodelom. Ona se dobija transformacijom slučajne promenljive X koja ima normalnu raspodelu u slučajnu promenljivu Y = eX. Tada se normalno distribuira logaritam slučajne promenljive Y, te otuda i naziv.

Uzimajući srednju vrednost μ od X da je 0, medijana od Y biće 1, nezavisno od standardne devijacije σ od X. To je zato što X ima simetričnu raspodelu, te je i njegova medijana 0. Transformacija iz X u Y je monotona, i tako se nalazi medijana e0 = 1 for Y.

Kada X ima standardnu devijaciju σ = 0,25, raspodela Y je slabo iskošena. Koristeći formule za log-normalnu distribuciju, pronalazi se:

 

Zapravo, medijana je oko jedne trećine na putu od srednje vrednosti do modusa.

Kada X ima veću standardnu devijaciju, σ = 1, raspodela od Y je jako iskošena. Sada

 

Ovde, Pirsonovo pravilo ne uspeva.

Van Zvetov uslov

уреди

Van Zvet je izveo nejednakost koja pruža dovoljne uslove da ta nejednakost vredi.[11] Nejednakost

modus ≤ medijana ≤ aritmetička sredina

je važeća, ako

F( medijana - x ) + F( medijana + x ) ≥ 1

za svako x gde je F() kumulativna funkcija raspodele.

Unimodalne raspodele

уреди

Za unimodalnu raspodelu može se prikazati da medijana   i srednja vrednost   leže unutar (3/5)1/2 ≈ 0,7746 standardnih odstupanja jedno od drugog.[12] U simbolima,

 

gde je   apsolutna vrednost.

Slična veza postoji i između medijane i modusa: oni leže unutar 31/2 ≈ 1,732 standardnih odstupanja jedno od drugog:

 

Istorija

уреди

Termin mods potiče od Karla Pirsona iz 1895. godine.[13]

Pirson koristi termin modus naizmenično sa maksimalnom ordinatom. U fusnoti kaže: „Smatrao sam da je pogodno da koristim termin modus za apscisu koji odgovara ordinati maksimalne frekvencije“.

Ako su ocene koje su na kontrolnom zadatku dobili učenici sledeće: 1, 2, 3, 3, 3, 3, 4, 4, 5, 5 – ocena 3 je modus jer se pojavljuje najčešće.

Reference

уреди
  1. ^ Damodar N. Gujarati f Econometrics. McGraw-Hill Irwin. 3rd edition, 2006: p. 110.probability distribution]]
  2. ^ Zhang, C; Mapes, BE; Soden, BJ (2003). „Bimodality in tropical water vapour”. Q. J. R. Meteorol. Soc. 129: 2847—2866. doi:10.1256/qj.02.166. 
  3. ^ „AP Statistics Review - Density Curves and the Normal Distributions”. Архивирано из оригинала 2. 4. 2015. г. Приступљено 16. 3. 2015. 
  4. ^ Hewitt, E.; Stromberg, K. (1965). Real and Abstract Analysis . Berlin-Heidelberg-New York: Springer-Verlag.  This, as with other standard texts, has the Cantor function and its one sided derivates.
  5. ^ Hu, Tian-You; Lau, Ka Sing (2002). „Fourier Asymptotics of Cantor Type Measures at Infinity”. Proc. A.M.S. 130 (9). стр. 2711—2717.  This is more modern than the other texts in this reference list.
  6. ^ Knill, O. (2006). Probability Theory & Stochastic Processes. India: Overseas Press. 
  7. ^ Mattilla, P. (1995). Geometry of Sets in Euclidean Spaces. San Francisco: Cambridge University Press. 
  8. ^ „Relationship between the mean, median, mode, and standard deviation in a unimodal distribution”. 
  9. ^ Hippel, Paul T. von (2005). „Mean, Median, and Skew: Correcting a Textbook Rule”. Journal of Statistics Education. 13 (2). doi:10.1080/10691898.2005.11910556 . Архивирано из оригинала 14. 10. 2008. г. Приступљено 28. 12. 2020. 
  10. ^ Bottomley, H. (2004). „Maximum distance between the mode and the mean of a unimodal distribution” (PDF). Unpublished preprint. 
  11. ^ van Zwet, WR (1979). „Mean, median, mode II”. Statistica Neerlandica. 33 (1): 1—5. doi:10.1111/j.1467-9574.1979.tb00657.x. 
  12. ^ Basu, Sanjib; Dasgupta, Anirban (1997). „The mean, median, and mode of unimodal distributions: a characterization”. Theory of Probability & Its Applications. 41 (2): 210—223. doi:10.1137/S0040585X97975447. 
  13. ^ Pearson, Karl (1895). „Contributions to the Mathematical Theory of Evolution. II. Skew Variation in Homogeneous Material” (PDF). Philosophical Transactions of the Royal Society of London A. 186: 343—414. doi:10.1098/rsta.1895.0010. 

Literatura

уреди

Spoljašnje veze

уреди