Википедија:Масовни унос/насељена места у Србији

Ово је координациона страна везана за масовни унос српских села.

Са уносом српских села се почело 20. августа 2007. године! --филип 11:51, 20. август 2007. (CEST)[одговори]

Мишљења и идеје

уреди

Подаци

уреди

Подаци су углавном у ПДФ-овима у виду "ћириличних табела". Из њих би требало издвојити податке у неки униформни формат и конвертовати такав аутпут у неки више машин-ридабл. Постоји и гомила .xls табела, али оне су само за општине. Из њих може да се извуче гомила података, али треба уврстити само најбитније. Оно што није за табеле, може се сместити у текст. --Φ ί λ ι π π ο ς | 23:47, 19. март 2007. (CET)[одговори]

Подаци у тренутно доступним .xls табелама се односе на општине (и ту ће бити корисни) па се за села не могу употребити. -- JustUser  JustTalk 19:30, 20. март 2007. (CET)[одговори]

Могли би смо из оног милошевог алгоритма (Корисник:Милош/Краљево) да додамо и поднаслове Оближњи потоци у Србији и Црној Гори и Оближњи манастири у Србији и Црној Гори. При томе бих назив потоци променио у водени токови, пошто се у чланцима углавном наводе реке. И наравно променио бих ону вишезначност, пошто код милоша много лоше изгледа. Значи ако у називу саме одреднице постоји река или поток, не мора у загради да додаје поток, а ако не постоји ништа, онда само дода испред Река тако да би смо добили Река Ибар. Исто важи и за манастире. А уколико аутоматски могу да се унесу и оне слике, могли би и њих да ставимо негде у чланак --Јован Вуковић (р) 12:27, 26. март 2007. (CEST)[одговори]

Ајде ово са оближњи манастири и капирам, јер је манстир тачкаста локација, али потоци, водоткови, реке ....? Како ћеш разликовати шта је река, шта поток а шта канал. Па да ли пролази кроз село, поред села или иза брда? Мислим да је садржај информације водоток Џ иде 2 км од села Љ танак, јер ако иде 2 км од центра села, можда пролази кроз обод села, или граничи са другим селом или је иза Јелице планине и ко зна ком атару. -- JustUser  JustTalk 14:25, 26. март 2007. (CEST)[одговори]

Синоћ сам завршио прикупљање демографских података, тако да сада полако прелазим на географске. --филип 10:50, 11. мај 2007. (CEST)[одговори]

Сукоби

уреди

Већ постојећи

уреди

Доста чланака је већ направљено. Шта да радимо када бот стигне до чланка који већ постоји? Да ли да покуша да споји (како?) или да негде привремено смести чланак (скоро апдејтовани креш, Википедијин именски простор?), који би се касније могао ручно придружити већ постојећем. Или можда да "прегази" већ постојеће, ако су сувише кратки (јер у њима нема корисних информација које се не налазе и у новом чланку)? --Φ ί λ ι π π ο ς | 23:47, 19. март 2007. (CET)[одговори]

  • Када су пољаци масоввно уносили њихова места, они су овакве проблеме решавали тако што бот напише чланак на страници за разговор већ постојећег чланка уколико наиђе на њега. --Јован Вуковић (р) 12:15, 26. март 2007. (CEST)[одговори]

Након размишљања, сматрам да је најбоље да се негде у Википедијином именском простору стављају сви конфликти. Тако би постојала страна нпр. Википедија:Српска места и ту би био списак свих подстрана те странице (јер би свако место имало своју подстрану). Онда би се ручно спајали чланци (ако већ постојећи чланак има неких информација) или би неки администратор просто премештао преко већ постојећих (за случај да чланак о том селу садржи само основне податке који су ионако садржани у аутоматски унешеном чланку). --филип 10:50, 11. мај 2007. (CEST)[одговори]

Тренутно се просто прескачу такви чланци, али ће у неком од наредних пролаза вероватно бити прича о овоме. --филип 11:51, 20. август 2007. (CEST)[одговори]

Вишезначне

уреди

Знамо да има гомила села која су (да ли међусобно или не) хомоними и то треба решавати преко вишезначних одредница. Имам осећај да алгоритам везан за такву проблематику не може да буде једноставан, па треба добро поразмислити у овом правцу. --Φ ί λ ι π π ο ς | 23:47, 19. март 2007. (CET)[одговори]

  • Нема потребе за вишезначним одредницам (много би их било) већ боље ставити То и то село код тог и тог већег места или у загради назив општине ако је то изводљиво. --Vojvoda 11:07, 8. мај 2007. (CEST)[одговори]
    Па да. Тако сам и планирао, али опет је потребна вишезначна одредница да повеже сва та различита села, за случај да неко жели да види нпр. колико има Нових Села у Србији. Уосталом, прављење вишезначних смањује шансу да чланци некада постану "сирочићи" (тј. повећава повезаност). --филип 10:50, 11. мај 2007. (CEST)[одговори]

А јел би се вишезначне одреднице правиле аутоматски или ручно?--Vojvoda 23:34, 9. јул 2007. (CEST)[одговори]

Највероватније аутоматски, тј. ботовски. --филип 01:16, 10. јул 2007. (CEST)[одговори]

Проблеми

уреди

Наишао сам на један повећи проблем. Код прикупљања географских података за свако насељено место (координате), може бити свашта! Генерисао сам списак свих насеља у ужој Србији и Војводини и јављају се овакве ставке (ћирилизација је моја; оригинално, све је латиницом, па зато и ови мађарски називи изгледају природније):

Сзербарадáцз	-73931
Тóт-Арадáцз	-73931
Тóтарадáцз	-73931
Арангјеловац	-73933
Аранђеловац	-73933
Араповац	-73938
Араповиће	-73939
Араповићи	-73939
Арбанасце	-73944
Арбанасци	-73944
Арбанашка	-73948

Бројеви десно су јединствени бројеви географске локације. На који начин бот може да зна да ли је правилно Арангјеловац или Аранђеловац? Највећи проблем је управо насеље -73931 (Арадац) које има 17 хомонима, затим Башаид (-74547), који постоји у 14 варијанти итд. Свеукупно, постоји 1965 локација које имају 2 или више назива. Е сад, ствари компликује вишезначност (нпр. пет Лесковаца, петнаест Нових Села итд). У том случају, које координате, односно који јединствени број да споји са којим селом? Ови подаци које имам су преузети од NGA. Да ли постоји неки поузданији извор за ово? --Φ ί λ ι π π ο ς | 22:30, 3. април 2007. (CEST)[одговори]

Списак насеља имаш у оном статистичком годишњаку србије. --Јован Вуковић (р) 16:27, 6. април 2007. (CEST)[одговори]
То је очигледно, с обзиром да се подаци највише узимају одатле. Али и даље стоји горњи проблем. --Φ ί λ ι π π ο ς | 16:51, 6. април 2007. (CEST)[одговори]
Па тамо немаш ова мађарска имена. Вероватно су имена тих села на српском у статистичком годишњаку. — Претходни непотписани коментар оставио је корисник Јованвб (разговордоприноси)
Да, али, опет понављам, има 5 Лесковаца! Откуд бот да зна који се "Лесковац" односи на које место? Једино да имам тачне координате простирања сваког округа, па да покушам да утврдим на основу координата села у ком се округу оно налази. Али, чини ми се да то неће ићи баш тако лако. --Φ ί λ ι π π ο ς | 23:18, 11. април 2007. (CEST)[одговори]

График

уреди

Правећи бота за унос, дошао сам до проблема што се тиче тајмлајна, односно графика. Бројне вредности у графику нису праве вредности броја становника по годинама, већ неки око шест пута умањени бројеви. Е сад, није ни шест права бројка јер за доста мале вредности, линија иде испод површине графика. Интересује ме који је тачно алгоритам израчунавања бројних вредности из датих вредности по годинама. --филип 22:50, 14. мај 2007. (CEST)[одговори]

Мало си ме збунио својом реченицом. Идемо из почетка. Да би се из броја становника добиле бројке које ће ићи у тајм лајн врши се рескалирање на димензије оквира унутар максималних димензија графика. Претпостављам да се том приликом јавља некакaв број близу шестице за једну од димензија. Да ли се твоје питање односи на то која је функција пресликавања (година, становника)->(x, y)? -- JustUser  JustTalk 00:11, 15. мај 2007. (CEST)[одговори]
Да, то је моје питање. Интересује ме како да на јединствен начин утврдим како се број становника пресликава у другу координату тачке за тајмлајн. Требају ми друге координате, јер претпостављам да су прве свугде исте (с обзиром да свугде имамо податке са тачно одређених пописа становништва). --филип 00:31, 15. мај 2007. (CEST)[одговори]
Da ne bih ovde pisao formule i primere poslacu ti excell fajl sa upravo tim formulama i primerom. -- JustUser  JustTalk 21:57, 15. мај 2007. (CEST)[одговори]

Анализа

уреди

Извршио сам малу анализу над подацима које имам, а они обухватају

  • Статистички годишњак из Републичког завода за статистику (надаље, РЗС)
  • Подаци америчке националне геопросторне агенције (надаље, НГА)

Као што сам раније нагласио, постоје извесни дупликати у самим статистикама РЗС, у смислу да називи насеља нису уникатни (нпр. постоји 13 Слатина и 11 Каменица). По анализи, постоји укупно 1085 насељених места која по подацима РЗС имају конфликтна имена, па компјутерска скрипта не може на сигуран начин да "споји" такво насељено место са географским подацима из НГА. Тих 1085 насељених места деле 413 различитих (дупликатних) имена. То значи да ће неко морати ручно да прође кроз сва та насеља и направи правилну асоцијацију (није искључено да се направи скриптица која ће процењивати на основу координата ком округу припада одређено насеље). Поред ове бројке, постоји тачно 628 насељених места која по подацима РЗС нису дупликати, али по подацима НГА јесу. Ту спада 260 назива (тј. 260 насељених места по подацима РЗС). Ово је већ тежи посао, јер на једну одредницу за коју знамо демографске податке "долази" више одредница са географским подацима - логично, треба одредити које од тих насеља по подацима НГА одговара датом насељеном месту по подацима РЗС (наравно, и овде може помоћи већ поменута скрипта). 2666 насеља су потпуни погоци, односно нехомонимни су по подацима и РЗС и НГА (успостављен је унеквивоко). То значи да, с обзиром да укупно има 4715 насељених места, преосталих 704 места (која нису дупликати по подацима РЗС) има у Статистичком годишњаку, али не и у подацима НГА. И овакви случајеви ће морати ручно да се решавају, у смислу да треба ипак пронаћи одговарајући податак међу подацима НГА (код доброг дела је то могуће, јер моја анализаторска скрипта није повезала два места због конвенција у називима; у РЗС се користе имена попут "Ораовица (код Грделице)", "Ораовица (код Црковнице)", "Грделица (варош)", "Грделица (село)" и сл. док у НГА не). На крају, 1085+260+2666+704=4715, па ми је рачуница тачна. Е сад, ако узмемо да 2666 заиста јесте реалан број насељених места којима није потребна интервенција, преостаје нам бројка од 2409 места где јесте потребна интервенција човека, што чини укупно 43,48% свих насељених места у Србији са Војводином, без Косова, по подацима РЗС. Какви су коментари на овакве чињенице? Ако се добро сећам, Никола је превидео 20-ак процената... очигледно ће бити више проблема него што смо свесни. --филип 00:47, 29. април 2007. (CEST)[одговори]

Прави изазов за све младе жељне доказивања!!! Ех када ће тај Магацин да проради, па да се увучемо у њега и сви онако заједно решавамо шумадијска села до миле воље? Зезање, а ...
Дакле нема спаса од ужаса. Направити списак ... па кренути редом. Чини ми се да нема друге. -- JustUser  JustTalk 01:03, 29. април 2007. (CEST)[одговори]
Спискови већ постоје код мене. Наиме, ове силне бројке су само нуспојава генерисања спискова. Додуше, могао би их још мало средити, али суштински, то је то. Ко жели да му пошаљем те спискове, нека ме контактира. --филип 01:18, 29. април 2007. (CEST)[одговори]
Добро значи прво уносимо оних 2.666 насеља који су скроз добри. Е сад ако успе да се направи она скрипта да се дупликати из РЗС споје са не дупликатима из НГА онда би то решило још 1.085 места тако да би ручно морало да се прође кроз још 964 места, што доста смањује посао. А ових 964 места ћемо већ решити --Јован Вуковић (р) 11:08, 2. мај 2007. (CEST)[одговори]
Прво, та скрипта не би била безгрешна (али претпостављам да не би ипак много грешила) и не верујем да би могла да одради све, тако да ту бројку од 1085 ипак треба узети са резервом. Друго, бројка од 2666 не значи да ће бити толико нових чланака, с обзиром да већ имамо чланке о неким селима, а негде постоје "лажни чланци" (фамозни пример Падежа - има чак два насеља са тим именом, а потенцијално може да постоји и чланак о граматичком појму.) --филип 18:18, 2. мај 2007. (CEST)[одговори]
Да додам да мислим да треба радити све одједном, а не прво ових 2666, па остале. Мада, ако неко има убедљив разлог, отворен сам да га чујем. --филип 10:50, 11. мај 2007. (CEST)[одговори]

Ето, прво радим само не-дупликате који већ не постоје, тј. да чланак није заузет (не знам тачан број тих чланака, али видећемо на крају). --филип 11:51, 20. август 2007. (CEST)[одговори]

Брзина

уреди

Којом брзином уносити чланке? --Φ ί λ ι π π ο ς | 23:47, 19. март 2007. (CET)[одговори]

  • Уносите полако да видимо како све то функционише. Пројекат Српска села могу да успеју па треба бити опрезан.--Vojvoda 11:12, 8. мај 2007. (CEST)[одговори]
    И претпоставио сам да не треба журити. С тим што не морамо ићи баш ни по 10 чланака дневно. Више бих ишао у смислу један чланак у минуту, што ће дати 60*24=1440, што значи да ћемо завршити за око три дана, а брзина ће бити драстично мања у односу на ону када смо уносили француска села (где је у једном тренутку пет-шест ботова радило паралелно и кроз сваку секунду или две, унешен је један чланак). --филип 10:50, 11. мај 2007. (CEST)[одговори]

Један у минуту је отприлике усаглашена брзина. --филип 11:51, 20. август 2007. (CEST)[одговори]

Ресурси

уреди
  • Треба навести све мрежне локације
  • као и публикације и
  • евентуално некакву другу литературу која ће се користити при уносу

Концепт чланка

уреди

Овде треба да стоји кôд чланка, односно садржај чланка са референцама на ресурсе (тј, да се зна одакле се који податак узима и на који начин генерише). --Φ ί λ ι π π ο ς | 23:47, 19. март 2007. (CET)[одговори]

А ја се питам шта се десило са покушајима да се ове табеле вербализују, чисто онако, конформизма ради, да мало више личи на енциклопедију. Е и да, пало ми напамет, кад се већ тркамо са комшијама, да унесемо бирачке спискове Републике Србије, што да не, имају три валидне одреднице - име и презиме, датум рођења, место рођења, па ако закон дозвољава и ЈМБГ, бр л.к... :))) --¡¿Кале?! 16:18, 7. април 2007. (CEST)[одговори]
Ја јесам за вербализацију, али треба ми помоћ. Да ли би ти желео да извучеш податке из неких од тих табела, па да видимо на шта личи? --Φ ί λ ι π π ο ς | 17:25, 7. април 2007. (CEST)[одговори]
Је л` то захтева програмерско знање? --¡¿Кале?! 19:44, 7. април 2007. (CEST)[одговори]
Не. Само је потребно да имаш подсетник негде у глави да тај текст ипак треба једна скрипта да генерише и да због тога не може да буде флексибилан као што би био да га човек саставља. --Φ ί λ ι π π ο ς | 23:09, 7. април 2007. (CEST)[одговори]
`Ај да видимо и то, пошаљи ми на мејл, ако ти није тешко. --¡¿Кале?! 23:44, 7. април 2007. (CEST)[одговори]
Сви подаци који ће бити коришћени су на страници Корисник:Dungodung/Бзенице у табелама. Ако нешто може још да се извуче одатле, супер. --филип 10:50, 11. мај 2007. (CEST)[одговори]

Пролазно време

уреди

Ноћас су завршена спајања података из ботовски генерисаних и писаних чланака. Требаће још неко време да се преконтролишу сва села у смислу класификације хомонима, али главни посао је завршен.

Можда је сад право време да бот уради пар измена. Прво, коначно да решимо ону грешку субст("је у великим делом","је великим делом"). Успут бих предложио да у Шаблон:Попис изврши замена |п1948=.<ref>.</ref> са |извор=<ref>.</ref>|п1948=. и то у свим селима. Такође, имам предлог и за Шаблон:Графикон пирамида да се уради за српска села ботовски оно што је урађено за црногорска. -- JustUser  JustTalk 12:00, 6. новембар 2007. (CET)[одговори]

Сад сам приметио. Ова последња ставка под обавезно и што пре. Код црногорских села се појављује трећа референца дупло, једном у оквиру шаблона статистички завод у Београду а други пут на дну у списку референци као статистички завод у Подгорици.
|извор=Књига 2, ''Становништво, пол и старост, подаци по насељима'', Републички завод за статистику, Београд, фебруар 2003, ISBN 86-84433-01-7

-- JustUser  JustTalk 12:08, 6. новембар 2007. (CET)[одговори]

Само да јавим да сам видео ово и да имам на уму, те да ћу, кад ми време дозволи, одрадити то. --филип 21:09, 6. новембар 2007. (CET)[одговори]

Примери

уреди

Примери су:

Такође, постоје и неки стари примери који се сада сматрају анахронизмима: Корисник:Милош/Крушевац код Подгорице и Корисник:Милош/Краљево.

Остало

уреди