Википедија:Масовни унос/насељена места у Србији
Ово је координациона страна везана за масовни унос српских села.
Са уносом српских села се почело 20. августа 2007. године! --филип ⁂ 11:51, 20. август 2007. (CEST)
Мишљења и идеје
уредиПодаци
уредиПодаци су углавном у ПДФ-овима у виду "ћириличних табела". Из њих би требало издвојити податке у неки униформни формат и конвертовати такав аутпут у неки више машин-ридабл. Постоји и гомила .xls табела, али оне су само за општине. Из њих може да се извуче гомила података, али треба уврстити само најбитније. Оно што није за табеле, може се сместити у текст. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
Подаци у тренутно доступним .xls табелама се односе на општине (и ту ће бити корисни) па се за села не могу употребити. -- JustUser JustTalk 19:30, 20. март 2007. (CET)
Могли би смо из оног милошевог алгоритма (Корисник:Милош/Краљево) да додамо и поднаслове Оближњи потоци у Србији и Црној Гори и Оближњи манастири у Србији и Црној Гори. При томе бих назив потоци променио у водени токови, пошто се у чланцима углавном наводе реке. И наравно променио бих ону вишезначност, пошто код милоша много лоше изгледа. Значи ако у називу саме одреднице постоји река или поток, не мора у загради да додаје поток, а ако не постоји ништа, онда само дода испред Река тако да би смо добили Река Ибар. Исто важи и за манастире. А уколико аутоматски могу да се унесу и оне слике, могли би и њих да ставимо негде у чланак --Јован Вуковић (р) 12:27, 26. март 2007. (CEST)
Ајде ово са оближњи манастири и капирам, јер је манстир тачкаста локација, али потоци, водоткови, реке ....? Како ћеш разликовати шта је река, шта поток а шта канал. Па да ли пролази кроз село, поред села или иза брда? Мислим да је садржај информације водоток Џ иде 2 км од села Љ танак, јер ако иде 2 км од центра села, можда пролази кроз обод села, или граничи са другим селом или је иза Јелице планине и ко зна ком атару. -- JustUser JustTalk 14:25, 26. март 2007. (CEST)
Синоћ сам завршио прикупљање демографских података, тако да сада полако прелазим на географске. --филип ⁂ 10:50, 11. мај 2007. (CEST)
Сукоби
уредиВећ постојећи
уредиДоста чланака је већ направљено. Шта да радимо када бот стигне до чланка који већ постоји? Да ли да покуша да споји (како?) или да негде привремено смести чланак (скоро апдејтовани креш, Википедијин именски простор?), који би се касније могао ручно придружити већ постојећем. Или можда да "прегази" већ постојеће, ако су сувише кратки (јер у њима нема корисних информација које се не налазе и у новом чланку)? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
- Када су пољаци масоввно уносили њихова места, они су овакве проблеме решавали тако што бот напише чланак на страници за разговор већ постојећег чланка уколико наиђе на њега. --Јован Вуковић (р) 12:15, 26. март 2007. (CEST)
Након размишљања, сматрам да је најбоље да се негде у Википедијином именском простору стављају сви конфликти. Тако би постојала страна нпр. Википедија:Српска места и ту би био списак свих подстрана те странице (јер би свако место имало своју подстрану). Онда би се ручно спајали чланци (ако већ постојећи чланак има неких информација) или би неки администратор просто премештао преко већ постојећих (за случај да чланак о том селу садржи само основне податке који су ионако садржани у аутоматски унешеном чланку). --филип ⁂ 10:50, 11. мај 2007. (CEST)
- Тренутно се просто прескачу такви чланци, али ће у неком од наредних пролаза вероватно бити прича о овоме. --филип ⁂ 11:51, 20. август 2007. (CEST)
Вишезначне
уредиЗнамо да има гомила села која су (да ли међусобно или не) хомоними и то треба решавати преко вишезначних одредница. Имам осећај да алгоритам везан за такву проблематику не може да буде једноставан, па треба добро поразмислити у овом правцу. --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
- Нема потребе за вишезначним одредницам (много би их било) већ боље ставити То и то село код тог и тог већег места или у загради назив општине ако је то изводљиво. --Vojvoda 11:07, 8. мај 2007. (CEST)
- Па да. Тако сам и планирао, али опет је потребна вишезначна одредница да повеже сва та различита села, за случај да неко жели да види нпр. колико има Нових Села у Србији. Уосталом, прављење вишезначних смањује шансу да чланци некада постану "сирочићи" (тј. повећава повезаност). --филип ⁂ 10:50, 11. мај 2007. (CEST)
А јел би се вишезначне одреднице правиле аутоматски или ручно?--Vojvoda 23:34, 9. јул 2007. (CEST)
- Највероватније аутоматски, тј. ботовски. --филип ⁂ 01:16, 10. јул 2007. (CEST)
Проблеми
уредиНаишао сам на један повећи проблем. Код прикупљања географских података за свако насељено место (координате), може бити свашта! Генерисао сам списак свих насеља у ужој Србији и Војводини и јављају се овакве ставке (ћирилизација је моја; оригинално, све је латиницом, па зато и ови мађарски називи изгледају природније):
Сзербарадáцз -73931 Тóт-Арадáцз -73931 Тóтарадáцз -73931 Арангјеловац -73933 Аранђеловац -73933 Араповац -73938 Араповиће -73939 Араповићи -73939 Арбанасце -73944 Арбанасци -73944 Арбанашка -73948
Бројеви десно су јединствени бројеви географске локације. На који начин бот може да зна да ли је правилно Арангјеловац или Аранђеловац? Највећи проблем је управо насеље -73931 (Арадац) које има 17 хомонима, затим Башаид (-74547), који постоји у 14 варијанти итд. Свеукупно, постоји 1965 локација које имају 2 или више назива. Е сад, ствари компликује вишезначност (нпр. пет Лесковаца, петнаест Нових Села итд). У том случају, које координате, односно који јединствени број да споји са којим селом? Ови подаци које имам су преузети од NGA. Да ли постоји неки поузданији извор за ово? --Φ ί λ ι π π ο ς | ⌘ 22:30, 3. април 2007. (CEST)
- Списак насеља имаш у оном статистичком годишњаку србије. --Јован Вуковић (р) 16:27, 6. април 2007. (CEST)
- То је очигледно, с обзиром да се подаци највише узимају одатле. Али и даље стоји горњи проблем. --Φ ί λ ι π π ο ς | ⌘ 16:51, 6. април 2007. (CEST)
- Па тамо немаш ова мађарска имена. Вероватно су имена тих села на српском у статистичком годишњаку. — Претходни непотписани коментар оставио је корисник Јованвб (разговор • доприноси)
- Да, али, опет понављам, има 5 Лесковаца! Откуд бот да зна који се "Лесковац" односи на које место? Једино да имам тачне координате простирања сваког округа, па да покушам да утврдим на основу координата села у ком се округу оно налази. Али, чини ми се да то неће ићи баш тако лако. --Φ ί λ ι π π ο ς | ⌘ 23:18, 11. април 2007. (CEST)
- Па тамо немаш ова мађарска имена. Вероватно су имена тих села на српском у статистичком годишњаку. — Претходни непотписани коментар оставио је корисник Јованвб (разговор • доприноси)
- То је очигледно, с обзиром да се подаци највише узимају одатле. Али и даље стоји горњи проблем. --Φ ί λ ι π π ο ς | ⌘ 16:51, 6. април 2007. (CEST)
График
уредиПравећи бота за унос, дошао сам до проблема што се тиче тајмлајна, односно графика. Бројне вредности у графику нису праве вредности броја становника по годинама, већ неки око шест пута умањени бројеви. Е сад, није ни шест права бројка јер за доста мале вредности, линија иде испод површине графика. Интересује ме који је тачно алгоритам израчунавања бројних вредности из датих вредности по годинама. --филип ⁂ 22:50, 14. мај 2007. (CEST)
- Мало си ме збунио својом реченицом. Идемо из почетка. Да би се из броја становника добиле бројке које ће ићи у тајм лајн врши се рескалирање на димензије оквира унутар максималних димензија графика. Претпостављам да се том приликом јавља некакaв број близу шестице за једну од димензија. Да ли се твоје питање односи на то која је функција пресликавања (година, становника)->(x, y)? -- JustUser JustTalk 00:11, 15. мај 2007. (CEST)
- Да, то је моје питање. Интересује ме како да на јединствен начин утврдим како се број становника пресликава у другу координату тачке за тајмлајн. Требају ми друге координате, јер претпостављам да су прве свугде исте (с обзиром да свугде имамо податке са тачно одређених пописа становништва). --филип ⁂ 00:31, 15. мај 2007. (CEST)
- Da ne bih ovde pisao formule i primere poslacu ti excell fajl sa upravo tim formulama i primerom. -- JustUser JustTalk 21:57, 15. мај 2007. (CEST)
- Да, то је моје питање. Интересује ме како да на јединствен начин утврдим како се број становника пресликава у другу координату тачке за тајмлајн. Требају ми друге координате, јер претпостављам да су прве свугде исте (с обзиром да свугде имамо податке са тачно одређених пописа становништва). --филип ⁂ 00:31, 15. мај 2007. (CEST)
Анализа
уредиИзвршио сам малу анализу над подацима које имам, а они обухватају
- Статистички годишњак из Републичког завода за статистику (надаље, РЗС)
- Подаци америчке националне геопросторне агенције (надаље, НГА)
Као што сам раније нагласио, постоје извесни дупликати у самим статистикама РЗС, у смислу да називи насеља нису уникатни (нпр. постоји 13 Слатина и 11 Каменица). По анализи, постоји укупно 1085 насељених места која по подацима РЗС имају конфликтна имена, па компјутерска скрипта не може на сигуран начин да "споји" такво насељено место са географским подацима из НГА. Тих 1085 насељених места деле 413 различитих (дупликатних) имена. То значи да ће неко морати ручно да прође кроз сва та насеља и направи правилну асоцијацију (није искључено да се направи скриптица која ће процењивати на основу координата ком округу припада одређено насеље). Поред ове бројке, постоји тачно 628 насељених места која по подацима РЗС нису дупликати, али по подацима НГА јесу. Ту спада 260 назива (тј. 260 насељених места по подацима РЗС). Ово је већ тежи посао, јер на једну одредницу за коју знамо демографске податке "долази" више одредница са географским подацима - логично, треба одредити које од тих насеља по подацима НГА одговара датом насељеном месту по подацима РЗС (наравно, и овде може помоћи већ поменута скрипта). 2666 насеља су потпуни погоци, односно нехомонимни су по подацима и РЗС и НГА (успостављен је унеквивоко). То значи да, с обзиром да укупно има 4715 насељених места, преосталих 704 места (која нису дупликати по подацима РЗС) има у Статистичком годишњаку, али не и у подацима НГА. И овакви случајеви ће морати ручно да се решавају, у смислу да треба ипак пронаћи одговарајући податак међу подацима НГА (код доброг дела је то могуће, јер моја анализаторска скрипта није повезала два места због конвенција у називима; у РЗС се користе имена попут "Ораовица (код Грделице)", "Ораовица (код Црковнице)", "Грделица (варош)", "Грделица (село)" и сл. док у НГА не). На крају, 1085+260+2666+704=4715, па ми је рачуница тачна. Е сад, ако узмемо да 2666 заиста јесте реалан број насељених места којима није потребна интервенција, преостаје нам бројка од 2409 места где јесте потребна интервенција човека, што чини укупно 43,48% свих насељених места у Србији са Војводином, без Косова, по подацима РЗС. Какви су коментари на овакве чињенице? Ако се добро сећам, Никола је превидео 20-ак процената... очигледно ће бити више проблема него што смо свесни. --филип ⁂ 00:47, 29. април 2007. (CEST)
- Прави изазов за све младе жељне доказивања!!! Ех када ће тај Магацин да проради, па да се увучемо у њега и сви онако заједно решавамо шумадијска села до миле воље? Зезање, а ...
- Дакле нема спаса од ужаса. Направити списак ... па кренути редом. Чини ми се да нема друге. -- JustUser JustTalk 01:03, 29. април 2007. (CEST)
- Спискови већ постоје код мене. Наиме, ове силне бројке су само нуспојава генерисања спискова. Додуше, могао би их још мало средити, али суштински, то је то. Ко жели да му пошаљем те спискове, нека ме контактира. --филип ⁂ 01:18, 29. април 2007. (CEST)
- Добро значи прво уносимо оних 2.666 насеља који су скроз добри. Е сад ако успе да се направи она скрипта да се дупликати из РЗС споје са не дупликатима из НГА онда би то решило још 1.085 места тако да би ручно морало да се прође кроз још 964 места, што доста смањује посао. А ових 964 места ћемо већ решити --Јован Вуковић (р) 11:08, 2. мај 2007. (CEST)
- Прво, та скрипта не би била безгрешна (али претпостављам да не би ипак много грешила) и не верујем да би могла да одради све, тако да ту бројку од 1085 ипак треба узети са резервом. Друго, бројка од 2666 не значи да ће бити толико нових чланака, с обзиром да већ имамо чланке о неким селима, а негде постоје "лажни чланци" (фамозни пример Падежа - има чак два насеља са тим именом, а потенцијално може да постоји и чланак о граматичком појму.) --филип ⁂ 18:18, 2. мај 2007. (CEST)
- Да додам да мислим да треба радити све одједном, а не прво ових 2666, па остале. Мада, ако неко има убедљив разлог, отворен сам да га чујем. --филип ⁂ 10:50, 11. мај 2007. (CEST)
- Добро значи прво уносимо оних 2.666 насеља који су скроз добри. Е сад ако успе да се направи она скрипта да се дупликати из РЗС споје са не дупликатима из НГА онда би то решило још 1.085 места тако да би ручно морало да се прође кроз још 964 места, што доста смањује посао. А ових 964 места ћемо већ решити --Јован Вуковић (р) 11:08, 2. мај 2007. (CEST)
- Спискови већ постоје код мене. Наиме, ове силне бројке су само нуспојава генерисања спискова. Додуше, могао би их још мало средити, али суштински, то је то. Ко жели да му пошаљем те спискове, нека ме контактира. --филип ⁂ 01:18, 29. април 2007. (CEST)
Ето, прво радим само не-дупликате који већ не постоје, тј. да чланак није заузет (не знам тачан број тих чланака, али видећемо на крају). --филип ⁂ 11:51, 20. август 2007. (CEST)
Брзина
уредиКојом брзином уносити чланке? --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
- Уносите полако да видимо како све то функционише. Пројекат Српска села могу да успеју па треба бити опрезан.--Vojvoda 11:12, 8. мај 2007. (CEST)
- И претпоставио сам да не треба журити. С тим што не морамо ићи баш ни по 10 чланака дневно. Више бих ишао у смислу један чланак у минуту, што ће дати 60*24=1440, што значи да ћемо завршити за око три дана, а брзина ће бити драстично мања у односу на ону када смо уносили француска села (где је у једном тренутку пет-шест ботова радило паралелно и кроз сваку секунду или две, унешен је један чланак). --филип ⁂ 10:50, 11. мај 2007. (CEST)
- Ја бих ставио још мање, на око 400-500 чланака дневно --Јован Вуковић (р) 19:12, 11. мај 2007. (CEST)
Један у минуту је отприлике усаглашена брзина. --филип ⁂ 11:51, 20. август 2007. (CEST)
Ресурси
уреди- Треба навести све мрежне локације
- као и публикације и
- евентуално некакву другу литературу која ће се користити при уносу
Концепт чланка
уредиОвде треба да стоји кôд чланка, односно садржај чланка са референцама на ресурсе (тј, да се зна одакле се који податак узима и на који начин генерише). --Φ ί λ ι π π ο ς | ⌘ 23:47, 19. март 2007. (CET)
- А ја се питам шта се десило са покушајима да се ове табеле вербализују, чисто онако, конформизма ради, да мало више личи на енциклопедију. Е и да, пало ми напамет, кад се већ тркамо са комшијама, да унесемо бирачке спискове Републике Србије, што да не, имају три валидне одреднице - име и презиме, датум рођења, место рођења, па ако закон дозвољава и ЈМБГ, бр л.к... :))) --¡¿Кале?! 16:18, 7. април 2007. (CEST)
- Ја јесам за вербализацију, али треба ми помоћ. Да ли би ти желео да извучеш податке из неких од тих табела, па да видимо на шта личи? --Φ ί λ ι π π ο ς | ⌘ 17:25, 7. април 2007. (CEST)
- Је л` то захтева програмерско знање? --¡¿Кале?! 19:44, 7. април 2007. (CEST)
- Не. Само је потребно да имаш подсетник негде у глави да тај текст ипак треба једна скрипта да генерише и да због тога не може да буде флексибилан као што би био да га човек саставља. --Φ ί λ ι π π ο ς | ⌘ 23:09, 7. април 2007. (CEST)
- `Ај да видимо и то, пошаљи ми на мејл, ако ти није тешко. --¡¿Кале?! 23:44, 7. април 2007. (CEST)
- Сви подаци који ће бити коришћени су на страници Корисник:Dungodung/Бзенице у табелама. Ако нешто може још да се извуче одатле, супер. --филип ⁂ 10:50, 11. мај 2007. (CEST)
- `Ај да видимо и то, пошаљи ми на мејл, ако ти није тешко. --¡¿Кале?! 23:44, 7. април 2007. (CEST)
- Не. Само је потребно да имаш подсетник негде у глави да тај текст ипак треба једна скрипта да генерише и да због тога не може да буде флексибилан као што би био да га човек саставља. --Φ ί λ ι π π ο ς | ⌘ 23:09, 7. април 2007. (CEST)
- Је л` то захтева програмерско знање? --¡¿Кале?! 19:44, 7. април 2007. (CEST)
- Ја јесам за вербализацију, али треба ми помоћ. Да ли би ти желео да извучеш податке из неких од тих табела, па да видимо на шта личи? --Φ ί λ ι π π ο ς | ⌘ 17:25, 7. април 2007. (CEST)
Пролазно време
уредиНоћас су завршена спајања података из ботовски генерисаних и писаних чланака. Требаће још неко време да се преконтролишу сва села у смислу класификације хомонима, али главни посао је завршен.
Можда је сад право време да бот уради пар измена. Прво, коначно да решимо ону грешку субст("је у великим делом","је великим делом"). Успут бих предложио да у Шаблон:Попис изврши замена |п1948=.<ref>.</ref> са |извор=<ref>.</ref>|п1948=. и то у свим селима. Такође, имам предлог и за Шаблон:Графикон пирамида да се уради за српска села ботовски оно што је урађено за црногорска. -- JustUser JustTalk 12:00, 6. новембар 2007. (CET)
- Сад сам приметио. Ова последња ставка под обавезно и што пре. Код црногорских села се појављује трећа референца дупло, једном у оквиру шаблона статистички завод у Београду а други пут на дну у списку референци као статистички завод у Подгорици.
- |извор=Књига 2, ''Становништво, пол и старост, подаци по насељима'', Републички завод за статистику, Београд, фебруар 2003, ISBN 86-84433-01-7
-- JustUser JustTalk 12:08, 6. новембар 2007. (CET)
Само да јавим да сам видео ово и да имам на уму, те да ћу, кад ми време дозволи, одрадити то. --филип ※ 21:09, 6. новембар 2007. (CET)
Примери
уредиПримери су:
Такође, постоје и неки стари примери који се сада сматрају анахронизмима: Корисник:Милош/Крушевац код Подгорице и Корисник:Милош/Краљево.
Остало
уреди- Списак хомонимних насеља
- Спискови насељених места са координатама које треба средити (РЗС vs. НГА) (даља упутства овде)
- Списак чланака који треба да се унесу, а већ постоје или не постоје на Википедији
- Потпуни списак насељених места са координатама (НГА)
- Википедија:Српска села, списак села за спајање