Doplnění českých slovníků

Nosím v hlavě plán, na jehož realitaci mi nezbývá čas. Poměrně živá diskuze pod aktualitou o nové verzi slovníků mě pozitivně navnadila a říkám si, že by se možná našel někdo, kdo by se plánu ujal.  

Český slovník pravopisu, který nyní používáme, pochází z GNU ispellu, programu, který se pro kontrolu pravopisu používá pod linuxem, v rámci různých GNU projektů. To z něj ale činí slovník výběrový. Obsahuje spoustu výrazů z prostředí počítačových sítí a Linuxu vůbec, tam je bohatší než slovníky používané v rámci Wordu, ale těžce kulhá v oblastech, kde Linux nedominuje, postrádá výrazy z prostředí stavebnictví, nepočítačového průmyslu, právního a medicínské výrazy. Slovník je již hodně starý, základy byly položeny někdy před deseti lety. A je průběžně doplňován, metoda je prostá, vezme se uživatelký slovník ispellu a zašle se správci slovníku, Petru Kolářovi, který ve volné chvíli ke slovům přiřadí tagy umožňující jejich skloňování a časování a vloží kořen slova do hlavního slovníku. Ten zase později zveřejňuje na Internetu.

Plán tedy je posílat uživatelské slovníky vznikající průběžně při práci v OpenOffice.org. Zatímco ispell používá primitivní formát jedno slovo na řádce a prakticky každý jeho uživatel dokáže před odesláním vymazat řádky, které zveřejňovat nechce, v OpenOffice.org je potřeba pro reportování slov vytvořit makro, které jej zjednoduší. Formát slovníku není nijak komplikovaný, ale jeho ruční editace je obtížná. Soubor je v zásadě binární, obsahuje na začátku magic sekvenci podle které jej OOo pozná a potom seznam slov oddělený sekvencí 0x00 0x03. Nástroj pro reportování slov chybějících ve slovníku by měl dvě komponenty, serverovou a klientskou.

Klientská by bylo makro, které by po startu načetlo uživatelův slovník a po odsouhlasení uživatele by pro každé slovo provedlo dotaz na server, jestli je slovo reportované nebo není. Ze slov, která by reportovaná nebyla by sestavilo seznam, který by byl uživateli zobrazen, uživatel by mohl odstranit slova, které nemají být reportována a v luxusnější verzi by mohl editovat slova, která budou reportována (jejich převedení do základní formy). Nakonec by makro odeslalo seznam slov na server a vytvořilo lokální soubor, kde by byla uložena již zpracovaná slova, aby nebyl uživatel příště obtěžován.

Serverová strana by prostě jen udržovala seznam slov reportovaných uživateli, případně by v luxusni variantě umožnila hlasovat o zařazení slov do slovníku a nebo dokonce otagovat slova přímo na webu, aby bylo uložení do hlavního slovníku rychlé a bezbolestné. Výstupem iniciativy by bylo rozšíření slovníku pro ispell a tím současně i rozšíření slovníku pro OOo. Tak co, troufá si někdo na takovou věc, nebo její část? Mohu přispět radou, vysvětlením, mám k dispozici spoustu serverů, ale nemám čas to napsat.

(Jako ve škole)
 

Komentáře

user avatar Anonymní
Odpovědět
jako uživatel podpořím
7. 03. 2006, 07:16:56
napsat rozhodně ne, ALE rád bych se účastnil jako prostý uživatel se svým slovníkem, je to skvělý nápad. D.
user avatar JirkaZ
Odpovědět
Pro ověření správných tvarů
7. 03. 2006, 12:24:45
slov v takto vznikajícím/upravovaném slovníku doporučuji http://www.pravidla.cz
user avatar Anonymní
Odpovědět
Hledal jsem tam licencni
7. 03. 2006, 12:36:18
Hledal jsem tam licencni podminky vyuziti a nasel jsem:

Databáze pravidel obsahuje aktuálně 34.846 českých slov.
Databáze slovních tvarů obsahuje aktuálně 3.230.785 tvarů českých slov.
(pro generování slovních tvarů používáme Ispell)

takze to je presne ta databaze, ktera v OOo je nyni a kterou potrebujeme rozsirit. Ale i tak diky za namet.
user avatar Christof
Odpovědět
kdyz uz padlo overovani, tak
7. 03. 2006, 15:06:15
kdyz uz padlo overovani, tak me napadlo, ze by slova mohla overit ajka (http://nlp.fi.muni.cz/projekty/wwwajka)
user avatar Zdenda
Odpovědět
Grant, sponzorstvi
7. 03. 2006, 17:55:52
Dobry den,

pozadavku na vytvoreni GPL aplikaci apod. stoupa a stoupa. Ale lidi, kteri by to zmakli po praci je safranu.

Jake jsou moznosti na nejake fakulte na to ziskat grant? Nebo z EU apod.?
Byla by chut na to vytvorit sbirku? Autor clanku pise, jako by to nebyla az tak slozita aplikace, ktera by se delala roky. Treba by na to mohly prispet urady, firmy, ktere OO pouzivaji. OO prodava S602 ... V cesku byly zalozeny nejake organize na podporu Open Source, jak tomu mohou pomoci ony?

Mozna by bylo lepsi hledat cesty jak nekoho zaplatit, nez hledat chudaka, kdo to pro dobro sveta zbouchne.
user avatar Anonymní
Odpovědět
Podle me je prave u tohohle
7. 03. 2006, 18:19:44
Podle me je prave u tohohle problem, ze je to na grant moc levne. Dyt co to muze stat, kdyz napad a analyzu ocenim na 10k, programovaci prace na 30k a nejakych 5k pro grafika. Tak mame 45k nakladu. Agentury zastupujici v grantovem rizeni v EU maji narok na 5% grantu, takze mame naklady zhruba 50k.

A to je uplne blba cifra. Jednak agentura rekne, ze za 2500 ty tabulky nevyplni, protoze se ji to nevyplati. Druhak je to castka pro urednika smesna, naklady projektu se uvadeji v tisich euro, takze tam budete mit, ze chcete 1,5.

Mozna by to byla prijatelna castka pro narodni grantove rizeni, ale snadno by se mohlo stat, ze by autora vycerpalo vice nez to programovani :-)

Pro free software organizaci je to zase naopak hodne. Pokud bude organizace vybirat po 250 korunach, tak na 50k spotrebuje prispevky 200 clenu.

Co prodava 602 nevim, ale meli pro PC Suite licencovanou dost kvalitni kontrolu pravopisu, takze ji mozna davaji i do OOo602 a potom nejsou zavisli na ispellu.
user avatar Zdenda
Odpovědět
Aha, s tim grantem EU to byl
7. 03. 2006, 20:54:21
Aha, s tim grantem EU to byl jen napad :) Netusil jsem, ze se do OpenOffice da strcit cizi slovnik. 45 000.-? To by v tom byl cert, aby se nenaslo 200 lidi ... A firmy nezabije prispet vic jak 2 stovky ne? Ted jeste jestli existuje clovek, pro ktereho by ta castka byla adekvatni.
user avatar jskuhrovec
Odpovědět
grant
20. 04. 2006, 08:29:21
ahoj,
programuju dost - ale na něco podobnýho bych si netrouf. Ale studuju ekonomii na UK, několik grantů už jsem připravoval.

Není pravda, že granty za 50.000 kč EU nebere. Existují naopak programy, kde se o moc víc na jednu žádost nedává. ( např http://www.edotace.cz/138/podpora-zakladni-informace/graficky-design-design-internetove-prezentace-multimedia/ ).

Řekněme, že reálný náklady na vytvoření jsou 40.000 kč, neni problém zažádat o 80.000, udělat trochu šedivýho účetnictví a zaplatit všechno to papírování kolem grantu ( na který vám EU v ŽÁDNÝM případě prachy nedá, natož pak aby uznala jako náklad 5% marži agentury ).

Měl-li by kdo zájem, mailněte na
jskuhrovec(zavinacz)gmail(bodka)com
user avatar Radek II
Odpovědět
Jsem pro :o)
8. 03. 2006, 12:37:33
Já bych se do toho docela rád pustil. O klientskem skryptovani toho moc nevim, ale ta serverova cast by nemel byt pro me problem, zvlast pokud by bylo schudne reseni v Jave nebo PHP ... Bohuzel jsem ale schopny obetovat tak cca 10hod tydne, coz neni mnoho, ale na spolupraci by to mozna stacilo?
user avatar Aleš Kapica
Odpovědět
Zaujalo mě to
8. 03. 2006, 16:42:05
Rád bych se na to podíval. Potřeboval bych si však ujasnit některé věci. Bohužel dnes jak na potvoru nestíhám. Když tak mohl by mi autor příspěvku napsat? Poslal bych mu číslo na ICQ
user avatar Aleš Kapica
Odpovědět
Hm tak tohle jsem fakt nečekal
8. 03. 2006, 16:44:13
Můj e-mail je ales(dot)kapica(at)ovajih(dot)cz
user avatar Radek II
Odpovědět
Co jsi necekal? ... jinak
9. 03. 2006, 09:12:18
Co jsi necekal? ... jinak muj mail je: pogl (na) seznam (botka) cz
user avatar Aleš Kapica
Odpovědět
Nečekal jsem..
9. 03. 2006, 09:24:57
..že ten e-mail, který se musí napsat při zadávání komentáře nikde nezobrazí ani neprojeví (třeba jako - pošlete zprávu autorovi komentáře, atp.)
user avatar Jan Fiala
Odpovědět
Nabizim slovnik
30. 03. 2006, 07:57:47
Pro sve ucely muzete vyuzit i slovnik ze stranek PSPadu. Je to plaintext seznam slov vcetne nekterych tvaru, nektere se generuji.
http://www.pspad.com/cz/download.php#dictionary
Je doplneny z mnoha zaslanych uzivatelskych slovniku, nakrmeny spoustou textu z internetu a literatury takze by tam melo byt dostatek slov, ktere v ISpelu chybi.
user avatar Ty-Dyt
Odpovědět
A co to dat jako projekt na skole??
12. 04. 2006, 00:13:16
Na nekterych skolach, jako je treba MFF obor informatika probiha neco, cemu se rika softwarovy projekt. Kdyby se toho nekdo ujal, navrhl to komisi, a pak se "staral" o tech 4-5 lidi, co by to delalo, byla by cela vec myslim celkem realne realizovatelna... Krom toho, delalo by se alespon neco, co bude k necemu opravdu dobre...

Krom toho, mam pocit, ze je na MFF celkem hodne lingvistu a pro jejich ucely se delaji ruzdne "sbery slov" z internetu (neco jako, ze se slovo oznaci za ceske, pokud se najde alespon na deseti strankach dostatene kvality)
Nevim v jak moc jsou takove projekty rozvinute, ale asi by to stalo za zjisteni...
user avatar fraktik
Odpovědět
http://slovnik.zcu.cz/download.php
1. 10. 2006, 08:44:01
na http://slovnik.zcu.cz/download.php je GNU slovnik, ze ktereho by slo mozna teze neco vydolovat...

Přidat názor

 

Nejsou podporovány žádné značky, komentáře jsou jen čistě textové. Více o diskuzích najdete v nápovědě. Diskuzi můžete sledovat pomocí RSS kanálu.

 
Dan Ohnesorg

Dan Ohnesorg

 
 
 
woo jaw demo hz