Komentáře Lepší podpora PPTX, statistiky stažení LibreOffice, LibreOffice ve Windows

user avatar vydrysek
Odpovědět
Lepší podpora PPTX, statistiky stažení LibreOffice, LibreOffice ve Windows
6. 06. 2020, 20:39:44
Jen dvě poznámky:

Nedokážu si představit pracovat v Calcu s dokumentem o 16 milionech řádcích. Už současný milion tomu dává zabrat tak, že to není moc použitelné. Excel je v tomto směru o trochu lepší, ale o nějaké použitelnosti taky nemůže být řeč - musel jsem .csv soubory s milionem řádků začít zpracovávat v Pythonu.

V Linuxu Mint mám LO ve verzi 6.1, novější je k dispozici pouze manuálně. I to zřejmě může ovlivňovat statistiku.
user avatar neutr
Odpovědět
Re:Lepší podpora PPTX, statistiky stažení LibreOffice, LibreOffice ve Windows
7. 06. 2020, 05:41:16
Petr píše :

LibreOffice 7.0, jehož vydání se očekává v srpnu tohoto roku, bude podporovat 16 milionů řádků a 16.384 sloupců v Calcu. Pro aktivaci této možnosti je třeba v okně Možnosti povolit EXPERIMENTÁLNÍ FUNKCE a poté (je třeba mít otevřený sešit Calcu) v sekci LibreOffice Calc | Výchozí nastavení tuto možnost povolit.

Zatím je to tedy jen ve stádiu vývoje. Ale i po plném zprovoznění to bude asi volitelné. Takhle to je například u Gnumeric(u) který jsem používal právě pro data obsahující více než 1,044 milionu řádků. Otevíral jsem v tom například databázi adres ČR - přes 3 miliony řádků CSV (DBF ap.), ale existují i jiné "vydatné" - a není jich málo.

Gnumeric jsem používal prakticky jenom k rozsekání na vhodné menší díly, které už Calc pobere. (Je to statistický speciál, který umí, nebo "uměl" nahradit i funkcionality které v Calcu nebyly - ale jsou například v Excelu - není jich moc ap.)

Musíme si asi připomenout, že původní tabulkové procesory pokud si dobře pamatuji uměly "jenom" 256 sloupců a 16 tisíc řádků. Ještě před pár roky byl milion řádků pro Calc "velká novinka". Ve skutečnosti jde jen o tom jak se přistupuje k datům.

Můžeme si to představit například jako funkci "Hlavního dokumentu" pro Writer, který načítá dílčí sekce. Jinou podobností je možnost slučovat v Calcu listy z jiných sešitů. Také bych měl asi citovat podobnost s kontingenční tabulkou, která z databáze extrahuje jenom vybrané položky z některých sloupců.

Uvedené procesy někdy chvíli trvají, ale když se udělá správná obsluha dat uložených na disku tak člověk nepozná rozdíl mezi komplexním a sekvenčním přístupem. Například na obrazovce bude vždy jen několik sloupců a řádků, takže screen bude vždy nějak konstantně veliký. Když zadáme vzorce přes mnoho milionů řádků, tak si můžeme o půl vteřinku počkat - ale bude to tam.

Vývoj jde dopředu a proto mají vliv například SSD disky (Solid State Drive) s řádově rychlejším přenosem i kapacitou nežli klasické rotační (magnetické) disky, velké operační paměti a stoupající rychlost přenosů, používání OpenCL (sekundární paměti dostupné z grafických karet) a tak dál. Takže s přirozeným vývojem se zvětšuje a zrychluje a to umožňuje zpracovávat větší bloky s daty.

Takže jde jen o to vyladit program tak, aby dovedl používat dostupné možnosti. Vaše připomínka vlastně evokuje otázku "proč?".

Už dnes si lze dobře poradit s velkými objemy dat, ale ne každý to umí. Takže je zde uživatelský komfort. Ta tom je dobré, že i ten kdo si umí poradit nemusí vynakládat čas na přípravu dat - nemluvě o těch co to neumí.

Pro velké objemy dat byly vytvořeny databázové aplikace, jejichž význam a potřeba asi nikdy nezmizí, ale v drtivé většině případů je možné databáze plnohodnotně nahradit Calcem (respektive tabulkovým procesorem). To zpětně klade otázku zda v budoucnu bude potřebné umět práci s databázemi. Dnes je to velice ceněná specializovaná profese, ale tato už zaznamenala určité krize. Specialista na databáze neví dne ani hodiny kdy bude bez práce.
 
 
woo jaw demo hz