Návrh řešení

Idea

  • Zdrojová data držet separatně od logiky výpočtu.
  • Výpočet mít v jupyter notebooku z důvodu možnosti obsáhle komentovat probíhající výpočty a je snadné vykostit skriptíky do separátího souboru a ten někde pravidelě pouštět.
    • Navrhuju počítat skore pro každou školu na základě zdrojových dat - ze skore následně relativně odvodit vůči zbytku škol "jak na tom je" - mám rád relativní srovnání.
    • Pravidla si musíme říct - já nemám vůbec kontext co je klíčové, tak by to sneslo asi nějaký confcall si to říct.
  • Vizualizaci oddělit od výpočtů - vznikne výstupní tabulka, kterou se bude dát krmit nějaké vizualizovátko (Google Data Studio, what ever)

Řešení

Technologie

  • Zdroj dat: AWS DB
  • Logika: Python v JupyterNotebooku sdílený přes GitHub (privátní / soukromý repo)
  • Výstup: Google Sheet
  • Vizualizace: Google Data Studio / ???




Open-pointy

OtázkaOdpověď

Eva Pavlíková  výstupem má být obohacení toho reportu co je tady - https://www.ucimeonline.cz/o-nas - nebo zcela nová mapa ČR, kde budou data o kterých jsme se bavili?

Výstupem by měla být samostatná mapa, protože tam budou jiné typy informací a asi i jiná granularita (tick)

Eva Pavlíková vadilo by kdybych vynechal kompletně Data Studio od Google v případě fungl nové mapy? Mě přijde, že by se to dalo vizualizovat i v jiném nástroji.

Nevadí, záleží na tom, aby data byla dobře zobrazitelná. (tick)

co znamenají ty závorky? Resp. celé ty názvy - chápu ZŠ, ale nechápu Jen technika a závorka mi taky uniká.

Ex post jsem našel -viz níže - tak si tak nějak říkám jstli ty listy nejsou vlastně přerozdělené školy podle té statistické tabulky. Asi jo, dává my to smysl.

Chápu to správně, že tohle je datový zdroj s názvem Seznamy škol-ICT technika a digi kompetence.xlsx?

Jako zdrojová data z výstupu ČSI je nutné použít tyto data ZŠ podle priority_data.xlsx a  SŠ podle priority_data.xlsx, protože to jsou zdrojová řádková data. Ty výše uvedená je už nějaká jejich agregace.

Eva Pavlíková ano, je to tak jak pišeš a tak jsem to i udělal. Jen mě šlo o to pochopit proč tam jsou ty jednotlivé listy. Ale asi mi to do sebe už zapadá.

Eva Pavlíková  koukal jsem na ty data a jako nemám pocit, že by cokoliv z toho splňovalo povahu osobních dat. Ale říkám si že asi není gut, to uplně nahrát na soukromej Google Drive. Tak pak se budeme muset domluvit, že to pod tvůj účet někam někde nahrajeme do Drive a dáš mi práva. Rád bych abys vlastníkem dokumentu byla ty a já tam případně jen pracoval.

Máme Gsuite pro Česko.Digital. Založila jsem tuto složku, přístup bys měl mít: https://drive.google.com/drive/u/0/folders/1ttPBo9WUY7U3fChq6dw13ec66CS9PL3q (tick)

Eva Pavlíková delam si nejakou mapovaci tabulku, ktery vysvetluje vyznam jednotlivych sloupcu - u těch otázek - tam je to jednoduché jako facka co znamená klíč a co ta hodnota, ale u některých sloupců je pro mě jakožto člověk kompletně mimo školství poznat co je co, existuje možnost jak to doplnit, abych plně rozumněl významu těch hodnot? jde mi zatím o toto:

KlíčVýznam
ID akce
REDIZO

IZO
Typ IZO
Instituce
Typ zřizovatele
Kraj
Plán od
Plán do
DatUzav
Stav
Typ akce
Téma
SF
PIN

Z jakého je to Pavel Petrsouboru? A't se případně doptám u autora.

Eva Pavlíková  tady ZŠ podle priority_data.xlsx nebo SŠ podle priority_data.xlsx - jsou to ty úvodní sloupce

Pavel Petr Přemýšlím, jestli se správný výklad nedá dohledat tady: https://www.msmt.cz/vzdelavani/skolstvi-v-cr/statistika-skolstvi nebo https://www.msmt.cz/vzdelavani/skolstvi-v-cr/statistika-skolstvi/pro-verejnost

Eva Pavlíková v datech byla označená duplicita - jde o střední školu. Vypadá to jak když to vyplnili dvakrát pokaždé jinak, tak buď vezmu záznam, kde je víc dat, nebo to ručně zmerguju nebo záznam jako chybu vyhodím uplně. Osobně bych to vyhodil. Lepší než aby někde svítilo že jsou na tom blbě když to enní třeba pravda. Tak estli na to máš názor. Tkahle jak to je to bude dělat bordel.

Z jakého je to souboru? Zeptám se u autora. Jedná se o jediný záznam?

SŠ podle priority_data.xlsx; jiný jsem zatím nenašel

Eva Pavlíková je požadované, aby bylo možné vizualizovat progress v čase nebo nás zajímá pouze stav, který se bude dát updatnout - ručně/ automaticky. Jen dopředu říkám, že ten progress bude pro mě extra práce, to budu muset prokoumesit (smile) jak na to bo to můžeme udělat na více slotů - nejdřív hloupě a pak nějak vývoj v čase. Kardinální vlastně je, jestli bude z čeho to počítat (smile)

😍

ASi nevím,co znamená progressv čase. Díky za upřesnění.

Eva Pavlíková no když o tom uvažuju zpětně tak tohle je asi zbytečný dotaz; přemýšlel jsem moc dopředu (tick)