Cvičení 3: NLP – instrukce

03/31/2019 | By kase | Filed in: Uncategorized.

(AKTUALIZOVÁNO pro rok 2021)

Toto cvičení je vlastně takovou malou ochutnávkou (nebo, chcete-li, nahlédnutím pod pokličku) vědeckého programování. Vědeckým programováním se míní, že programujeme pro badatelské cíle. To znamená, že cílem našeho programátorského úsilí není např. vytvoření nějaké aplikace, ale shromažďění, zpracování, analýza a vizualice dat. V tomto ohledu jsou pro nás klíčové nástroje spjaté se stále více se rozmáhající disciplínou datové vědy, neboli Data Science (viz heslo na české wiki).

Datoví vědci nezřídka pracují s daty v podobě rozsáhlých textů. Používají přitom algoritmy z odvětví informatiky nazvaného Zpracování přirozeného jazyka, neboli Natural Language Processing, zkráceně NLP. Pár takových jednoduchých algoritmů si vyzkoušíme v našem cvičení.

Když se v rámci Digital Humanities počítačově analyzují a vizualizují humamitně-vědná data, je to zpravidla za využití nástrojů vyvíjených a používaných ve vědeckém programování datovými vědci a informatiky, spíše než pomocí nástrojů vlastních.

Abychom mohli programovat, musíme zvolit programovací jazyk. V rámci datové vědy je velice oblíbený programovací jazyk Python. Ten se vyznačuje velice jednoduchým syntaxem. Jeho obliba jde ruku v ruce s tím, že jsou pro něj neustále vyvíjeny nové a nové moduly obsahující dodatečné rozšiřující funkce pro specifické úkoly, např. pro práci s textovými daty. Python se objevuje ve dvou verzích (Python 2 a Python 3), které se drobně liší v syntaxi. My budeme pracovat s Pythonem 3.

Python se nejčastěji používá tak, že si jej nainstalujete na svém počítači. Máme-li jej nainstalovaný, můžeme s ním komunikovat z řady aplikací, např. z příkazového řádku: V aplikaci napíšeme příkaz, aby Python např. sečetl dvě čísla, Python tento příkaz interpretuje a vrátí výsledek.

Dnes však vzrůstá popularita aplikací, k jejichž použití nepotřebujeme Python nainstalovaný na našem počítači, ale vystačíme si s připojením k internetu a využijeme Python nainstalovaný a zpřístupněný kdesi na vzdáleném webovém serveru. Takovou službu nabízí např. webová aplikace s názvem Google Colaboratory (viz FAQ). GoogleColab umožňuje vytvářet, spouštět a sdílet s dalšími uživateli kód pro Python ve formě tzv. jupyter notebooků.

Jupyter notebook je formát souboru zvláště vhodný pro potřeby vědeckého programování. V jupyter notebooku vytváříme a spouštíme skript buňku po buňce, přičemž mezi buňky kódu můžeme vkládát i buňky průvodního textu (viz instrukce v našem vlastním jupyter notebooku pod odkazem níže). V rámci jednoho spuštění jupyter notebooku se později spuštěná buňka může opírat o věci nadefinované v dříve spuštěných buňkách.

Cvičení

Našim úkolem v tomto cvičení je (1) otevřít si v prohlížeči jeden konkrétní soubor jupyter notebooku (odkaz níže), (2) vytvořit si jeho vlastní kopii (za využití vlastního/univerzitního google účtu), (3) následovat instrukce uvnitř jupyter notebooku, (4) spouštět kód buňku po buňce, (5) na příslušném místě nahradit jednu webovou adresu za jinou, (6) nakonec soubor uložit do PDF pomocí volby File->Print z nabídky na horní liště a (7) nahrát PDF soubor na příslušné místo na platformě Teams.

Náplní cvičení je provést základní kvantitativní textovou analýzu některého digitalizovaného dokumentu ve formátu PDF z Archivu Jana Patočky (AJP). Úkolem tedy je otevřít webovou stránku s konkrétním dokumentem a v rámci ní zkopírovat URL adresu PDF dokumentu v sekci Soubory.

POZOR: Toto je však možné pouze v případě těch dokumentů v rámci archivu, které jsou opatřeny digitalizovaným přepisem textu, tj. zpravidla se v sekci Soubory nachází vícero souborů, z nichž PDF soubor je až ten poslední z nich (např. jako na prvním obrázku níže). V případě, že se v sekci Soubory nachází odkaz pouze na jeden soubor (např. jako na druhém obrázku níže), tak musíme zvolit jiný dokument. Přepis je typicky dostupný u kratších spisků, zejména dopisů.

Dokument s přepisem, který je možné použít pro potřeby cvičení.

Dokument, u kterého je pouze „obrázkové“ PDF bez rozpoznaného textu, a který tudíž nelze použít pro potřeby cvičení.

Ještě si připomeňme, že pokud v rámci kódu narazíme na chybovou hlášku, nejčastěji to bude tím, že jsme spustili kód z jedné buňky dříve, než jsme spustili kód v bunkách předchozích. Pokud se tak stane, můžeme se vrátit a spustit buňky znovu (skript je udělán tak, že opakované spuštění stejné buňky nevadí). Také to může být způsobeno tím, že jsme zkopírovali chybný odkaz – url adresa by měla začínat “ https://archiv.janpatocka.cz/ “ a končit „.pdf“.

Taktéž je třeba pamatovat na to, že pokud v průběhu práce s jupyter notebookem dojde na určitý čas k přerušení připojení k internetu, jupyter notebook se restartuje, a tudíž musíme opět spouštět buňky od začátku.

Náš soubor jupyter notebooku na platformě GoogleColab se nachází pod tímto odkazem (pro práci s ním je potřeba si v prohlížeči vytvořit jeho vlastní kopii pomocí vlastního/univerzitního google účtu).

Comments are closed here.