prof. Dr. Ing. Petr Kroha, CSc.

Závěrečné práce

Dizertační práce

Extrakce informací z textu

Stupeň
Téma dizertační práce
Popis tématu

Extrakce informací z textu se používá v mnoha oborech k redukci textu vynecháním jeho částí, které nenesou informaci relevantní pro uživatele. Patří sem např. sumarizace textu. Téma je z oblasti text mining, což je obor plný otevřených problémů. V našich publikovaných pracích jsme používali techniky linguistické analýzy vět (angl.. part-of-speech tagging) a clustrování podle podmnožin vět (angl. chunking) pro účely analýzy textů funkčních požadavků na softwarový produkt. Na základě textů jsme generovali dotazy, jejichž cílem bylo analýzou odpovědí zpřesňovat specifikaci funkčních požadavků. Cílem práce je použít vyzkoušené techniky z našich publikací v oblasti extrakce textů, porovnat je se současnými výsledky publikovaných metod a nalézt dokonalejší nové metody.

Diplomové práce

Vyhodnocování dat z hlediska teorie chaosu

Autor
Miroslav Škoula
Rok
2018
Typ
Diplomová práce
Vedoucí
prof. Dr. Ing. Petr Kroha, CSc.
Oponenti
Ing. Daniel Vašata, Ph.D.
Anotace
Časové řady popisující chování trhů obsahují směs trendů a chaotických úseků. Cílem této práce je ukázat, zda nový indikátor, postavený na ukazatelích míry chaosu (např. Hurst exponent), je použitelný při technické analíze a jaká je jeho profitabilita v porovnání s ostatními parametry.

Generování entit modelu UML z textového zadání požadavků na softwarový systém

Autor
David Šenkýř
Rok
2017
Typ
Diplomová práce
Vedoucí
prof. Dr. Ing. Petr Kroha, CSc.
Oponenti
Mgr. Ondřej Dvořák
Anotace
Kvalita zpracování požadavků na softwarový systém zastává důležitou roli v rámci celého životního cyklu vývoje a údržby softwarového projektu - protože ostatní fáze jsou na ní závislé. Formulace takových požadavků jako text v přirozeném jazyce je běžnou praxí. Přirozený jazyk je však náchylný k řadě nepřesností jako je například nejednoznačnost, nekonzistence či neúplnost. Tato práce představuje CASE nástroj pojmenovaný TEMOS, který je schopný generovat fragmenty UML modelu tříd z textových požadavků na softwarový systém, a zároveň může být uživateli nápomocný v odhalovaní zmíněných nepřesností v textu.

Implementace úložiště a dotazovacého rozhraní pomocí grafové databáze Neo4j

Autor
Vigneshwar Manoharan
Rok
2022
Typ
Diplomová práce
Vedoucí
prof. Dr. Ing. Petr Kroha, CSc.
Oponenti
Ing. David Šenkýř
Anotace
V této práci prezentuji svou implementaci ukládání lingvistických vzorů jako orientovaného grafu do databáze Neo4j a dotazování se na odpovídající vzory. Dále to bude využito v jedné z činností dolování textu, které gramaticky kontrolují nestrukturovaný text, a to primárně se značkováním slovních druhů a analýzou závislostí mezi každým slovem věty za účelem odhalování nepřesností, které se vyskytují v textu a které jsou způsobeny nejednoznačností, neúplnost a nedůslednost. Tento proces používá metodu rozpoznávání založenou na vzorech k identifikaci vzorů v textu a poté jej porovnává s definovanými vzory, aby se zjistily nepřesnosti. Protože tyto textové vzory věty jsou reprezentovány jako orientovaný graf, budou uloženy v databázi Neo4j, která obsahuje slova, slovní druhy a interpunkci jako uzly. Závislosti mezi každým uzlem budou uloženy jako vztahy a poté bude provedeno porovnávání dotazu (vzoru vět) s předdefinovaným uloženým vzorem. Toto slouží ke kontrole, které předdefinované vzory jsou podgrafy dotazu (vzor vět). Takže tyto výsledky budou použity v další fázi procesu dolování textu k detekci a opravě nepřesností, které se vyskytují v textu.