Dizertační práce
Indexování dat pro Bioinformatiku
Levná technologie pro sekvenování genomu odstartovala obrovský nárůst dat, která je potřeba uložit a zpracovat. Takto obrovský objem dat je potřeba pro personalizovanou medicínu, pro výzkum pangenomu nebo pro hledání biomarkerů pro různé nemoci. Tradiční indexy umožňující efektivní vyhledávání tentokrát selhávají kvůli překročení dostupné paměti. Také nevyužívají důležitou vlastnost vysoké podobnosti sekvencí lidského genomu.
Poslední vývoj v oblasti stringologie přinesl různé komprimované indexy založené na Burrows-Wheelerově transformaci. Cílem projektu je nalézt efektivnější metody pro ukládání a indexování dat pro různé úlohy v bioinformatice.
Komprese textů v přirozeném jazyce
Claude Shannon provedl experiment v roce 1951 a dospěl k závěru, že entropie anglického textu je 0,6-1,3 bitů na znak. Model takového experimentu zahrnuje znalost anglické gramatiky, anglické slovní zásoby a nejběžnějších anglických frází.
Cílem práce je zvýšit efektivitu komprese textů přirozeného jazyka pomocí relaxace výše uvedeného modelu. Několik fází analýzy přirozeného jazyka bude použito jak k porozumění textu, tak k efektivnější kompresi textu.
Komprese XML dat
Datový formát XML byl zaveden před mnoha lety a dnes je široce používán jako defacto standard pro reprezentaci a výměnu dat přes WWW. Bylo vyvinuto mnoho technik komprese XML. Některé neumožňují dotazy bez dekomprese celého XML dokumentu, některé ano. Nejnovější vývoj ve stringologii nám však přinesl rychlé a komprimované datové struktury pro ukládání dat na základě Burrows-Wheelerovy transformace. Cílem dizertační práce je nalézt efektivnější metody pro ukládání a dotazování dat ve formátu XML. Tyto metody by měly zachovat snadný a rychlý přístup k uloženým datům a zároveň zlepšit složitost paměti.