Rigorous Engineering of Data Analysis Pipelines (RiGiD)
Program
Grantové projekty excelence v základním výzkumu EXPRO
Poskytovatel
Grantová agentura České republiky
Řešitelé
Kód
GX23-07580X
Období
2023 - 2027
Popis
The RiGiD project lays the groundwork for this research programme and aims to develop a methodology for rigorous engineering of data analysis pipelines that can be adopted in practice. Our approach is pragmatic. Rather than chasing functional correctness, we hope to substantially reduce the incidence of errors in the wild. The research is structured in three overlapping chapters. First, identify the problem by carrying out user studies and large-scale program analysis of a corpus of over 100,000 data science pipelines. The outcome will be a catalog of error patterns as well as a labeled dataset to be shared with other researchers. The technical advances will focus on combining dynamic and static program analysis to approximate the behavior of partial programs and programs written in highly dynamic languages. The second part of our effort proposes a methodology and tooling for developing data sciences codes with reduced error rates. The technical contributions of this part of the project focus on lightweight specification techniques and, in particular, the development of a novel gradual typing system that deals with common programming idioms found in our corpus. This includes various forms of object orientation, data frames, and rich value specifications. These specifications are complemented with an automated test generation technique that combines test and input synthesis with fuzzing and test minimization. Finally, the execution environment is extended to support automatic reproducibility and result audits through data lineage. The third and last part of the work evaluates the proposal by conducting user studies and developing tools for automating deployment. The contribution will be a qualitative and quantitative assessment of the RiGiD methodology and tooling. The technical contribution will be tools that leverage program analysis to infer approximate specifications to assist deployment and adoption. Our tools target R, a language for data analytics with 2 milli
ELIXIR-CONVERGE
Program
Horizon 2020
Poskytovatel
Evropská komise
Pracoviště
Řešitelé
Kód
871075
Období
2021 - 2024
Popis
The diversity, complexity and volume, as well as privacy and regulatory considerations, necessitate a collaborative and federated approach to life-science data. For scientists to find and share data across Europe and world-wide, ELIXIR needs to continuously develop and connect its services. The international ecosystem provided by ELIXIR – with 220 institutes in 23 Nodes, connecting hundreds of bioinformatics services – is globally unique and a competitive advantage for European research. Through our national Nodes ELIXIR has the geographical spread, service portfolio and expertise to fulfil our ambition that every European project uses FAIR data based on common standards, tools and services.
The initial operational phase of ELIXIR, supported by the H2020 ELIXIR-EXCELERATE project, focussed on the coordination and delivery of bioinformatics services from national Nodes. This lay the foundation for a coordinated European infrastructure. ELIXIR-CONVERGE will build on these achievements to deliver another critical component: the provisioning, across Europe, of distributed local support for data management based on a toolkit for researchers that enables lifecycle management for their research data according to international standards.
ELIXIR-CONVERGE will develop the national operations of such a distributed research infrastructure to drive good data management, reproducibility and reuse in a heterogeneous funding landscape. Over 36 months and with partners from our 23 Nodes, ELIXIR-CONVERGE takes the next step to realise a European data federation where interconnected national operations, strategically managed via national research infrastructure roadmaps, allow users to extract knowledge from life science’s large, diverse and distributed datasets. By connecting ELIXIR Nodes to provide FAIR data management as a service, ELIXIR-CONVERGE will build national capacity and create a blueprint for operating sustainable Nodes in distributed research infrastructures.
Nové výzvy ve výpočetní sociální volbě
Program
Standardní projekty
Poskytovatel
Grantová agentura České republiky
Pracoviště
Řešitelé
Kód
GA22-19557S
Období
2022 - 2024
Popis
Pro návrh algoritmů na řešení těžkých problémů v oblasti výpočetní sociální volby jsou dnes standardem jak parametrizované tak aproximační algoritmy. Kernelizace, jedna z hlavních technik v parametrizované složitosti, je překvapivě málo používána pro řešení problémů sociální volby. Jsme přesvědčeni, že kernelizace -- formalismus pro bezpečnou redukci vstupních dat -- má své místo ve všech výzkumných odvětvích týkajících se velkých vstupních dat. Nejnovějšı́ koncept je tzv. ztrátová kernelizace, která je jednak použitelná v kombinaci s aproximačními algoritmy (narozdíl od normální kernelizace, kterou lze kombinovat pouze s exaktními algoritmy), a druhak dokáže obejít těžkostní výsledky za cenu zavedení mírné nepřesnosti do výsledku. Navrhujeme aplikovat tyto moderní nástroje -- ztrátovou kernelizaci -- ve výpočetní sociální volbě. Navrhovaný projekt navazuje na naši předchozí práci v tomto oboru a uvažované směřování výzkumu bude vyžadovat nové algoritmické přı́stupy.
Vytipovali jsme řadu zajímavých otevřených problémů a otázek, kde vidíme potenciál dosáhnout výsledků aplikováním zmíněných technik. Cílem je významně prohloubit poznání výpočetní složitosti těchto problémů nalezením polynomiálně velkých (ztrátových) kernelů popřípadě vyloučit jejich existenci.
logicMOVE: Logické uvažování v plánování pohybu pro mnoho robotických agentů
Program
Standardní projekty
Poskytovatel
Grantová agentura České republiky
Pracoviště
Řešitelé
Kód
GA22-31346S
Období
2022 - 2024
Popis
Plánování pohybu mnoha robotických agentů (MR-MoP) je úloha, kdy je potřeba najít posloupnosti jedno-duchých pohybů pro jednotlivé robotické agenty tak, aby každý z nich splnil svůj dílčí úkol a zároveň mezi agenty nedocházelo ke kolizím. Důležitou charakteristikou úlohy je velký počet relativně jednoduchých pohyblivých robotických agentů, kteří mohou vzájemně různým způsobem fyzicky interagovat. Úloha vy-chází ze známého multi-agentního hledání cest (MAPF), ale klade větší důraz na reálné vlastnosti prostředí, ve kterém robotičtí agenti působí, tedy přímo předpokládá spojitost prostoru a času. Zohledňování spojitosti prostředí přímo v abstraktních modelech může vést k vytváření přesnějších a efektivnějších plánů. Projekt předpokládá algoritmicky přispívat na všech důležitých vrstvách abstrakce vytváření pohybových plánů pro multi-agentní systém, tedy od úrovně (diskrétního) klasického plánování, skrz (spojité) plánování pohybu, po vykonávání plánů s fyzickými roboty. Nové algoritmy budou vycházet z principů logického uvažování, zejména se budou opírat líné kompilační přístupy.