VÝPOČETNĚ NÁROČNÉ ÚLOHY Z OBLASTI SEKVENOVÁNÍ NOVÉ GENERACE

PartneR: FAKULTNÍ NEMOCNICE OSTRAVA

Odvětví: ZDRAVOTNICTVÍ

Oddělení lékařské genetiky má v rámci Fakultní nemocnice Ostrava výjimečné postavení vzhledem ke svému nadregionálnímu významu vyplývajícímu ze spádové oblasti Moravskoslezského kraje. Toto oddělení poskytuje genetické poradenství a provádí specializovaná vyšetření ve spolupráci se svými cytogenetickými a molekulárně genetickými laboratořemi i s laboratořemi v celé České republice a v zahraničí. Jedná se o multidisciplinární obor, jehož výsledky se promítají do všech oblastí lékařské péče a jejich hlavním zaměřením je prevence. Zabývají se diagnostikou vrozených vývojových vad, vývojových poruch v dětském věku, monogenních onemocnění, onkologických, neurologických a neurodegenerativních onemocnění atd. Mnoho jejich klientů tvoří těhotné ženy a páry plánující těhotenství, a proto se zabývají také diagnostikou poruch plodnosti a plánováním těhotenství u párů nesoucích genetická onemocnění, rodinnou zátěž nebo u párů v příbuzenském vztahu.

Hlavním cílem této spolupráce bylo otestovat provádění složitých výpočetních úloh z oblasti sekvenování nové generace (NGS) na superpočítačové infrastruktuře centra IT4Innovations a získat tak základní údaje z hlediska výpočetní složitosti, škálovatelnosti a objemu dat pipeline NGS.

K testování složitosti zpracování dat NGS byly použity systémy IT4Innovations Barbora a Karolina. Nejmodernější zpracovatelská pipeline je napsána v jazyce Nextflow workflow a umožňuje tak plně využít dostupné výpočetní zdroje. Pipeline Nextflow se skládají z tzv. procesů, které provádějí danou úlohu na vstupních datech. Je zde implementováno řízení času běhu, takže pipeline sledují, které procesy nebo samotné úlohy mohou běžet paralelně, aby nebyl překročen limit přidělených HW prostředků. Testování proběhlo na dvou typech dat: exom (velký, 3 pacienti) a panel (malý, panel MR-MIKRO4, 17 pacientů).

Řešení se skládá z řady benchmarků pro zpracování dat NGS, které byly provedeny na superpočítačové infrastruktuře, aby poskytly základní údaje z hlediska výpočetních a datových nároků. Srovnávací testy byly provedeny pro typy dat exomu a panelu. Každý běh pipeline byl rozdělen na několik částí: mapování, volání variant a anotace. Statistiky benchmarků byly získány pro každý typ dat a část pipeline z hlediska doby provádění, využitých hodin CPU, špičkového využití CPU, špičkové paměti RAM, špičkové paměti RAM+swap, objemu uživatelských dat a objemu cache. Výsledky benchmarků budou partnerem použity jako východisko pro specifikaci HW použitou pro pořízení specializovaného HW umístěného v prostorách partnera. Tento HW výrazně urychlí zpracování výsledků genetického screeningu klinických pacientů.

Tato success story byla podpořena projektem EuroCC. Tento projekt získal finanční prostředky z Evropského společného podniku pro vysoce výkonnou výpočetní techniku na základě grantové dohody č. 951732. Společný podnik získává podporu z programu Evropské unie pro výzkum a inovace Horizont 2020 a Německa, Bulharska, Rakouska, Chorvatska, Kypru, České republiky, Dánska, Estonska, Finska, Řecka, Maďarska, Irska, Itálie, Litvy, Lotyšska, Polska, Portugalska, Rumunska, Slovinska, Španělska, Švédska, Spojeného království, Francie, Nizozemska, Belgie, Lucemburska, Slovenska, Norska, Švýcarska, Turecka, Severní Makedonie, Islandu, Černé Hory. Tento projekt získal finanční prostředky z Ministerstva školství, mládeže a tělovýchovy České republiky (ID:MC2101).