V září roku 2023 jsme v IT4Innovations úspěšně finalizovali migraci na nový systém pro správu úloh na našich superpočítačích, a to systém Slurm. Tato klíčová změna byla podnícena několika významnými faktory a přináší řadu výhod, jak pro naše uživatele, tak i pro jejich výzkumné projekty.
Úvahy o opuštění správce úloh PBS Scheduler a přechodu na Slurm se v minulosti opakovaně objevovaly, obvykle při plánování a implementaci nových superpočítačů. Původní obavy, které se týkaly potenciální náročnosti a složitosti samotné migrace, nejen pro uživatele, ale také pro administrátory, byly nakonec rozptýleny vzhledem ke stále narůstajícím problémům, které se začaly objevovat v souvislosti se stávajícím správcem úloh PBS Scheduler.
Prvním významným problémem bylo nevyhovující chování PBS Scheduler a jeho nedostatečná spolehlivost, které pramenily ze zásadních změn ve zdrojovém kódu PBS. Tyto problémy přinesly chybovost, jež měla negativní vliv na provoz našich superpočítačů.
Druhým aspektem byla odlišná povaha plánovače úloh, což vytvářelo překážky pro efektivní spolupráci s našimi spolupracujícími centry a tím i pro společné aktivity, jako jsou školení nebo prezentace výsledků výzkumu.
Posledním, avšak nikoli nejméně důležitým faktorem, bylo stále rostoucí množství uživatelů, kteří již měli praktické zkušenosti s využíváním systému Slurm z jiných superpočítačových center. K tomu přispělo i nasazení superpočítače LUMI, na který mají naši uživatelé přístup, a který využívá systém Slurm. Ten se postupem času stal dominantním plánovačem v oblasti superpočítačů.
Výsledkem těchto úvah bylo rozhodnutí o nasazení Slurmu na Komplementárních systémech a přípravě nasazení Slurmu i na naše klíčové výpočetní systémy. V průběhu letošního roku poté došlo k implemenctaci Slurmu na superpočítači Barbora (v červenci 2023) a Karolina (v září 2023).
Výhody Slurmu na superpočítačích IT4Innovations pro uživatele
Výhody nasazení systému Slurm na superpočítačích IT4Innovations pro uživatele jsou značné. Díky této migraci mohou naši uživatelé očekávat výrazně rychlejší odezvu na své požadavky. Doba čekání na spuštění svých výpočetních úloh se zkrátila z původních 5 až 10 minut na pouhých 10 sekund. Systém Slurm na superpočítači Karolina rovněž usnadňuje sdílení know-how mezi různými superpočítačovými centry a výrazně zjednodušuje práci uživatelů, kteří nemusí přepisovat své úlohy pro různé technologie.
Více informací:
https://docs.it4i.cz/general/job-submission-and-execution/
https://docs.it4i.cz/general/karolina-slurm/