Defesa de Tesa de Doutorado: Execução Eficiente de Workflows Científicos de Bioinformática em Ambientes de Computação de Alto Desempenho
-
Palestrantes
Aluno: Rafael de Souza Terra
-
Informações úteis
Orientadores:
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC
Carla Osthoff Ferreira de Barros - Laboratório Nacional de Computação Científica - LNCC
Diego Moreira de Araújo Carvalho
Banca Examinadora:
Kary Ann del Carmen Ocaña Gautherot - Laboratório Nacional de Computação Científica - LNCC (presidente)
Hiago Mayk Gomes de Araujo Rocha - Laboratório Nacional de Computação Científica - LNCC
José Karam Filho - Laboratório Nacional de Computação Científica - LNCC
Alba Cristina Magalhães Alves de Melo - Universidade de Brasília - UNB
Marta Lima de Queirós Mattoso - Universidade Federal do Rio de Janeiro - UFRJ
Suplentes:
Marcelo Trindade dos Santos - Laboratório Nacional de Computação Científica - LNCC
Eduardo Soares Ogasawara - Centro Federal de Educação Tecnológica Celso Suckow da Fonseca - CEFET-RJ
Resumo:Ambientes de computação de alto desempenho oferecem suporte à execução de experimentos complexos em diversas áreas, como a Bioinformática. Esses experimentos podem ser modelados como workflows científicos e executados por meio de sistemas de gerenciamento de workflows científicos, dentre eles o Parsl, utilizado no presente estudo. Entretanto, durante a execução de workflows científicos, as tarefas podem apresentar diferentes níveis de paralelismo e múltiplas variações de parâmetros, o que exige diversas execuções para a conclusão de um experimento científico. Apesar de demandarem grande quantidade de recursos apenas em determinados momentos de sua execução, os workflows são, em geral, executados por meio da alocação fixa de recursos suficientes para sua execução ao longo de todo o processamento. Esse processo de alocação pode resultar em recursos ociosos em certos estágios, em função da baixa carga de trabalho das tarefas em execução. Assim, uma execução que minimize tanto o tempo total de execução quanto a ociosidade dos recursos computacionais faz-se necessária para a execução eficiente de workflows científicos. Nesse contexto, este trabalho propõe o desenvolvimento de uma abordagem para o gerenciamento e a execução de workflows científicos de bioinformática em ambientes de computação de alto desempenho (CAD), por meio da biblioteca Parsl e com foco no Simple Linux Utility for Resource Management (SLURM), tendo como ambiente computacional o supercomputador Santos Dumont. Para isso, foi desenvolvido o Clustered Pilot Executor (CPE), um componente do Parsl que permite a execução de workflows por meio do agrupamento de tarefas, com o objetivo de contornar a alocação fixa de recursos ao longo de toda a execução do workflow. Além disso, o CPE apresenta difere ntes heurísticas de escalonamento e agrupamento de tarefas, adaptadas à arquitetura do Parsl, bem como estratégias de submissão voltadas à redução do tempo de espera em filas e da ociosidade dos recursos. O desempenho do CPE foi avaliado por meio da execução de workflows reais de bioinformática e de workflows sintéticos. Os resultados demonstram que o CPE apresenta desempenho, em termos de tempo de execução, comparável à execução usual de workflows com o Parsl, ao mesmo tempo em que amplia as funcionalidades da biblioteca, permitindo também a fácil implementação e avaliação de diferentes heurísticas de escalonamento. Dessa forma, o CPE configura-se como uma contribuição relevante para a otimização da execução de workflows científicos em ambientes de computação de alto desempenho.
- Mais informações