Bioinformática

Cluster para computação de alto desempenho para análise bioinformática de dados de biologia molecular, genômica e proteômica

Publicado em 13/08/2022 22h06 Atualizado em 26/02/2026 09h37

A plataforma multiusuário de bioinformática do INCA conta com uma infraestrutura de computação de alto desempenho para apoiar projetos de pesquisa que envolvam técnicas de bioinformática para análise de dados de biologia molecular, genômica e proteômica.

Nosso cluster para computação de alto desempenho (High Performance Computing Cluster - HPCC) nomeado Crab (HPCC-Crab) é utilizado por pesquisadores, alunos e colaboradores do INCA no desenvolvimento de seus projetos. A plataforma também mantém um servidor exclusivo para o ambiente de desenvolvimento em R com R-Studio server, um servidor com a plataforma Open OnDemand e um nó computacional dedicado a projetos que requeiram alta capacidade de computação combinada com uso intenso de memória RAM.

Responsável pela plataforma:

Nicole de Miranda Scherer (Lattes)
Tecnologista
Email: nscherer@inca.gov.br
Telefone: +55 21 32076546

Lista de equipamentos:

A infraestrutura computacional da Plataforma Multiusuário de Bioinformática é uma solução completa de computação de alto desempenho (High Performance Computing Cluster - HPCC). Esta infraestrutura é centrada no HPCC-Crab, que possui mais de 1000 cores de processamento e é integrado por diversos componentes. Os principais componentes são:

HPC-nodes: O cluster HPC possui 40 unidades de processamento (24 nós com 28 cores (56 threads) e 128 GB de RAM, 16 nós com 12 cores e 64GB de memória RAM).

Shark: Um fat-node integrado ao HPCC-Crab, com 72 cores (144 threads) e 3TB de memória RAM.

Lobster: Servidor com 48 cores e 256 GB de RAM dedicado ao desenvolvimento de scripts e análises básicas com R na interface R-Studio server.

Prawn: Servidor com 32 cores e 128 GB de RAM dedicado à plataforma Open OnDemand - portal de acesso aos recursos via interface web.

Whale: Storage com volume total de 175T em HDD para armazenamento de dados de projetos em processamento. Discos rotacionais

Moby-Dick: Storage híbrido (10% flash) com volume total de 500 TB para armazenamento de dados de sequenciamento de genomas tumorais.

Sistema Operacional e Gerenciamento: O sistema operacional dos servidores do cluster é GNU/Linux, distribuição Rocky Linux 8. A alocação dos recursos é feita pelo Slurm Workload Manager (gestor de carga de trabalho). Ferramentas de bioinformática de uso compartilhado são disponibilizadas como módulos de ambiente (Environment modules). Também está habilitado o uso de containers (tecnologia Singularity ou Apptainer) e ambientes virtuais Conda.

Utilização:

Para ter acesso aos recursos da plataforma, os pesquisadores devem solicitar o cadastramento de projetos e usuários por email para contatohpc@inca.gov.br. A Plataforma Multiusuário de Bioinformática conta com o apoio institucional e financeiro do Ministério da Saúde, do CNPq (Edital Nº 58/2022 - INCT em Genômica do Câncer e Medicina de Precisão para o SUS), da FINEP e da FAPERJ (E-26/210.742/2021).

Documentos:

Information in English:

Orientações sobre solicitação e uso de dados de repositórios externos:

Localização:
Instituto Nacional de Câncer
Coordenação de Pesquisa e Inovação
Rua André Cavalcanti, 37, 2º andar
Centro, Rio de Janeiro
CEP: 20231-050

Tags: Biologia TumoralControle do CâncerPesquisa