O Laguna é um projeto coordenado pelo Instituto Brasileiro de Informação em Ciência e Tecnologia (Ibict), em parceria com diversas instituições federais brasileiras, que tem como objetivo desenvolver uma Infraestrutura Informacional Aberta (IIA) baseada em um lago de dados (data lake) para consolidar e disponibilizar dados do ecossistema brasileiro de Ciência, Tecnologia e Inovação (CT&I). Essa infraestrutura permite armazenar dados em seu formato bruto, sem necessidade de estrutura prévia, integrando informações estruturadas, semiestruturadas e não estruturadas, provenientes de múltiplas fontes nacionais e internacionais, como as plataformas Lattes e Sucupira, a BDTD, CrossRef, OpenAlex, Latindex, DOAJ, ISSN e Wikidata.
O uso de um lago de dados possibilita análises avançadas com suporte a aprendizado de máquina e inteligência artificial, bem como armazenamento econômico em nuvem, promovendo maior flexibilidade e escalabilidade. O projeto atende inicialmente a duas frentes estratégicas do Ibict: a integração e enriquecimento de dados do BrCris, sistema nacional que reúne informações sobre a produção científica brasileira, e a construção de repositórios de dados de pesquisa, que dão suporte às instituições que necessitam organizar e disseminar dados científicos em conformidade com os princípios FAIR. Dessa forma, o Laguna atua como uma solução para centralizar dados fragmentados, aumentar a interoperabilidade entre sistemas e promover transparência e acesso aberto à informação científica.
O histórico do projeto Laguna está relacionado à necessidade de superar a fragmentação dos registros de CT&I no Brasil, que dificulta análises consolidadas e o desenvolvimento de políticas públicas baseadas em evidências. Inicialmente concebido para integrar dados do BrCris e de repositórios de dados de pesquisa, o projeto evoluiu para consolidar informações científicas em um repositório unificado com base em processos de coleta, tratamento, integração e disponibilização de dados em múltiplos níveis.
Esses processos envolvem a extração de dados de diferentes fontes abertas ou de acesso controlado, a aplicação de técnicas de deduplicação e padronização, a transformação em dados ligados (Linked Data) com triplas [sujeito, predicado, objeto] e o uso de vocabulários semânticos, culminando em sua disponibilização via APIs, dashboards e mecanismos de busca avançada.
Em sua fase inicial, o acesso ao lago de dados é restrito a pesquisadores do Laguna e de projetos associados do Ibict, como BrCris, OasisBR, BDTD, Miguilim e dARK. Paralelamente, o projeto promove colaborações técnicas e prevê a disponibilização de conjuntos de dados tratados no Aleia, repositório de dados de pesquisa do Ibict, para incentivar o uso em pesquisas nacionais. Ao consolidar dados de forma interoperável e acessível, o Laguna busca gerar impactos tecnológicos, sociais e econômicos, fortalecendo a Ciência Aberta, otimizando recursos públicos e potencializando o aproveitamento dos resultados de pesquisa no Brasil.
Equipe Responsável: Marcel Garcia de Souza
Coordenação de Tratamento, Análise e Disseminação da Informação Científica (CODIC)
Coordenação-geral de Informação Científica e Técnica (CGIC)
E-mail: cgic@ibict.br
Telefone: (61) 3217-6302 / (61) 3217-6112