Ir para o Conteúdo 1 Ir para a Página Inicial 2 Ir para o menu de Navegação 3 Ir para a Busca 4 Ir para o Mapa do site 5
Abrir menu principal de navegação
Laboratório Nacional de Computação Científica - LNCC
Termos mais buscados
  • imposto de renda
  • inss
  • assinatura
  • cnh social
  • mei
Termos mais buscados
  • imposto de renda
  • inss
  • assinatura
  • Acesso à Informação
    • Institucional
      • Estrutura Organizacional
      • Competências
      • Base Jurídica
      • Quem é quem
      • O LNCC
      • Horário de Atendimento
      • Atos Normativos
      • Pesquisa, Desenvolvimento e Inovação
      • Programas Nacionais
      • Regimento Interno
      • Termo de Compromisso de Gestão
      • Gestão da Segurança da Informação
      • Identidade Visual e Logomarca
      • Normas e Regramentos de Parcerias
      • Patrimônio e Infraestrutura
      • CJU
    • Ações e Programas
      • Programa, Projetos, Ações, Obras e Atividades
      • Carta de Serviços ao Cidadão
      • Concessões de Recursos Financeiros e Renúncias de Receitas
      • Governança
      • Pesquisa, Desenvolvimento e Inovação
      • Mestrado e Doutorado em Modelagem Computacional
      • Processamento de Alto Desempenho - Santos Dumont
      • Programas Nacionais
      • Programa de Capacitação Institucional - PCI
      • Carta de Serviço ao Cidadão
      • FAT
      • Indicadores de Resultado e Impacto
    • Participação Social
      • Ouvidoria
      • Audiências e Consultorias Públicas
      • Conselhos e Órgãos Colegiados
      • Conferências
      • Editais de Chamamento Público
      • Outras ações
    • Auditorias
      • Prestação de Contas
      • Rol de Responsáveis
      • Relatórios da CGU
      • Plano Anual de Atividades de Auditoria Interna (PAINT)
      • Relatório Anual de Atividades de Auditoria Interna (RAINT)
      • Ações de Supervisão, Controle e Correição
      • Relatórios de Auditorias
      • Relatórios de Gestão
      • Relatórios do Termo de Compromisso de Gestão - TCG
      • Corregedoria
    • Convênios e Transferências
      • Repasses e Transferências
      • Convênios
    • Receitas e Despesas
      • Receita Pública
      • Detalhamento de Programas por Unidade Orçamentária
      • Execução de Despesas, por Unidade Orçamentária
      • Despesas com Diárias e Passagens
      • Notas Ficais Eletrônicas
      • Informação Orçamentária/Despesas
    • Licitações e Contratos
      • Licitações
      • Contratos
      • Plano Anual de Contratações
    • Servidores
      • Servidores
      • Aposentados e Pensionistas
      • Concursos Públicos
      • Relação de Empregados Terceirizados
      • Estagiários
      • Bolsistas
      • Corpo Discente
    • Informações Classificadas
    • Serviço de Informação ao Cidadão (SIC)
    • Dados Abertos
      • Plano de Dados Abertos (PDA)
      • Bases de Dados do PDA
      • Relatório Anual de Execução do PDA
    • Sanções Administrativa
    • Ferramentas e Aspectos Tecnológicos
      • Ferramenta de Pesquisa
      • Transparência Proativa
    • Perguntas Frequentes
    • Agenda de Autoridades
    • Programa de Gestão e Desenvolvimento
    • Bolsas de Pesquisa
      • Bolsa de Projeto - ICMBio e LNCC
    • Transparência Ativa
      • Relatórios de Auditorias
      • Relatórios de Termo de Compromisso de Gestão - TCG
      • Relatórios de Gestão
      • Relatórios de Indicadores
    • Decreto N° 10.779/2021 - Consumo de Energia Elétrica
    • Principais Resultados
    • Fundações de Apoio
    • Privacidade
      • Política de Privacidade
      • Governança
      • Encarregado
      • Canal de Comunicação
      • Referências e Recursos
  • Assuntos
    • Notícias
      • Últimas Notícias
      • LNCC Notícias
    • Eventos
      • Eventos
      • Programa de Verão do LNCC
    • Biblioteca
      • Apresentação
      • Regulamento da Biblioteca
      • Consulta ao Acervo
      • Periódicos
      • Livros Eletrônicos
      • JSTOR - Biological Science
      • Biblioteca Digital de Teses e Dissertações do LNCC
      • Bases de Acesso Restrito
      • Catálogo da Rede Pergamum
      • Repositório Institucional do LNCC
    • Sistemas Administrativos
      • Webmail
      • Intranet
      • SEI-MCTI
    • Pontos de Contato
      • Fale Conosco
      • Ouvidoria
      • Assessoria de Comunicação
  • Canais de Atendimento
    • Fale Conosco
    • Ouvidoria
    • Comunicação Institucional
      • Contato da Comunicação Institucional
      • Clipping/Na mídia
      • Identidade Visual/Manual da Marca
      • Folder Digital
    • Fala.BR
    • Encarregado pelo Tratamento de Dados Pessoais
  • Central de Conteúdos
    • Imagens
    • Vídeos
    • Identidade Visual e Logomarca
    • Campanhas de Conscientização
      • Mês da Consciência Negra
      • Gestão de Segurança da Informação
      • Campanha LGPD
      • Prevenção contra Assédio moral, sexual e discriminação
      • Conflito de Interesses
    • Divulgação Científica
      • Folder e Portfólio
      • LNCC JOVEM
      • LNCC KIDS
  • Composição
    • Diretoria
    • Coordenações
      • Coordenação de Métodos Matemáticos e Computacionais - COMAC
      • Coordenação de Modelagem Computacional - COMOD
      • Coordenação de Pós-graduação e Aperfeiçoamento - COPGA
      • Coordenação de Tecnologia da Informação e Comunicação - COTIC
      • Coordenação de Gestão e Administração - COGEA
    • Órgãos Colegiados
      • Conselhos
      • Comitês
  • Serviços
    • Pesquisa, Desenvolvimento e Inovação
      • Energia Renovável
      • Preservação Ambiental com Geração de Renda
      • Óleo e Gás
      • Mineração
      • Astronomia e Geografia
      • Gêmeos Digitais
      • Medicina Assistida
      • Impacto Social de Políticas Públicas
      • Aeronáutica e Aeroespacial
      • Recursos Hídricos
      • Nanotecnologia
      • Indústria Farmacêutica
      • Supercomputação e Computação Quântica
      • Agronegócio
      • Internet das Coisas (IoT)
      • Sistema Financeiro
      • Saúde pública – epidemias e doenças virais, parasitárias e negligenciadas
      • Esportes
      • Armazenamento de Energia
      • Cosméticos
    • Supercomputador Santos Dumont (HPC-LNCC)
    • Incubadora de Empresas
    • Mestrado e Doutorado em Modelagem Computacional
    • Laboratório de Bioinformática - LABINFO
    • Carta de Serviços ao Cidadão
  • Centro de Memória
  • Supercomputador Santos Dumont
  • SEI-MCTI
  • GOV.BR
    • Serviços
      • Buscar serviços por
        • Categorias
        • Órgãos
        • Estados
      • Serviços por público alvo
        • Cidadãos
        • Empresas
        • Órgãos e Entidades Públicas
        • Demais segmentos (ONGs, organizações sociais, etc)
        • Servidor Público
    • Temas em Destaque
      • Orçamento Nacional
      • Redes de Atendimento do Governo Federal
      • Proteção de Dados Pessoais
      • Serviços para Imigrantes
      • Política e Orçamento Educacionais
      • Educação Profissional e Tecnológica
      • Educação Profissional para Jovens e Adultos
      • Trabalho e Emprego
      • Serviços para Pessoas com Deficiência
      • Combate à Discriminação Racial
      • Política de Proteção Social
      • Política para Mulheres
      • Saúde Reprodutiva da Mulher
      • Cuidados na Primeira Infância
      • Habitação Popular
      • Controle de Poluição e Resíduos Sólidos
    • Notícias
      • Serviços para o cidadão
      • Saúde
      • Agricultura e Pecuária
      • Cidadania e Assistência Social
      • Ciência e Tecnologia
      • Comunicação
      • Cultura e Esporte
      • Economia e Gestão Pública
      • Educação e Pesquisa
      • Energia
      • Forças Armadas e Defesa Civil
      • Infraestrutura
      • Justiça e Segurança
      • Meio Ambiente
      • Trabalho e Previdência
      • Turismo
    • Galeria de Aplicativos
    • Acompanhe o Planalto
    • Navegação
      • Acessibilidade
      • Mapa do Site
      • Termo de Uso e Aviso de Privacidade
    • Consultar minhas solicitações
    • Órgãos do Governo
    • Por dentro do Gov.br
      • Dúvidas Frequentes em relação ao Portal gov.br
      • Dúvidas Frequentes da conta gov.br
      • Ajuda para Navegar o Portal
      • Conheça os elementos do Portal
      • Política de e-participação
      • Termos de Uso
      • Governo Digital
      • Guia de Edição de Serviços do Portal Gov.br
    • Canais do Executivo Federal
    • Dados do Governo Federal
      • Dados Abertos
      • Painel Estatístico de Pessoal
      • Painel de Compras do Governo Federal
      • Acesso à Informação
    • Empresas e Negócios
Links Úteis
  • Galeria de Aplicativos
  • Participe
  • Galeria de Aplicativos
  • Participe
Redes sociais
  • Facebook
  • Instagram
  • YouTube
Você está aqui: Página Inicial Assuntos Eventos Eventos Seminário de Avaliação - Série A: Data-driven IA: a memory efficient coreset selection strategy for machine learning training
Info

Seminário de Avaliação - Série A: Data-driven IA: a memory efficient coreset selection strategy for machine learning training

Dia 03/07 , em Webinar
Compartilhe por Facebook Compartilhe por Twitter Compartilhe por LinkedIn Compartilhe por WhatsApp link para Copiar para área de transferência
Publicado em 26/06/2025 09h26
  • Palestrantes

    Aluno: Victor de Paula Dornellas Ribeiro

  • Informações úteis

    Orientadores:
    Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC
    Eduardo Henrique Monteiro Pena - Laboratório Nacional de Computação Científica - LNCC

    Banca Examinadora:
    Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC (presidente)
    Gilson Antônio Giraldi - Laboratório Nacional de Computação Científica - LNCC
    Patrick Valduriez - INRIA - FRA

    Suplentes:
    Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC

    Resumo:

    A construção de modelos de aprendizado de máquina depende criticamente da qualidade dos dados de entrada para o treinamento. É necessário que representem de forma eficiente o s padrões essenciais do domínio do problema. Tradicionalmente, modelos são treinados em datasets completos, supondo que todos os registros contribuem igualmente para o aprendizado. No entanto, essa abordagem ignora a presença de redundâncias e ruídos, levando a custos computacionais excessivos sem ganhos proporcionais em acurácia. O cerne do desafio está em identificar e extrair um subconjunto mínimo de instâncias (coreset) que preserve a capacidade do modelo de generalizar para dados não vistos. A seleção de coresets busca então curar os dados de entrada, priorizando elementos mais relevantes ao aprendizado de uma determinada tarefa. Há evidências empíricas sobre a eficácia de estratégias de seleção de exemplos presentes na literatura especializada e sua principal contribuição é construir modelos sobre uma fração dos dados originais, sem a perda significativa de desempenho. Métodos atuais para construção desses subconjuntos, como GradMatch e Craig, dependem de estratégias computaci onalmente intensivas, como cálculos de similaridade entre cada elemento de um conjunto, o que pode adicionar ao processo complexidade quadrática ao processo de seleção. Outro conjunto de estratégias parte do uso de modelos auxiliares. É permitido com isso a avaliação do impacto de cada elemento durante o treinamento. Assim, podemos identificar, dentre as instâncias, àquelas mais difíceis a serem aprendidas. Isso limita sua aplicação para cenários de larga escala, onde o próprio processo de seleção se torna um gargalo. No geral, técnicas de seleção de coreset sofrem de duas limitações:
    ● Dependência de modelos auxiliares: Algumas soluções exigem o pré-treinamento de um modelo sobre o conjunto de dados completo para avaliar a relevância dos exemplos, replicando o custo que se busca evitar.
    ● Complexidade algorítmica: Métodos baseados no cálculo de similaridade tornam-se inviáveis em datasets de grande escala, exigindo a adoção de heurísticas para que sejam exequíveis.
    A presente tese aborda o seguinte questionamento: “como selecionar um subconjunto, sem sacrificar significativamente a qualidade do treinamento, e de maneira escalável?”. Para tanto, exploramos as mais diversas soluções com o objetivo de caracterizar suas propriedades e limitações. Propomos FREDDY, um algoritmo de seleção de instâncias de treinamento cujo objetivo é selecionar exemplos de treinamento para compor um subconjunto, através de um processo que se adapte aos recursos computacionais disponíveis, independente do tamanho do conjunto de dados. A solução é composta pelos seguintes passos: Primeiro, particionamos o dataset em regiões menores, diminuindo assim a necessidade de memória.
    O subconjunto selecionado contém os elementos que minimizam o erro preditivo, ao mesmo tempo que preserva a diversidade dos dados originais e a generalização do modelo treinado para exemplos não vistos.
    Ao evitar cálculos em escala global e dispensar modelos auxiliares, o FREDDY reduz a complexidade inerente à seleção de exemplos. Sua estratégia de dividir-para-selecionar permite paralelização massiva e operação em ambientes com memória limitada (ex.: GPUs de baixo custo).
    Resultado-chave: Em benchmarks tabulares como covtype (500.000 instâncias), Freddy foi capaz de reduzir o tempo de seleção em 56x, permitindo a seleção e o treinamento de modelos em um computador pessoal. O tempo médio de seleção foi de 30 segundos, já o método de referência performou com tempo médio de 1700 segundos. Já em benchmarks como cifar10, FREDDY demonstrou reduções de 4x no tempo combinado de treinamento e seleção em relação ao método de referência, alcançando acurácia de 70% com apenas 10% do volume de dados original.

  • Mais informações
    Pós-graduação do LNCC
    copga@lncc.br
    meet.google.com/ehr-drvo-dfn

Seminário de Avaliação - Série A: Data-driven IA: a memory efficient coreset selection strategy for machine learning training

Dia 03/07
Webinar
Compartilhe por Facebook Compartilhe por Twitter Compartilhe por LinkedIn Compartilhe por WhatsApp link para Copiar para área de transferência
  • Acesso à Informação
    • Institucional
      • Estrutura Organizacional
      • Competências
      • Base Jurídica
      • Quem é quem
      • O LNCC
      • Horário de Atendimento
      • Atos Normativos
      • Pesquisa, Desenvolvimento e Inovação
      • Programas Nacionais
      • Regimento Interno
      • Termo de Compromisso de Gestão
      • Gestão da Segurança da Informação
      • Identidade Visual e Logomarca
      • Normas e Regramentos de Parcerias
      • Patrimônio e Infraestrutura
      • CJU
    • Ações e Programas
      • Programa, Projetos, Ações, Obras e Atividades
      • Carta de Serviços ao Cidadão
      • Concessões de Recursos Financeiros e Renúncias de Receitas
      • Governança
      • Pesquisa, Desenvolvimento e Inovação
      • Mestrado e Doutorado em Modelagem Computacional
      • Processamento de Alto Desempenho - Santos Dumont
      • Programas Nacionais
      • Programa de Capacitação Institucional - PCI
      • Carta de Serviço ao Cidadão
      • FAT
      • Indicadores de Resultado e Impacto
    • Participação Social
      • Ouvidoria
      • Audiências e Consultorias Públicas
      • Conselhos e Órgãos Colegiados
      • Conferências
      • Editais de Chamamento Público
      • Outras ações
    • Auditorias
      • Prestação de Contas
      • Rol de Responsáveis
      • Relatórios da CGU
      • Plano Anual de Atividades de Auditoria Interna (PAINT)
      • Relatório Anual de Atividades de Auditoria Interna (RAINT)
      • Ações de Supervisão, Controle e Correição
      • Relatórios de Auditorias
      • Relatórios de Gestão
      • Relatórios do Termo de Compromisso de Gestão - TCG
      • Corregedoria
    • Convênios e Transferências
      • Repasses e Transferências
      • Convênios
    • Receitas e Despesas
      • Receita Pública
      • Detalhamento de Programas por Unidade Orçamentária
      • Execução de Despesas, por Unidade Orçamentária
      • Despesas com Diárias e Passagens
      • Notas Ficais Eletrônicas
      • Informação Orçamentária/Despesas
    • Licitações e Contratos
      • Licitações
      • Contratos
      • Plano Anual de Contratações
    • Servidores
      • Servidores
      • Aposentados e Pensionistas
      • Concursos Públicos
      • Relação de Empregados Terceirizados
      • Estagiários
      • Bolsistas
      • Corpo Discente
    • Informações Classificadas
    • Serviço de Informação ao Cidadão (SIC)
    • Dados Abertos
      • Plano de Dados Abertos (PDA)
      • Bases de Dados do PDA
      • Relatório Anual de Execução do PDA
    • Sanções Administrativa
    • Ferramentas e Aspectos Tecnológicos
      • Ferramenta de Pesquisa
      • Transparência Proativa
    • Perguntas Frequentes
    • Agenda de Autoridades
    • Programa de Gestão e Desenvolvimento
    • Bolsas de Pesquisa
      • Bolsa de Projeto - ICMBio e LNCC
    • Transparência Ativa
      • Relatórios de Auditorias
      • Relatórios de Termo de Compromisso de Gestão - TCG
      • Relatórios de Gestão
      • Relatórios de Indicadores
    • Decreto N° 10.779/2021 - Consumo de Energia Elétrica
    • Principais Resultados
    • Fundações de Apoio
    • Privacidade
      • Política de Privacidade
      • Governança
      • Encarregado
      • Canal de Comunicação
      • Referências e Recursos
  • Assuntos
    • Notícias
      • Últimas Notícias
      • LNCC Notícias
    • Eventos
      • Eventos
      • Programa de Verão do LNCC
    • Biblioteca
      • Apresentação
      • Regulamento da Biblioteca
      • Consulta ao Acervo
      • Periódicos
      • Livros Eletrônicos
      • JSTOR - Biological Science
      • Biblioteca Digital de Teses e Dissertações do LNCC
      • Bases de Acesso Restrito
      • Catálogo da Rede Pergamum
      • Repositório Institucional do LNCC
    • Sistemas Administrativos
      • Webmail
      • Intranet
      • SEI-MCTI
    • Pontos de Contato
      • Fale Conosco
      • Ouvidoria
      • Assessoria de Comunicação
  • Canais de Atendimento
    • Fale Conosco
    • Ouvidoria
    • Comunicação Institucional
      • Contato da Comunicação Institucional
      • Clipping/Na mídia
      • Identidade Visual/Manual da Marca
      • Folder Digital
    • Fala.BR
    • Encarregado pelo Tratamento de Dados Pessoais
  • Central de Conteúdos
    • Imagens
    • Vídeos
    • Identidade Visual e Logomarca
    • Campanhas de Conscientização
      • Mês da Consciência Negra
      • Gestão de Segurança da Informação
      • Campanha LGPD
      • Prevenção contra Assédio moral, sexual e discriminação
      • Conflito de Interesses
    • Divulgação Científica
      • Folder e Portfólio
      • LNCC JOVEM
      • LNCC KIDS
  • Composição
    • Diretoria
    • Coordenações
      • Coordenação de Métodos Matemáticos e Computacionais - COMAC
      • Coordenação de Modelagem Computacional - COMOD
      • Coordenação de Pós-graduação e Aperfeiçoamento - COPGA
      • Coordenação de Tecnologia da Informação e Comunicação - COTIC
      • Coordenação de Gestão e Administração - COGEA
    • Órgãos Colegiados
      • Conselhos
      • Comitês
  • Serviços
    • Pesquisa, Desenvolvimento e Inovação
      • Energia Renovável
      • Preservação Ambiental com Geração de Renda
      • Óleo e Gás
      • Mineração
      • Astronomia e Geografia
      • Gêmeos Digitais
      • Medicina Assistida
      • Impacto Social de Políticas Públicas
      • Aeronáutica e Aeroespacial
      • Recursos Hídricos
      • Nanotecnologia
      • Indústria Farmacêutica
      • Supercomputação e Computação Quântica
      • Agronegócio
      • Internet das Coisas (IoT)
      • Sistema Financeiro
      • Saúde pública – epidemias e doenças virais, parasitárias e negligenciadas
      • Esportes
      • Armazenamento de Energia
      • Cosméticos
    • Supercomputador Santos Dumont (HPC-LNCC)
    • Incubadora de Empresas
    • Mestrado e Doutorado em Modelagem Computacional
    • Laboratório de Bioinformática - LABINFO
    • Carta de Serviços ao Cidadão
  • Centro de Memória
  • Supercomputador Santos Dumont
  • SEI-MCTI
Redefinir Cookies
Redes sociais
  • Facebook
  • Instagram
  • YouTube
Acesso àInformação
Todo o conteúdo deste site está publicado sob a licença Creative Commons Atribuição-SemDerivações 3.0 Não Adaptada.
Voltar ao topo da página
Fale Agora Refazer a busca