Seminário de Avaliação - Série A: Data-driven IA: a memory efficient coreset selection strategy for machine learning training
-
Palestrantes
Aluno: Victor de Paula Dornellas Ribeiro
-
Informações úteis
Orientadores:
Fabio Andre Machado Porto - Laboratório Nacional de Computação Científica - LNCC
Eduardo Henrique Monteiro Pena - Laboratório Nacional de Computação Científica - LNCC
Banca Examinadora:
Fabio André Machado Porto - Laboratório Nacional de Computação Científica - LNCC (presidente)
Gilson Antônio Giraldi - Laboratório Nacional de Computação Científica - LNCC
Patrick Valduriez - INRIA - FRA
Suplentes:
Antônio Tadeu Azevedo Gomes - Laboratório Nacional de Computação Científica - LNCC
Resumo:A construção de modelos de aprendizado de máquina depende criticamente da qualidade dos dados de entrada para o treinamento. É necessário que representem de forma eficiente o s padrões essenciais do domínio do problema. Tradicionalmente, modelos são treinados em datasets completos, supondo que todos os registros contribuem igualmente para o aprendizado. No entanto, essa abordagem ignora a presença de redundâncias e ruídos, levando a custos computacionais excessivos sem ganhos proporcionais em acurácia. O cerne do desafio está em identificar e extrair um subconjunto mínimo de instâncias (coreset) que preserve a capacidade do modelo de generalizar para dados não vistos. A seleção de coresets busca então curar os dados de entrada, priorizando elementos mais relevantes ao aprendizado de uma determinada tarefa. Há evidências empíricas sobre a eficácia de estratégias de seleção de exemplos presentes na literatura especializada e sua principal contribuição é construir modelos sobre uma fração dos dados originais, sem a perda significativa de desempenho. Métodos atuais para construção desses subconjuntos, como GradMatch e Craig, dependem de estratégias computaci onalmente intensivas, como cálculos de similaridade entre cada elemento de um conjunto, o que pode adicionar ao processo complexidade quadrática ao processo de seleção. Outro conjunto de estratégias parte do uso de modelos auxiliares. É permitido com isso a avaliação do impacto de cada elemento durante o treinamento. Assim, podemos identificar, dentre as instâncias, àquelas mais difíceis a serem aprendidas. Isso limita sua aplicação para cenários de larga escala, onde o próprio processo de seleção se torna um gargalo. No geral, técnicas de seleção de coreset sofrem de duas limitações:
● Dependência de modelos auxiliares: Algumas soluções exigem o pré-treinamento de um modelo sobre o conjunto de dados completo para avaliar a relevância dos exemplos, replicando o custo que se busca evitar.
● Complexidade algorítmica: Métodos baseados no cálculo de similaridade tornam-se inviáveis em datasets de grande escala, exigindo a adoção de heurísticas para que sejam exequíveis.
A presente tese aborda o seguinte questionamento: “como selecionar um subconjunto, sem sacrificar significativamente a qualidade do treinamento, e de maneira escalável?”. Para tanto, exploramos as mais diversas soluções com o objetivo de caracterizar suas propriedades e limitações. Propomos FREDDY, um algoritmo de seleção de instâncias de treinamento cujo objetivo é selecionar exemplos de treinamento para compor um subconjunto, através de um processo que se adapte aos recursos computacionais disponíveis, independente do tamanho do conjunto de dados. A solução é composta pelos seguintes passos: Primeiro, particionamos o dataset em regiões menores, diminuindo assim a necessidade de memória.
O subconjunto selecionado contém os elementos que minimizam o erro preditivo, ao mesmo tempo que preserva a diversidade dos dados originais e a generalização do modelo treinado para exemplos não vistos.
Ao evitar cálculos em escala global e dispensar modelos auxiliares, o FREDDY reduz a complexidade inerente à seleção de exemplos. Sua estratégia de dividir-para-selecionar permite paralelização massiva e operação em ambientes com memória limitada (ex.: GPUs de baixo custo).
Resultado-chave: Em benchmarks tabulares como covtype (500.000 instâncias), Freddy foi capaz de reduzir o tempo de seleção em 56x, permitindo a seleção e o treinamento de modelos em um computador pessoal. O tempo médio de seleção foi de 30 segundos, já o método de referência performou com tempo médio de 1700 segundos. Já em benchmarks como cifar10, FREDDY demonstrou reduções de 4x no tempo combinado de treinamento e seleção em relação ao método de referência, alcançando acurácia de 70% com apenas 10% do volume de dados original. - Mais informações