Pesquisadores da CMU propõem GILL: um método de IA para fundir LLMs com modelos de codificadores e decodificadores de imagens

Notícias

LarLar / Notícias / Pesquisadores da CMU propõem GILL: um método de IA para fundir LLMs com modelos de codificadores e decodificadores de imagens

May 16, 2023

Pesquisadores da CMU propõem GILL: um método de IA para fundir LLMs com modelos de codificadores e decodificadores de imagens

Com o lançamento do novo GPT 4 da OpenAI, a multimodalidade em modelos de linguagem grande foi introduzida. Ao contrário da versão anterior, GPT 3.5, que só é usada para permitir que o conhecido ChatGPT receba textos

Com o lançamento do novo GPT 4 da OpenAI, a multimodalidade em modelos de linguagem grande foi introduzida. Ao contrário da versão anterior, GPT 3.5, que é usada apenas para permitir que o conhecido ChatGPT receba entradas de texto, o GPT-4 mais recente aceita texto e também imagens como entrada. Recentemente, uma equipe de pesquisadores da Universidade Carnegie Mellon propôs uma abordagem chamada Gerando Imagens com Grandes Modelos de Linguagem (GILL), que se concentra na extensão de modelos de linguagem multimodais para gerar algumas imagens excelentes e exclusivas.

O método GILL permite o processamento de entradas que são misturadas com imagens e texto para produzir texto, recuperar imagens e criar novas imagens. GILL consegue isso apesar dos modelos utilizarem codificadores de texto distintos, transferindo o espaço de incorporação de saída de um LLM somente de texto congelado para aquele de um modelo de geração de imagem congelada. Ao contrário de outros métodos que exigem dados de imagem-texto intercalados, o mapeamento é realizado pelo ajuste fino de um pequeno número de parâmetros utilizando pares imagem-legenda.

A equipe mencionou que este método combina grandes modelos de linguagem para texto congelado com modelos de codificação e decodificação de imagens que já foram treinados. Ele pode fornecer uma ampla gama de recursos multimodais, como recuperação de imagens, produção de imagens exclusivas e diálogo multimodal. Isto foi feito mapeando os espaços de incorporação das modalidades para fundi-las. GILL trabalha condicionando entradas mistas de imagem e texto e produz resultados que são coerentes e legíveis.

Este método fornece uma rede de mapeamento eficaz que fundamenta o LLM em um modelo de geração de texto para imagem, a fim de obter ótimo desempenho na geração de imagens. Esta rede de mapeamento converte representações de texto ocultas no espaço de incorporação dos modelos visuais. Ao fazer isso, ele usa as poderosas representações de texto do LLM para produzir resultados esteticamente consistentes.

Com esta abordagem, o modelo pode recuperar imagens de um conjunto de dados específico, além de criar novas imagens. O modelo escolhe se deseja produzir ou obter uma imagem no momento da inferência. Um módulo de decisão aprendido que é condicionado às representações ocultas do LLM é usado para fazer esta escolha. Esta abordagem é computacionalmente eficiente, pois funciona sem a necessidade de executar o modelo de geração de imagens no momento do treinamento.

Este método tem um desempenho melhor do que os modelos de geração de linha de base, especialmente para tarefas que exigem uma linguagem mais longa e sofisticada. Em comparação, o GILL supera o método de difusão estável no processamento de texto de formato mais longo, incluindo diálogo e discurso. O GILL tem melhor desempenho na geração de imagens condicionadas ao diálogo do que nos modelos de geração não baseados em LLM, beneficiando-se do contexto multimodal e gerando imagens que melhor correspondem ao texto fornecido. Ao contrário dos modelos convencionais de texto para imagem que processam apenas entradas textuais, o GILL também pode processar entradas de texto-imagem arbitrariamente intercaladas.

Concluindo, GILL (Generating Images with Large Language Models) parece promissor, pois retrata uma gama mais ampla de habilidades em comparação com modelos de linguagem multimodais anteriores. Sua capacidade de superar modelos de geração não baseados em LLM em várias tarefas de texto para imagem que medem a dependência do contexto o torna uma solução poderosa para tarefas multimodais.

Confira aPapelePágina do projeto.Não se esqueça de participarnosso SubReddit de 26k + ML,Canal de discórdia, eNoticiário por e-mail , onde compartilhamos as últimas notícias de pesquisa de IA, projetos interessantes de IA e muito mais. Se você tiver alguma dúvida sobre o artigo acima ou se tivermos perdido alguma coisa, sinta-se à vontade para nos enviar um e-mail para[email protected]

🚀 Confira as ferramentas de IA do 100 no AI Tools Club

Tanya Malhotra está no último ano de graduação da Universidade de Estudos de Petróleo e Energia, Dehradun, cursando BTech em Engenharia de Ciência da Computação com especialização em Inteligência Artificial e Aprendizado de Máquina. Ela é uma entusiasta de Ciência de Dados com bom pensamento analítico e crítico, juntamente com um interesse ardente em adquirir novas habilidades, liderar grupos e gerenciar o trabalho de maneira organizada.