DALL-E 2: sistema revoluciona a geração de imagens e conteúdo visual

Empresa responsável pelo modelo permite acesso restrito para pesquisador da PUCRS propor melhorias e desenvolver estudos

PUCRS Pesquisa

24/08/2022 - 18h02

dall-e, abacate, inteligência artificial

Imagem gerada com a frase “cadeira em formato de abacate”. / Foto: Divulgação

As redes neurais artificiais são modelos matemáticos de aprendizado de máquina (machine learning), uma das mais importantes subáreas da Inteligência Artificial (IA). Com leve inspiração no funcionamento do cérebro humano, são utilizadas para resolução das mais diversas tarefas, que vão desde o desenvolvimento de agentes conversacionais (chatbots) até criação de novos conteúdos visuais. Um dos exemplos mais bem-sucedidos de redes neurais profundas para geração de imagens é o modelo DALL-E 2, desenvolvido pela empresa OpenAI. Seu acesso beta é restrito a poucas pessoas ao redor do mundo — na PUCRS, o pesquisador da Escola Politécnica Rodrigo Coelho Barros faz parte deste grupo.

O professor desenvolve pesquisas na área e foi convidado pela empresa responsável pelo DALL-E 2 para coletar feedbacks e propor melhorias. Barros explica em sua pesquisa, intitulada Adaptação de domínio não supervisionado para segmentação de imagens médicas com autoconjunto, que as redes neurais conseguem aprender automaticamente características hierárquicas robustas. De acordo com o estudo, a tecnologia alcançou desempenho similar ao humano em muitas tarefas de diferentes áreas, sendo inclusive superior em aplicações como classificação de imagens naturais ou detecção de arritmia cardíaca.

wall-e, inteligência artificial, machine learning

Imagem gerada com frase “Rio de Janeiro futurista”. / Foto: Divulgação

Barros coordena o Laboratório MALTA (Machine Learning Theory and Applications Lab), que desenvolve pesquisas em aprendizado de máquina com foco em visão computacional (tarefas relacionadas a imagens e ao mundo visual) e processamento de linguagem natural (tarefas relacionadas a textos). O laboratório da PUCRS foi pioneiro nacionalmente no desenvolvimento e uso de redes neurais profundas para tarefas de visão computacional e processamento de linguagem natural, sendo o primeiro do país a oferecer disciplina de pós-graduação na área. O trabalho pioneiro do grupo rendeu diversos prêmios nacionais e internacionais de melhor artigo, além de premiações de melhor dissertação de mestrado e tese de doutorado.

COMO FUNCIONA O DALL-E?

O aprendizado de máquina surge como disciplina científica que se preocupa com o projeto e desenvolvimento de algoritmos capazes de aprender a realizar tarefas automaticamente, sem que tenham sido explicitamente programados para tanto. Nesta área, um dos principais focos dos pesquisadores é que máquinas passem a aprender automaticamente a reconhecer padrões complexos e tomar decisões inteligentes com base em dados. Aprendizado de máquina está, portanto, intimamente relacionado a campos como estatística, matemática, mineração de dados e reconhecimento de padrões.

O modelo DALL-E 2 tem seu nome formulado da junção dos nomes do artista Salvador Dalí e do personagem da Pixar WALL-E. Sua função é gerar imagens a partir de descrições de texto, estando em sua segunda iteração. De acordo com Barros, o modelo é uma rede neural baseada na tecnologia de Modelos de Difusão (diffusion models) e que se utiliza de aprendizado multimodal para permitir a conexão semântica entre textos e imagens.

Imagem gerada com frase “Um vitral com a imagem de um morango azul”. / Foto: Divulgação

Na interface disponibilizada, o usuário digita qualquer texto, em língua inglesa, descrevendo o que gostaria de gerar, e o modelo cria diversas imagens com semântica compatível a do texto digitado. O modelo é não-determinístico, o que significa que consegue gerar imagens diferentes para o mesmo texto toda vez que for requisitado.

Além disso, o sistema também permite que sejam apagadas partes de uma imagem com uma borracha, e que as partes apagadas sejam substituídas com aquilo que o usuário digitar em termos de descrição textual, tarefa conhecida como texto-based image inpainting. Para Barros, um sistema que gera imagens com base no que o usuário quer (descrição textual) pode ser uma verdadeira revolução para uma série de setores.

“Um modelo deste tipo é absolutamente revolucionário. A tarefa de geração de imagens realistas a partir de texto irá impactar e mudar para sempre diversas áreas, como o design de produtos e a geração de conteúdo visual para os mais diversos fins: reportagens, livros, storyboards, campanhas de marketing, etc. Isso tudo sem mencionar o impacto nas artes. Estamos diante de algo fantástico, estou chamando isso de ‘a materialização das ideias’. Conseguir gerar imagens de qualquer coisa que nos venha à cabeça é algo sem precedentes”, ressalta o pesquisador.

Atualmente, o sistema está em avaliação e não deve ser aberto para o público geral, principalmente devido ao seu potencial mau uso, como geração de fake news. A OpenAI pretende desenvolver mecanismos para coibir o mau uso do sistema por parte dos usuários. Barros criou um perfil no Instagram para compartilhar as imagens que ele criou utilizando o sistema, confira as imagens!

Compartilhe