A inteligência artificial promete marcar um antes e um depois em muitas áreas, mas uma em particular está ganhando quase todos os holofotes este ano. Em abril falamos sobre as enormes possibilidades do DALL-E 2, uma IA capaz de gerar imagens a partir de texto. Mais tarde veio o DALL-E Mini, um gerador que nos surpreendeu com suas criações malucas. Agora é a vez do Parti, uma alternativa que aposta em um novo e promissor modelo de geração de imagens fotorrealistas.
A diferencia de DALL-E y sus variantes, que utilizan un modelo de generación de imágenes desde texto de “difusión”, Parti (Pathways Autoregressive Text-to-Image) apuesta por un modelo autorregresivo que permite entradas de texto más extensas y es capaz de fazer composições complexas. Como podemos ver na imagem em destaque, os resultados de Parti são mais como uma obra de arte do que figuras amorfas como as oferecidas por DALL-E 2 (imagem abaixo).
Imagens geradas com Dall-E Mini
O novo gerador de imagens do Google
Pesquisadores do Google relatam em um post de blog que testaram o Parti em quatro escalas (350M, 750M, 3B e 20B) sob os mesmos parâmetros, ou seja, com as mesmas entradas de texto. Ao testar, eles descobriram que a última escala se destaca especialmente em prompts abstratos, que exigem conhecimento do mundo, perspectivas específicas e representação de símbolos.

Imagens geradas com Parti
Em uma das tentativas, eles usaram o seguinte texto de entrada: “Um mapa dos Estados Unidos feito de sushi. Está em uma mesa ao lado de um copo de vinho tinto (Um mapa dos Estados Unidos feito de sushi. Está em uma mesa ao lado de um copo de vinho tinto)”. Como podemos ver, a escala 350M apresenta uma representação confusa, as coisas melhoram no 750M, apresentam “criatividade” no 3B e um resultado incrível em 20B.
Também podemos ver um teste em que os pesquisadores avaliaram o trabalho de Parti em diferentes cenários complexos. Eles inseriram o texto “Retrato de um tigre usando um chapéu de condutor de trem e segurando um skate que tem um símbolo yin-yang nele (Retrato de um tigre com chapéu de condutor de trem segurando um skate com um símbolo yin-yang)“.

Imagens geradas com Parti
E pediram variantes em fotografia, ilustração em quadrinhos, pintura a óleo, estátua de mármore, entre outras. Surpreendentemente, a IA demonstrou sua capacidade de aderir a formatos e estilos de imagem específicos, embora nem sempre com resultados tão bons. Embora o Parti produza resultados de alta qualidade para uma ampla gama de indicações, o modelo tem muitas limitações.
A gigante de Mountain View continuará treinando e aprimorando seus modelos de IA para “melhorar a criatividade e a produtividade humanas”. Deve-se notar que, por motivos de segurança (o Google quer evitar o uso indevido), o Parti não está disponível ao público, assim como o DALL-E Mini, portanto, não poderemos criar nossas próprias imagens a partir de texto. No entanto, resta-nos a alternativa de ver um grande número de exemplos na página do projeto e consultar a investigação completa.
Em Xataka | O primeiro juiz feito pela inteligência artificial é bastante imparcial. Más (e boas) notícias para a justiça