Por que a inteligência artificial tem dificuldade em criar imagens de rostos e mãos?

Nota do Editor

Fernando Moreira é Consultor em Tecnologia Audiovisual, Palestrante, Treinador, Mentor, Projetos para emissoras de TV e empresas, Inteligência Artificial no Audiovisual, PhD em Comunicação, CEO Broadcast Media Lab e Autor.

A utilização da inteligência artificial (IA) na criação de imagens tem se mostrado extremamente útil para aqueles que precisam de ilustrações ou fotografias de forma rápida. Contudo, essa tecnologia também apresenta limitações significativas, especialmente quando se trata de representar rostos e mãos. Essas partes do corpo humano frequentemente aparecem distorcidas ou com proporções inadequadas em produções geradas por IA revelando desafios tanto técnicos quanto perceptivos.

As mãos, por exemplo, possuem uma estrutura anatômica complexa, com movimentos articulados e proporções específicas de cada dedo. Isso, aliado à interação das mãos com objetos e outras partes do corpo, gera uma grande dificuldade para os sistemas de IA. Frequentemente, os algoritmos criam imagens com mãos deformadas, contendo dedos extras ou ausentes, o que foge à fluidez natural desses movimentos. Como destacou a artista Amelia Winger-Bearskin, para que a IA se torne realmente útil, ela precisa entender o que significa ser humano, incluindo a complexidade anatômica das mãos (Chayka, 2024).

Além disso, os rostos humanos, com suas expressões sutis e nuances emocionais, também representam um desafio para as redes neurais. A IA luta para replicar com precisão os detalhes faciais, muitas vezes resultando no “vale da estranheza”, onde os rostos gerados parecem vagamente humanos, mas causam desconforto devido à sua aparência artificial. Isso ocorre porque os algoritmos tentam extrapolar padrões de grandes quantidades de dados visuais, sem compreender totalmente a cognição humana envolvida na interpretação desses traços.

Outro fator relevante é a maneira como a IA lida com os dados visuais. Modelos de geração de imagens, como os utilizados em softwares de criação artística, tentam preencher lacunas probabilisticamente, mas acabam gerando combinações que não correspondem à realidade física, especialmente em áreas de sobreposição de dedos ou detalhes faciais. Essa dificuldade é exacerbada pelo fato de que muitos conjuntos de dados, como o LAION, não dão ênfase especial às mãos, resultando em uma falta de dados adequados para treinar os modelos.

Um exemplo disso é o sistema RHandDS, apresentado em um estudo na China, que utiliza diversos conjuntos de dados e interfaces neurais baseadas em CGI para melhorar a renderização de mãos em IA. Embora seja uma solução promissora, ainda apresenta uma arquitetura complexa e altos custos de treinamento (Anderson, 2024).

Curiosamente, a Midjourney anunciou, em março de 2024, que havia conseguido resolver o problema da geração de mãos realistas e essa conquista foi recebida com certo temor, pois poderia facilitar a criação de deepfakes e imagens falsas, levantando preocupações sobre o uso indevido da IA (Chayka, 2024).

Como especialista em IA aplicada ao audiovisual, entendo que esses desafios não se limitam ao processamento computacional, eles também refletem a maneira como os humanos interpretam e percebem imagens e dessa forma o avanço na criação de imagens por IA requer melhorias contínuas nos algoritmos e uma abordagem mais cuidadosa na seleção e no tratamento dos dados de treinamento, para que a tecnologia seja verdadeiramente útil e ética em suas aplicações.

Referências:

Matthias, Meg. “Why does AI art screw up hands and fingers?”. Encyclopedia Britannica, 25 Aug. 2023, https://www.britannica.com/topic/Why-does-AI-art-screw-up-hands-and-fingers-2230501 Acessado em 13 /10/2024.

Chayka, Kyle .”The Uncanny Failures of A.I.-Generated Hands” March 10, 2023, https://www.newyorker.com/culture/rabbit-holes/the-uncanny-failures-of-ai-generated-hands. Acessado em 13 /10/2024.

Anderson, Martin. “Repairing the Nightmarish Hands Produced by Stable Diffusion”

https://blog.metaphysic.ai/repairing-the-nightmarish-hands-produced-by-stable-diffusion/ / April 25, 2024. Acessado em 13 /10/2024.

Wang, Chengrui entre outros. “RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance” https://arxiv.org/pdf/2404.13984.pdf . Alibaba Group Beijing, China. Acessado em 13 /10/2024.

Fonte: Linkedin Fernando Moreira

Ph.D. em Comunicação Social, Pedagogo, Publicitário, Jornalista. Consultor em Tecnologias Audiovisuais. Profissional da área audiovisual com mais de 35 anos de experiência no mercado corporativo e acadêmico, Professor de Cursos de Comunicação. Tem participação em 12 livros e vários artigos publicados em revistas especializadas. Membro da Sociedade Brasileira de Engenharia de Televisão, da Broadcast Education Association, do Conselho Consultivo da Associação Brasileira de Televisão Universitária, do conselho Museu da Televisão, Rádio e Cinema.Ex- Presidente da Associação Brasileira de Universitária - ABTU e membro do Conselho Diretivo da Associação Ibero-americana de Televisões Educativas e Culturais - ATEI. Como profissional de TV atuou na direção de programas de TV, direção e produção de documentários, vídeos corporativos e educativos. Também atuou na coordenação de eventos nacionais e internacionais no Brasil, América Latina, EUA e Europa com transmissão ao vivo e na coordenação de contratos e parcerias nacionais e internacionais (emissoras de TV, empresas, orgãos públicos). Como empresário atuou na área de comunicação como sócio de produtoras de audiovisual e agência de propaganda, atendendo clientes como PETROBRAS, EMBRAER, AVIBRÁS, ALCAN, KODAK, BOLLHOFF, ALCAN entre outros.