Nota do Editor
- Fernando Moreira é Consultor em Tecnologia Audiovisual, Palestrante, Treinador, Mentor, Projetos para emissoras de TV e empresas, Inteligência Artificial no Audiovisual, PhD em Comunicação, CEO Broadcast Media Lab e Autor.
A utilização da inteligência artificial (IA) na criação de imagens tem se mostrado extremamente útil para aqueles que precisam de ilustrações ou fotografias de forma rápida. Contudo, essa tecnologia também apresenta limitações significativas, especialmente quando se trata de representar rostos e mãos. Essas partes do corpo humano frequentemente aparecem distorcidas ou com proporções inadequadas em produções geradas por IA revelando desafios tanto técnicos quanto perceptivos.
As mãos, por exemplo, possuem uma estrutura anatômica complexa, com movimentos articulados e proporções específicas de cada dedo. Isso, aliado à interação das mãos com objetos e outras partes do corpo, gera uma grande dificuldade para os sistemas de IA. Frequentemente, os algoritmos criam imagens com mãos deformadas, contendo dedos extras ou ausentes, o que foge à fluidez natural desses movimentos. Como destacou a artista Amelia Winger-Bearskin, para que a IA se torne realmente útil, ela precisa entender o que significa ser humano, incluindo a complexidade anatômica das mãos (Chayka, 2024).
Além disso, os rostos humanos, com suas expressões sutis e nuances emocionais, também representam um desafio para as redes neurais. A IA luta para replicar com precisão os detalhes faciais, muitas vezes resultando no “vale da estranheza”, onde os rostos gerados parecem vagamente humanos, mas causam desconforto devido à sua aparência artificial. Isso ocorre porque os algoritmos tentam extrapolar padrões de grandes quantidades de dados visuais, sem compreender totalmente a cognição humana envolvida na interpretação desses traços.
Outro fator relevante é a maneira como a IA lida com os dados visuais. Modelos de geração de imagens, como os utilizados em softwares de criação artística, tentam preencher lacunas probabilisticamente, mas acabam gerando combinações que não correspondem à realidade física, especialmente em áreas de sobreposição de dedos ou detalhes faciais. Essa dificuldade é exacerbada pelo fato de que muitos conjuntos de dados, como o LAION, não dão ênfase especial às mãos, resultando em uma falta de dados adequados para treinar os modelos.
Um exemplo disso é o sistema RHandDS, apresentado em um estudo na China, que utiliza diversos conjuntos de dados e interfaces neurais baseadas em CGI para melhorar a renderização de mãos em IA. Embora seja uma solução promissora, ainda apresenta uma arquitetura complexa e altos custos de treinamento (Anderson, 2024).
Curiosamente, a Midjourney anunciou, em março de 2024, que havia conseguido resolver o problema da geração de mãos realistas e essa conquista foi recebida com certo temor, pois poderia facilitar a criação de deepfakes e imagens falsas, levantando preocupações sobre o uso indevido da IA (Chayka, 2024).
Como especialista em IA aplicada ao audiovisual, entendo que esses desafios não se limitam ao processamento computacional, eles também refletem a maneira como os humanos interpretam e percebem imagens e dessa forma o avanço na criação de imagens por IA requer melhorias contínuas nos algoritmos e uma abordagem mais cuidadosa na seleção e no tratamento dos dados de treinamento, para que a tecnologia seja verdadeiramente útil e ética em suas aplicações.
Referências:
Matthias, Meg. “Why does AI art screw up hands and fingers?”. Encyclopedia Britannica, 25 Aug. 2023, https://www.britannica.com/topic/Why-does-AI-art-screw-up-hands-and-fingers-2230501 Acessado em 13 /10/2024.
Chayka, Kyle .”The Uncanny Failures of A.I.-Generated Hands” March 10, 2023, https://www.newyorker.com/culture/rabbit-holes/the-uncanny-failures-of-ai-generated-hands. Acessado em 13 /10/2024.
Anderson, Martin. “Repairing the Nightmarish Hands Produced by Stable Diffusion”
https://blog.metaphysic.ai/repairing-the-nightmarish-hands-produced-by-stable-diffusion/ / April 25, 2024. Acessado em 13 /10/2024.
Wang, Chengrui entre outros. “RHanDS: Refining Malformed Hands for Generated Images with Decoupled Structure and Style Guidance” https://arxiv.org/pdf/2404.13984.pdf . Alibaba Group Beijing, China. Acessado em 13 /10/2024.
Fonte: Linkedin Fernando Moreira