Topo
Blog Porta 23

Blog Porta 23

As fake news ganham aliadas na recriação da realidade: as fake images

Cristina De Luca

2005-01-20T18:09:07

05/01/2018 09h07

Semana que vem tem CES 2018, e a Nvidia já largou na frente apresentando o que promete ser a sensação do ano: as fake images. Pesquisadores da empresa criaram um sistema (o CelebA-HQ) que combina técnicas de Computação Gráfica e Inteligência Artificial para produzir imagens falsas, hiper-realistas, capazes de passar por imagens reais.

O software, disponível no repositório GitHub, analisa imagens, reconhece padrões comuns e cria novas imagens a partir desses mesmos padrões. Para demonstrar a tecnologia, a Nvidia usou imagens de celebridades, mas o sistema pode ser aplicado a animais, plantas e objetos, segundo reportagem no New York Times.

De acordo com a equipe de pesquisadores da Nvidia atuantes em seu laboratório na Finlândia, o sistema permite a criação de imagens suficientemente realistas para jogos, filmes, ou outros meios, de forma mais rápida do que acontece hoje. "Acho que poderemos ir mais longe, ao gerar não só fotografias mas também imagens em 3-D que possam ser usadas na indústria do entretenimento", comentou Jaakko Lehtinen, um dos pesquisadores responsáveis pelo desenvolvimento do sistema.

"Temos um modelo que consegue gerar caras que são mais diversificadas e, de alguma forma, mais realistas do que quando são feitas nos programas de computação gráfica disponíveis", afirmou Durk Kingma, pesquisador de um laboratório de inteligência artificial criado por Elon Musk, da Tesla, sobre o sistema da Nvidia.

O projeto faz parte de um vasto e variado esforço para a construção de tecnologias capazes de gerar automaticamente imagens convincentes – ou alterar imagens existentes de maneiras igualmente convincentes.  E avança em um campo muito promissor este ano: o da"Synthesized Media" (mídia sintetizada).

Muitas empresas estão investindo fortemente na identificação de imagens, estáticas ou em movimento, sua classificação e recuperação. Mais: uma vez tendo esses dados bem estruturados, essas empresas passam a combiná-los com outros recursos para,  por exemplo, ter a IA criando banners automaticamente, com base em  insumos de produtos e marcas.

Outras estão avançando no processamento de linguagem natural e geração de fala. Muitas empresas estão empenhadas  na compreensão da linguagem humana e, o mais importante, também na intenção por trás da fala. Uma vez que uma máquina consiga entender um discurso, ela também poderá responder com maior precisão. Os exemplos de PNL (processamento de linguagem natural) são abundantes hoje.

Com o Aprendizado da Máquina e a IA nos ajudando a identificar imagens, vídeos e som, podemos coletar e marcar dados em escala. Não só isso. Podemos fazê-lo a uma velocidade impressionante. E aí, recombiná-los usando técnicas de Synthesizes Media.

O exemplo mais badalado é o da recriação de um vídeo do presidente Barack Obama feita por pesquisadores da Universidade de Washington, usando imagens de suas falas semanais.

Mas um outro software, desenvolvido na Universidade de Stanford, é capaz de manipular imagens de filmes de figuras públicas para permitir que uma segunda pessoa fale por ela – em tempo real. O Face2Face captura as expressões faciais da segunda pessoa enquanto conversam em uma webcam e, em seguida, sobrepõe os movimentos da fala diretamente no rosto da pessoa do vídeo original.  Por si só, o Face2Face é um brinquedo divertido para criar memes e divertir. No entanto, com a adição de uma voz sintetizada, torna-se mais convincente – não só a imagem digital é a de um político, como também soa como o próprio político.

Pesquisadores da Universidade da Califórnia, Berkeley, desenharam outro sistema que aprende a converter cavalos em zebras e Monets em Van Goghs. O DeepMind, laboratório de IA do Google baseado em Londres, está gerando vídeos a partir de modelos pré existentes. A Adobe está investindo em melhorias para o Photoshop, sua popular ferramenta de design de imagem. E a Lyrebird investiu em um sistema que pode imitar essencialmente qualquer som, como motosserras ou macacos em uma selva. O que a levou a criar um serviço que ouve a sua voz por cinco minutos e, em seguida, faz parecer que você disse qualquer coisa.

Todos os dias, mais empresas estão trabalhando com Synthesized Media. A tecnologia ainda está em seu estágio inicial, mas provavelmente irá melhorar rapidamente e se tornar generalizada em alguns anos – é inevitável.

"A preocupação é que essas técnicas avancem ao ponto em que seja muito difícil discernir a verdade", disse ao New York Times Tim Hwang, ex-supervisor de políticas de IA no Google e agora diretor do Ethics and Governance of Artificial Intelligence Fund, um esforço para financiar pesquisas éticas sobre aplicações de  IA. É preciso evitar que a IA acelere  os problemas que já temos.

Ao construir um sistema que gera novos rostos de celebridades, a equipe da Nvidia deu um passo adiante em um esforço para torná-los muito mais verossímeis, usando duas redes neurais – uma que gera as imagens e outra que tenta determinar se essas imagens eram reais ou falsas. A técnica é chamada de Generative Adversarial Networks (GANs), sensação do ano passado. Em essência, um sistema tenta para enganar o outro, que se esforça para não ser enganado. "O computador aprende a gerar imagens realistas através de um jogo de rato e gato contra ele mesmo", explicou Lehtinen ao New York Times.

O GAN é uma ideia realmente poderosa. Mesmo Yann LeCun (um dos pais da Deep Learning) está dizendo que é a melhor ideia em torno do Machine Learning nos últimos 20 anos.

Com base nessa técnica, uma segunda equipe de pesquisadores da Nvidia construiu um sistema que pode alterar automaticamente uma foto de rua tirada no verão, para que pareça uma cena de inverno.

Ao New York Times, Eliot Higgins, fundador da Bellingcat, uma organização que analisa eventos atuais usando imagens e vídeos publicamente disponíveis, afirmou que imagens falsas não são um problema novo. Nos anos que se seguiram ao surgimento do Photoshop, já nos acostumamos a desconfiar do que vemos impresso em qualquer meio. Mas que ficará cada vez mais difícil separar o joio do trigo não resta a menor dúvida.

** Este texto não reflete, necessariamente, a opinião do UOL

Sobre a autora

Cristina De Luca é jornalista especializada em ambiente de produção multiplataforma. É diretora da ION 89, startup de mídia com foco em transformação digital e disrupção. Foi diretora da área de conteúdo do portal Terra; editora-executiva da área de conteúdo da Globo.com; e editora-executiva da unidade de Novos Meios da Infoglobo, responsável pela criação e implantação do Globo Online. Foi colunista de tecnologia da Rádio CBN e editor-at-large das publicações do grupo IDG no Brasil. Master em Marketing pela PUC do Rio de Janeiro, é ganhadora do Prêmio Comunique-se em 2005, 2010 e 2014 na categoria Jornalista de Tecnologia.

Sobre o blog

Este blog, cujo nome faz referência à porta do protocolo Telnet, que é o protocolo de comunicação por texto sem criptografia, traz as informações mais relevantes sobre a economia digital.