
OpenAI revela novo software revolucionário capaz de criar vídeos a partir de texto
A OpenAI lançou um novo software revolucionário capaz de produzir vídeos de alta qualidade em resposta a algumas consultas de texto simples – uma inovação deslumbrante do criador do ChatGPT que também pode elevar as preocupações sobre deepfakes e plágio de conteúdo licenciado a um novo patamar.
A tecnologia, chamada Sora, utiliza sua “profunda compreensão da linguagem” para criar clipes de até um minuto de duração que incluem “personagens cativantes” e “múltiplas tomadas dentro de um único vídeo gerado”, informou a empresa em um site dedicado à nova tecnologia.
“Sora é capaz de gerar cenas complexas com múltiplos personagens, tipos específicos de movimento e detalhes precisos do sujeito e do fundo”, afirmou a OpenAI. “O modelo compreende não apenas o que o usuário solicitou na sugestão, mas também como essas coisas existem no mundo físico.”
A empresa liderada por Sam Altman forneceu alguns exemplos impressionantes a partir de sugestões que pareciam ser escritas para um roteiro de Hollywood, de acordo com o portal de tecnologia Wired, que teve acesso antecipado às capacidades do Sora.
Um dos exemplos dizia: “A bela e nevada cidade de Tóquio está agitada. A câmera se move pela movimentada rua da cidade, seguindo várias pessoas desfrutando do lindo tempo nevado e fazendo compras em barracas próximas. Pétalas de sakura deslumbrantes voam pelo vento junto com flocos de neve.”
O Sora transformou as três frases em um vibrante vídeo de 17 segundos – bem abaixo do limite de um minuto – que retratava um casal sem identificação de mãos dadas enquanto caminhavam por uma rua coberta de neve, ladeada por lojas com telhados em estilo pagode e o horizonte de Tóquio ao fundo. As cerejeiras em flor estavam em pleno florescimento enquanto a neve caía do céu nublado.
Houve alguns problemas, como o final da calçada levando a um beco sem saída, mas no geral foi “um exercício incrível de construção de mundo”, escreveu o Wired.
“O modelo atual tem suas fraquezas. Ele pode ter dificuldade em simular com precisão a física de uma cena complexa e pode não entender instâncias específicas de causa e efeito”, disse a OpenAI.
“Por exemplo, uma pessoa pode dar uma mordida em um cookie, mas depois, o cookie pode não ter uma marca de mordida.”
No entanto, outro exemplo surpreendente veio de uma sugestão que solicitava “uma cena animada de um pequeno monstro peludo ajoelhado ao lado de uma vela vermelha” que tinha “olhos grandes e boca aberta”.
O resultado foi uma mistura de um Furby com um gremlin que criou uma criatura fofa adequada para a franquia “Monstros S.A.” da Pixar. A facilidade com que o Sora renderizou o personagem contrastou com os esforços demorados que geralmente são necessários para animadores experientes – levantando preocupações sobre o impacto que a tecnologia terá na indústria cinematográfica.
Uma melhoria futura será a capacidade de gerar vídeo a partir de uma imagem estática, afirmou a empresa.
“Esta será outra forma realmente legal de melhorar as capacidades de narrativa”, disse Bill Peebles, pesquisador do projeto, ao Wired.
“Você pode desenhar exatamente o que tem em mente e então animá-lo para a vida.”
Não está claro imediatamente quando o Sora estará disponível para o público em geral, ou se será gratuito para os usuários.
Representantes da OpenAI não responderam imediatamente ao pedido de comentários do The Post.
Atualmente, o software foi disponibilizado para criadores selecionados e especialistas em segurança que irão “testar” o produto em busca de problemas de segurança.
O teste é um processo no qual um grupo finge ser um inimigo e tenta uma intrusão física ou digital contra uma organização.
O poder gerativo do Sora não apenas ameaça revolucionar Hollywood no futuro, mas a curto prazo os vídeos de curta duração representam um risco de disseminação de desinformação, preconceito e discursos de ódio em plataformas de mídia social populares como Reels e TikTok.
A empresa prometeu evitar que o software renderize cenas violentas ou deepfakes pornográficos, como as imagens gráficas de uma Taylor Swift nua que viralizaram no mês passado.
O Sora também não apropriará pessoas reais ou o estilo de um artista nomeado, mas seu uso de conteúdo “publicamente disponível” para treinamento de IA pode levar ao tipo de dores de cabeça legais que a OpenAI enfrentou com empresas de mídia, atores e autores por infração de direitos autorais.
“Os dados de treinamento são provenientes de conteúdo que licenciamos e também de conteúdo publicamente disponível”, afirmou a empresa.
A OpenAI disse que está desenvolvendo ferramentas que podem discernir se um vídeo foi gerado pelo Sora – aplacando crescentes preocupações sobre ameaças como a potencial influência do GenAI nas eleições de 2024.
A empresa – que possui um acordo de “vários anos” de US$ 10 bilhões com a Microsoft, expandindo uma parceria que começou em 2019 com apenas US$ 1 bilhão da gigante de tecnologia – também garantiu que está tomando “vários passos importantes de segurança antes de disponibilizar o Sora nos produtos da OpenAI.
A capacidade da IA de interferir em eleições aumentou os temores após a empresa lançar o ChatGPT, que pode imitar convincentemente a escrita humana, e o DALL-E, cuja tecnologia pode ser usada para criar “deepfakes”, ou imagens realistas fabricadas.
Altman testemunhou no Congresso em maio passado que estava “nervoso” com a capacidade da IA generativa de comprometer a integridade das eleições por meio de “desinformação interativa um-a-um”.
A empresa com sede em São Francisco disse que está trabalhando com a Associação Nacional de Secretários de Estado, uma organização que se concentra em promover processos democráticos eficazes, como eleições.
O ChatGPT direcionará os usuários para o CanIVote.org quando forem feitas determinadas perguntas relacionadas às eleições, acrescentou.
A notícia do lançamento iminente do Sora segue a movimentação rival da Meta para fortalecer seu modelo de geração de imagens Emu no ano passado, quando adicionou dois recursos baseados em IA que podem editar e gerar vídeos a partir de sugestões de texto.
Google e startups como Runway também lançaram projetos de IA de texto para vídeo.