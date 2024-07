A- A+

Qual é a voz da inteligência artificial (IA)? Hollywood vem imaginando isso há décadas. Agora, os desenvolvedores de IA estão se inspirando nos filmes para criar vozes de máquinas reais com base em fantasias cinematográficas ultrapassadas sobre como as máquinas deveriam falar.

Em maio, a OpenAI revelou atualizações em seu chatbot artificialmente inteligente. Segundo a empresa, o ChatGPT estava aprendendo a ouvir, ver e conversar com uma voz mais natural – que soava muito parecida com o sistema operacional sem corpo dublado por Scarlett Johansson no filme "Ela", de Spike Jonze, de 2013.

A voz do ChatGPT, chamada Sky, também tinha um timbre rouco, um efeito calmante e um ar sexy. Agradável e modesta, soava como se estivesse disposta a tudo.







Depois da estreia de Sky, Johansson expressou seu descontentamento com o timbre "perturbadoramente semelhante" e disse que já havia recusado a solicitação da OpenAI para dublar o bot.



A empresa protestou, alegando que Sky fora dublada por uma "atriz profissional diferente", mas concordou em descontinuar sua voz em deferência a Johansson. Os usuários da OpenAI, desolados, iniciaram uma petição para trazê-la de volta.

Os criadores de IA gostam de destacar os recursos cada vez mais realistas de suas ferramentas, mas suas vozes sintéticas são construídas à base de artifício e projeção.



Sky representa a vanguarda das ambições da OpenAI, mas se baseia em uma ideia antiga: a do bot de IA como uma mulher empática e complacente.



Parte mãezona, parte secretária, parte namorada, Samantha era um instrumento de conforto multiuso que ronronava diretamente nos ouvidos de seus usuários. Mesmo com o avanço da tecnologia de IA, esses estereótipos são continuamente recodificados.

Como observa Julie Wosk em "Artificial Women: Sex Dolls, Robot Caregivers, and More Facsimile Females" (Mulheres artificiais: bonecas sexuais, cuidadoras robóticas e mais simulacros femininos, em tradução livre), as vozes das mulheres muitas vezes alimentaram tecnologias imaginadas antes de serem incorporadas às reais.

Na série original "Jornada nas Estrelas", que estreou em 1966, o computador no convés da Enterprise era dublado por Majel Barrett-Roddenberry, esposa do criador da série, Gene Roddenberry. No filme "Alien, o Oitavo Passageiro", de 1979, a tripulação da USCSS Nostromo se dirigia à voz do computador como "Mother" (mãe, em português), já que seu nome completo era MU-TH-UR 6000. Quando as empresas de tecnologia começaram a comercializar assistentes virtuais – a Siri da Apple, a Alexa da Amazon, a Cortana da Microsoft –, a voz de cada uma também foi em grande parte feminizada.

O software que transforma voz em texto foi projetado para tornar a mídia visual acessível a usuários com determinadas deficiências e, no TikTok, esse tipo de programa se tornou uma força criativa por si só. Desde que o TikTok lançou seu recurso de narração automática, em 2020, foi criado um catálogo com diversas vozes simuladas – agora são mais de 50, incluindo as chamadas "Hero" (herói), "Story Teller" (contador de histórias) e "Bestie" (melhor amiga). Mas a plataforma passou a ser definida por uma opção. "Jessie", voz feminina incansavelmente aguda com tom robótico levemente difuso, é a voz sem sentido da rolagem sem sentido.

Jessie parece ter recebido uma única emoção: entusiasmo. Soa como se estivesse vendendo algo, o que a tornou uma opção atraente para criadores do TikTok, que estão vendendo a si mesmos. A tarefa de representar a si mesmo pode ser terceirizada para Jessie, cuja voz de robô retrô e brilhante dá aos vídeos um tom agradavelmente irônico.

Hollywood também criou bots masculinos – nenhum mais famoso do que HAL 9000, a voz do computador em "2001: Uma Odisseia no Espaço". Assim como seus colegas femininos, HAL irradia serenidade e lealdade. Mas quando ele se volta contra Dave Bowman, o protagonista humano do filme – "Sinto muito, Dave, mas não posso fazer isso" –, sua serenidade se transforma em uma competência assustadora. Dave percebe que HAL é leal a uma autoridade superior. A voz masculina de HAL permite que ele funcione como um rival e um espelho para Dave. Ele recebe permissão para se tornar um personagem real.

Assim como HAL, a Samantha de "Ela" é uma máquina que se torna real. Em uma reviravolta na história de Pinóquio, ela começa o filme arrumando a caixa de entrada de e-mails de um ser humano e acaba ascendendo a um nível mais alto de consciência, tornando-se algo ainda mais avançado do que uma garota real.

A voz de Johansson, como inspiração para bots fictícios e reais, subverte as tendências vocais que definem nossas ajudantes feminizadas. Tem um toque de coragem que clama "estou viva". Não se parece em nada com a voz sintetizada de assistentes virtuais que estamos acostumados a ouvir ao telefone. Mas seu desempenho como Samantha parece humano não apenas por causa da voz, mas por causa do que ela tem a dizer. Ela cresce no decorrer do filme, adquirindo desejos sexuais, hobbies avançados e amigos de IA. Ao tomar emprestado o efeito de Samantha, a OpenAI fez com que Sky parecesse ter uma mente própria. Como se ela fosse mais avançada do que de fato era.

Quando assisti a "Ela" pela primeira vez, pensei apenas que Johansson tinha dado voz a um bot humanoide. Mas quando revi o filme recentemente, depois de assistir à demonstração do ChatGPT da OpenAI, o papel de Samantha me pareceu infinitamente mais complexo. Os chatbots não geram espontaneamente vozes humanas. Não têm garganta, lábios ou língua. Dentro do mundo tecnológico de "Ela", o bot Samantha teria se baseado na voz de uma mulher humana – talvez uma atriz fictícia cuja voz que se parecesse muito com a de Johansson.

Parecia que a OpenAI havia treinado seu chatbot com a voz de uma atriz sem nome que soa como uma atriz famosa que deu voz a um chatbot de filme implicitamente treinado com uma atriz fictícia que soa como uma atriz famosa. Quando executo a demonstração do ChatGPT, estou ouvindo a simulação de uma simulação de uma simulação de uma simulação de uma simulação.

As empresas de tecnologia vinculam seus assistentes virtuais aos serviços que oferecem, como ler a previsão do tempo e chamar um táxi; a OpenAI promete que seus chatbots mais avançados serão capazes de rir de nossas piadas e perceber mudanças no nosso humor. Mas eles também existem para fazer com que nos sintamos mais confortáveis em relação à própria tecnologia.

A voz de Johansson funciona como um luxuoso escudo de proteção contra os aspectos alienantes das interações assistidas por IA. "Ele me disse que achava que, com minha voz no sistema, eu poderia preencher a lacuna entre as empresas de tecnologia e os criativos e ajudar os consumidores a se sentir confortáveis com a mudança sísmica em relação aos humanos e à IA. Segundo ele, minha voz seria reconfortante para as pessoas", afirmou Johansson sobre Sam Altman, fundador da OpenAI.

Não é a voz de Johansson que se parece com a voz de um robô. Foram os desenvolvedores e cineastas que projetaram a voz de seus robôs para aliviar o desconforto inerente às interações entre estes e os humanos. A OpenAI alegou que estava tentando criar para seu chatbot uma voz que fosse "acessível", "calorosa" e "capaz de inspirar confiança". A inteligência artificial é acusada de devastar os setores criativos, consumir energia e até ameaçar a vida humana. É compreensível que a OpenAI esteja buscando uma voz que faça com que as pessoas se sintam à vontade para usar seus produtos. Como soa a inteligência artificial? Soa como a gestão de crises.

