Nova tecnologia da OpenAI promete clonagem de voz em segundos

2 de abril de 2024 tutoriaisweb

A OpenAI revelou uma tecnologia avançada de clonagem de voz, que precisa de apenas 15 segundos de áudio para reproduzir com precisão a voz de uma pessoa. Isso marca um avanço significativo em relação aos métodos anteriores, que exigiam muito mais tempo de áudio para o mesmo resultado.

Embora o avanço possa ser útil para, por exemplo, assistência de leitura para não leitores, tradução instantânea de conteúdo audiovisual e comunicação para pacientes com perda de voz, ela levanta uma grande preocupação sobre o uso do recurso para deep fakes ou golpes financeiros.

A OpenAI compartilhou em seu site uma prévia de um modelo chamado Voice Engine, que está em desenvolvimento desde o final de 2022. Esse sistema requer apenas 15 segundos de áudio para funcionar. Com ele, os usuários podem inserir texto e gerar um discurso emotivo e realista, que se assemelha muito à voz original.

A nova tecnologia tem o potencial de ser aplicada de várias maneiras, desde assistência de leitura para não leitores a tradução instantânea de conteúdo audiovisual. No entanto, surgem preocupações éticas sobre seu uso, incluindo possíveis golpes financeiros e manipulação política. Além disso, há inquietações sobre o impacto que ela pode gerar na indústria de dublagem, com possíveis implicações para os profissionais do setor.

A empresa afirmou que deseja iniciar um diálogo sobre o uso responsável de vozes sintéticas e explorar como a sociedade pode se ajustar a essas novas capacidades. Além disso, a OpenAI enfatizou que tomará uma decisão mais informada sobre a implantação em larga escala com base nas conversas e nos resultados dos testes em pequena escala.

*Com informações do Digital Trends

Siga o IT Forum no LinkedIn e fique por dentro de todas as notícias!

Você pode gostar também