Microsoft desenvolve IA que ‘imita’ qualquer voz humana em apenas três segundos; ouça - Estadão

Microsoft desenvolve IA que ‘imita’ qualquer voz humana em apenas três segundos; ouça  Estadão

Microsoft desenvolve IA que ‘imita’ qualquer voz humana em apenas três segundos; ouça - Estadão
AMAZON MUSIC FREE
AMAZON MUSIC FREE
AMAZON MUSIC FREE
A Microsoft apresentou, na última semana, uma inteligência artificial (IA) capaz de imitar vozes de pessoas em poucos segundos, revelando o fortalecimento do uso de áudio para alimentar algoritmos chamados text to speech. Chamado de VALL E, a IA precisa de apenas três segundos para ouvir, sintetizar e imitar uma voz humana em diferentes contextos.

Segundo a empresa, esse é um novo modelo de linguagem para síntese de texto para fala (text to speech, TTS na sigla em inglês), que visa tornar mais natural a forma com que textos podem ser transformados em áudios — uma tentativa de evitar a voz mecânica ou despersonalizada, de assistentes de áudio ou aplicativos como Google Tradutor, por exemplo).

Empresa de inteligências artificiais ‘da moda’ se torna uma das startups mais valiosas dos EUA

Para isso, mais de 60 mil horas de gravações serviram de treino para que a IA pudesse identificar diferentes características e tom de voz humano, em situações distintas de humor e de ambiente externo.

Nos exemplos apresentados pela Microsoft, amostras de áudio de bancos como o LibriSpeech Samples e VCTK Samples são utilizados como base para gerar falas de textos pré definidos. Assim, após a identificação da entonação e de fatores como frequência e timbre, o texto é “imitado” pela inteligência com a mesma voz ouvida na amostra.

VALL E also synthesizes voice variations for the same input text. pic.twitter.com Yy9hj05Qa3

As gravações, que serviram de base para o algoritmo, porém, foram feitas todas em inglês, único idioma que o VALL E suporta até o momento. O resultado, de acordo com a Microsoft, oferece a preservação “da emoção do locutor e o ambiente acústico do prompt acústico na síntese”.

Outro ponto do VALL E destacado pela Microsoft é a possibilidade de combinar suas ferramentas com outros tipos de IA, como a GPT 3, por exemplo, um gerador conversacional de textos da startup americana OpenAI. Ambas as tecnologias são consideradas generativas, ou seja, podem criar conteúdo a partir de amostras.

VALL E also synthesizes voice variations for the same input text. pic.twitter.com Yy9hj05Qa3



Via Google News