O QUE FAZ?
A nosso sistema proposto é capaz de transferir o conhecimento da variabilidade da fala aprendido pelo codificador treinado somente para a nova tarefa, e é capaz de sintetizar a fala natural de vozes que não foram ouvidas ainda.
Além disso, o sistema é capaz de gerar novas vozes, além de ser programável para fazer qualquer tipo de discurso dentro da voz clonada.
Nosso sistema consiste
em 3 componentes
treinados independente
Uma rede codificadora de voz, treinada em uma tarefa de verificação de alto-falante usando um conjunto de dados independente de fala barulhenta de milhares de alto-falantes sem transcrições, para gerar um vetor de incorporação de dimensão fixa a partir de segundos de fala de referência de um alto-falante alvo;
Uma rede de síntese sequência a sequência, que gera um espectrograma mel a partir do texto, condicionado à incorporação do alto-falante;
Um vocoder auto-regressivo que converte o espectrograma em uma sequência de amostras de formas de onda no domínio do tempo.
MAIS FUNCÕES
Além de reproduzir uma voz já existente o sistema é capaz de gerar novas vozes, usando trechos aleatórios das amostras, e também pode ser usado em técnicas de tradução, analisando uma voz em um idioma e gerando uma voz similar à original em inglês.