Red neuronal enseñó casi replicar perfectamente la voz humana

El año pasado la empresa DeepMind, que participan en el desarrollo de la tecnología de inteligencia artificial, compartió detalles sobre su nuevo proyecto WaveNet - aprendizaje profundo red neuronal se utiliza para sintetizar el habla humana realista. Hace unos días se publicó una versión mejorada de esta tecnología, que será utilizado como base para el móvil asistente digital Asistente Google.

Red neuronal enseñó casi replicar perfectamente la voz humana

sistema de síntesis de voz (también conocido como la característica de conversión "texto a voz", texto a voz, TTS) por lo general se construyen sobre la base de uno de los dos métodos principales. método de concatenación (o compilación) implica la construcción de frases mediante la recopilación de las piezas individuales de palabras registradas y partes de pregrabado actor de doblaje que implica. La principal desventaja de este método es la necesidad de una biblioteca de sonido de sustitución permanente cuando hay actualizaciones o se realiza algún cambio.

Otro método es conocido como paramétrico los TTS, y su característica es el uso de conjuntos de parámetros con el que el ordenador genera una frase. método que menos es más a menudo se muestra el resultado en forma de sonido robótico poco realistas o llamada.

En cuanto a WaveNet, produce ondas de sonido desde el sistema basado en tierra que opera sobre la base de la red neuronal de convolución, donde se genera el sonido en varias capas. Primera plataforma para la síntesis de entrenamiento del habla "en vivo" que "alimenta" una gran cantidad de muestras, aunque toma nota de algunos pitidos suenan realistas y cuáles no lo son. Se da un sintetizador de voz capaz de reproducir un tono naturalista e incluso detalles como los sonidos relamerse los labios. Dependiendo de qué tipo de muestras de voz se ejecutan a través del sistema, que le permite desarrollar un "acento" único, que en el futuro puede ser usado para crear muchas voces diferentes.

lengua aguda

Tal vez el mayor sistema de limitación de WaveNet fue el hecho de que su trabajo se requiere tener una gran cantidad de potencia de cálculo, e incluso si esta condición no es diferente velocidad. Por ejemplo, para generar 0 02 segundos de sonido que tomó aproximadamente 1 segundo de tiempo.

Después de un año de trabajo ingenieros DeepMind todavía se encuentran una manera de mejorar y optimizar el sistema de modo que ahora es capaz de producir sonido crudo de un segundo es sólo 50 milisegundos, lo cual es 1000 veces más rápido que sus características originales. Además, los expertos posible aumentar la frecuencia de muestreo de sonido de 8 bits a 16 bits, lo que tiene un impacto positivo en las pruebas que implican oyentes. Gracias a estos éxitos, por WaveNet abrió el camino hacia la integración en productos de consumo tales como Asistente de Google.

En la actualidad, WaveNet se puede utilizar para generar la voz japonesa a través de Google y Asistente de Inglés y todas las plataformas, donde se utiliza el asistente digital. Dado que el sistema puede crear un tipo especial de voto, según el grupo de muestras fue que conceda para formación, a continuación, Google pronto, lo más probable, introducirá en el apoyo de WaveNet para sintetizar el lenguaje realista y en otros idiomas, y en particular con respecto a su dialectos locales. interfaces de voz se están volviendo más y más común en una variedad de plataformas, pero se expresan con claridad la naturaleza no natural suena a muchos usuarios potenciales. Los intentos empresa DeepMind mejorar esta tecnología, por supuesto, contribuir a la difusión más amplia de los sistemas de voz, y mejorará la experiencia del usuario de su uso.

Con el ejemplo de los británicos y el discurso japonesa sintetizado utilizando la red neuronal WaveNet se puede acceder haciendo clic en este enlace.