1. El-Megalovano,
Buenas a todos!
Hace poco o no mucho en el foro de Audiogames se está hablando sobre un futuro sintetizador de voz por formantes, llamado Synfonica TTS, antes NovaSpeech. Un usuario del foro (JOSH) dijo que quizá este sintetizador reemplazaría a ESpeak y o a ETI-Eloquence en un año o más, si sería posible.
Les dejo el link del tópico en cuestión:
https://forum.audiogames.net/topic/45994/synfony-tts-may-replace-eloquence-in-a-year-or-two/
Y el link de Synfónica en cuestión:
https://www.synfonicaspeech.com/about
Para resumir, Synfonica fue conocida como NovaSpeech cuando se creó en 2004. Su jefa y presidenta es Susan "Sue" Herts. Ella fundó en los años 80 la famosa (para nosotros) compañía Eloquent Technology (ETI) creadora de Eloquence (vaya casualidad?) Ella es lingüista y desarrolladora de software.
Junto a ella están en el equipo Dr. Masayuki Gibson, Isaac Spencer y Patrick Hegde.
Recientemente Josh ha escrito un EMail mencionando una conversación en LinkedIn con la presidenta de Synfonica y fundadora de ETI. Aunque la página de Synfónica ofrece información sobre su sistema, quizá las respuestas encontradas a sus preguntas darán más información y responda a dudas sobre su uso y comparación con sintetizadores que utilizamos. Gracias DeepL por traducirlas.
Ah, antes les dejo una demo de como suena este sinte. No se yo pero se escucha moderno?
https://drive.google.com/file/d/1sOBLADDv8BJCVSp7dz-77ts2vuxL_zJ2/view?usp=sharing
Y aquí las preguntas y respuestas.
Nota al usuario: Decidí corregir los nombres de sintetizadores mencionados, algunos tienen letras mayúsculas en partes donde no estaban: E.G. DecTalk, decTalk, Dectalk, Dec Talk o Dec talk por DECtalk.
Hola Joshua,
Gracias por todas tus sugerencias y comentarios en LinkedIn. Tal y como prometí, he adjuntado una demostración del resultado de nuestro sistema de conversión de texto a voz Synfony.
Su objetivo es resaltar las diversas capacidades del sistema. Estamos trabajando activamente en todos los aspectos del sistema, por lo que debería tomarse la demostración
como un reflejo del estado actual del software.
A continuación, se responden las distintas preguntas y comentarios, algunos de los cuales amplían lo que ya dije en nuestro chat de LinkedIn:
Pregunta 1: Sólo por curiosidad, ¿se basa eloquence en el sintetizador Klatt de DECtalk, o se parece más al texto-a-voz Keynote gold basado en Klatt
de principios de los 90?
Para responder a esta pregunta, me gustaría asegurarme de que estamos en la misma página con nuestra terminología. Un sistema de síntesis de texto a voz (TTS) basado en reglas como
DECtalk, ETI-Eloquence o Synfony tiene tres componentes principales: (1) un componente de análisis de texto que analiza el texto de entrada y produce una representación lingüística simbólica
que incluye información sobre el fraseo, los patrones de entonación, las pronunciaciones y otras propiedades lingüísticas del enunciado que se está sintetizando;
(2) un componente de generación de voz que utiliza la información producida por el componente de análisis de texto para producir varios valores acústicos; y (3) un vocoder
que genera una forma de onda a partir de los valores acústicos. Los componentes de análisis de texto y de generación de voz de ETI-Eloquence no se basan en los componentes comparables
componentes de DECtalk o de cualquier otro sistema TTS. El vocoder utilizado en ETI-Eloquence incorpora un modelo similar pero no idéntico al que
que Klatt y Klatt describieron en el siguiente artículo: D.H. Klatt & L.C. Klatt (1990): "Análisis, síntesis y percepción de las variaciones de la calidad de la voz
entre hablantes masculinos y femeninos". Journal of the Acoustical Society of America 87: 820-856.
Pregunta 2: Además, ¿hay alguna manera de que los usuarios finales hagan sus propios archivos SYN para añadir más idiomas, o todo el código pertenece ahora a Nuance Communications, INC (ahora Microsoft Corporation)?
No, no hay manera de que los usuarios finales añadan idiomas a ETI-Eloquence, por varias razones. Tanto Nuance (ahora Microsoft) como IBM tienen derechos sobre el código fuente de ETI-Eloquence,
y, por lo que sé, ninguno de los dos ha puesto a disposición el código fuente. Dicho esto, creo que está subestimando lo que supone añadir un lenguaje -al menos uno que suene razonablemente natural y
al menos uno que suene razonablemente natural e inteligible. Los requisitos de análisis de texto difieren mucho entre los idiomas, y los algoritmos no son ni mucho menos triviales de desarrollar.
triviales de desarrollar. Lo mismo ocurre con los algoritmos de generación de voz.
Pregunta 3: ¿Y qué pasó con los acentos de Nueva York y Alabama que desarrollaron para Eloquence a mediados de los 90? ESpeak-ng es bueno, pero no se puede comparar con Eloquence y me gustaría que Eloquence se hubiera desarrollado más, es decir, que se hubieran desarrollado más idiomas para él.
Por diversas razones, nunca lanzamos una versión del producto ETI-Eloquence con los diversos dialectos en los que estábamos trabajando.
Pregunta 4: En otras palabras, ¿se basa eloquence en Klatt de Berkeley Speech Technology o en el trabajo de Dennis Klatt?
Los algoritmos de análisis de texto y de generación de voz subyacentes a ETI-Eloquence no se basan en el trabajo de nadie más. De hecho, hemos diseñado los algoritmos para
superar las limitaciones de los modelos lingüísticos subyacentes a los sistemas basados en reglas que precedieron a ETI-Eloquence. La única parte del sistema que se parece
es el codificador de voz.
Pregunta 5: Además, ¿podría hacer una variante de voz para ESpeak que incluya el cambio de sus enunciados de tono para que suene más como eloquence -como en su calidad de voz Klatt
y la forma en que se inflexiona al hablar?
Por las razones expuestas anteriormente, esto no sería trivial. Además, me interesa desarrollar sistemas de síntesis de voz de nueva generación, no parchear
los existentes con todas sus deficiencias.
Pregunta 6: Y si no tiene más interés en desarrollar para Eloquence, ¿podríamos tener esos acentos de Nueva York y Alabama para ESpeak que se encuentran en:
http://espeak.sourceforge.net/test/latest.html
?? ESpeak y su código fuente Klatt están en el sitio web mencionado.
No tengo los derechos del código para los acentos de Nueva York y Alabama.
Pregunta 7: Además, ¿utilizarán Jaws y otros lectores de pantalla eventualmente Synfonica como un reemplazo moderno de Eloquence?
Espero que sí.
Pregunta 8: ¿Ofrecerá Synphony muchos más idiomas que Eloquence?
En la actualidad no tenemos un camino planificado hacia el desarrollo de múltiples idiomas. Nuestro interés inmediato es desarrollar nuevos tipos de tecnología de síntesis.
En uno de nuestros proyectos, por ejemplo, estamos trabajando en una nueva tecnología que mantiene todas las ventajas de los sistemas de síntesis basados en reglas, pero también tiene
la calidad de voz natural que producen otros tipos de sistemas de síntesis que actualmente son menos adecuados para su uso por parte de personas ciegas. Además, nos centramos en
en añadir voces expresivas (por ejemplo, voces que suenen alegres, tristes, etc.) a Synfony para personas que no pueden hablar con su propia voz. Sin embargo, si se da la oportunidad
oportunidad de negocio, sin embargo, ciertamente consideraríamos el desarrollo de idiomas adicionales.
Pregunta 9: ¿Sustituirá Nuance text-to-speech a Eloquence con Synphony? Si es incluso mejor que Eloquence y sigue siendo compatible con un discurso rápido y agradable como el de Eloquence, espero que sea así.
Eloquence, entonces espero que sí.
No he tenido ninguna comunicación con Nuance.
Pregunta 10: También espero que Synfonica llc venda una versión sapi5 del Synfonica TTS para que las personas ciegas puedan comprarlo y utilizarlo con Jaws
y NVDA aunque no sean directamente compatibles con Synfonica tts de inmediato.
Nuestra intención es desarrollar una versión SAPI 5, así como otras.
Pregunta 11: Además, para las personas que no pueden hablar, ¿podrían vender también una versión de Synfonica tts con una aplicación de ventana de habla? Pero lo más importante, si
posible, por favor, déjenos poner comandos en los valores de tono y duración de la ventana de voz y un modo de fonemas, para que el synfonics tts pueda cantar igual que
como el DECtalk puede cantar. También se pueden añadir comandos que permitan reproducir directamente archivos de onda, y generar tonos táctiles y tonos directamente, como el decTalk
puede generar varios tipos de tonos introduciendo comandos de tono en hercios y valores de duración.
para su uso en su lector de pantalla voiceOver, además de permitir que funcione con android, Linux y windows a través de sapi5.
Nuestra intención es proporcionar una aplicación con todas las capacidades que ha mencionado para múltiples plataformas, con la excepción de que en un futuro previsible
el sistema sólo estará disponible para el inglés.
Pregunta 12: También si necesitáis voluntarios para probar la beta de Synfony TTS cuando esté disponible. Me gustaría ser voluntario.
Estaremos encantados de proporcionarle una aplicación beta para probar Synfony cuando esté disponible.
Pregunta 13: Un error importante que he observado con ETI eloquence 6.1 y que tal vez se pueda eliminar en Synfonica tts: cuando Eloquence encuentra una frase muy larga
frase muy larga, por ejemplo, una frase con 15 o más palabras, algunas de las cuales pueden ser largas, sin puntuación para separarlas, el tono de ETI eloquence
sigue bajando de su tono por defecto y sigue bajando más y más y más mientras lee la frase muy larga. ¿Podría asegurarse de que
este error se corrija con synfony TTS si es posible? gracias.
Synfony no tiene este problema. Es poco probable que tenga los mismos errores que ETI-Eloquence, dado que utiliza algoritmos muy diferentes en los tres
componentes de síntesis mencionados.
Pregunta 14: ¿también se puede utilizar el diccionario de pronunciaciones para Eloquence hecho por Amir, o tal vez implementarlo en synfony tts--a menos que debido a los avances
en la tecnología tts dicho diccionario no sea necesario... se encuentra en:
https://github.com/thunderdrop/IBMTTSDictionaries
Proporcionaremos soporte para diccionarios definibles por el usuario para que éste pueda añadir cualquier palabra, raíz y abreviatura que Synfony no maneje como desea.
Pregunta 15: Tengo otro comentario que transmitir, por favor, asegúrense de que Synfony tts ponga un énfasis adecuado cuando encuentre signos de interrogación y exclamación
durante la lectura. Es importante que las personas ciegas sepan cuándo se leen ese tipo de signos de puntuación en el contexto de varias frases.
Así será.
En general, espero que mis respuestas anteriores respondan a sus preguntas, pero hágamelo saber si no es así.
Gracias por mencionar que el enlace de contacto de nuestro sitio web no funciona. He transmitido su comentario al administrador de nuestro sitio web. Gracias también
por mencionar nuestro software a Apple. Soy consciente de que probablemente querrán más idiomas. Si todavía está interesado en escuchar a Synfony producir el habla
a diferentes velocidades, hágamelo saber y le enviaré una o dos frases a diferentes velocidades de habla.
Por último, me interesaría saber más sobre usted y si tiene alguna necesidad específica de tecnología de asistencia que podamos atender
aparte de las que ya ha mencionado. ¿A cuántas palabras por minuto sueles escuchar el habla sintética, o depende de la tarea que realices?
¿Sigue trabajando como técnico de soporte de escritorio?
Estoy deseando recibir sus comentarios sobre la demostración.
Un saludo,
Sue
Dra. Sue Hertz
Presidenta y jefa científica
Synfonica LLC
Resultado: +5
Última edición por El-Megalovano, 24.08.2022 20:42:08