revizando mi voz, teniendo en cuenta que he grabado 100 frases, mi voz tiene un asombroso tamaño de 13 a 15 mb, como es posible?.
ahora les explico.
estas voces, mas algunas de nuance y acapella, revivieron el viejo modo de síntesis bajo codigo de prediccion linear lpc.
este es un híbrido entre la síntesis concatenativa, y la síntesis bajo formantes.
lo voia tratar de hablarlo en un lenguaje que todos me comprendan.
se baza en dífonos, fonemas que previamente son grabados, estos se filtran y pasan a ser procesados por un sintetizador real con dos osciladores, diente de sierra y ruido blanco.
el diente de sierra es el remplazo de las vocales y sonidos tonales, y el ruido blanco reemplaza los sonidos no tonales y consonantes.
entonces las frases grabadas en audio pasan por este filtro, en el que los osciladores toman frecuencias y segmentos y otros segmentos los rechazan.
los segmentos o fonemas rechazados por el filtro, el sintetizador las reconstruye, pues estos osciladores cuentan con las frecuencias necesarias para hacerlo.
Tambien son capaces de reemplazar el tono del audio original, en ausencia de un tono en las grabaciones de audio, el back end del sintetizador los reconsruye, por eso es que a veces sonamos metálicos en tonos bajos, o si nos subimos el tono sonamos como mickey mouse.
en el pasado, el sintetizador podía reconstruyer hasta sílabas, y su resolución de convercion era bajisima, como de 8000 khz mas o menos, ejemplo lo podemos oír en los juguetes de los 80 como el speack and spell.
hoy en día el código de prediccion lineal es mucho más preciso y de mejor calidad.
ahora los filtros y osciladores pueden reconstruir frases completas en vez de sílabas como en el pasado, su resolución de audio tambien ha cambiado, ahora es de 22 o 44khz, y como antes, estas voces siguen siendo de tamaño pequeño.
aho tts trabaja bajo lpc, y su resolucion en su motor es de 22 khz, bastante bien logrado.