sonata / Piper Neural voices: Un sintetizador para NVDA que suena muy bien y utiliza inteligencia artificial

723 messaggi, 25 pagine: 1…; 4 56 7 8…; 25 ↖ Torna alla lista degli argomenti

Punteggio: +32

151. clapmauricio, 01.11.2023 16:23:25

Eso es lo que descubri por ahora:
Extraí la carpeta de la aplicación en c:\clap\programas, o sea, está como c:\clap\programas\piper.
Extraí el modelo de mi propia voz, en portugués BR, en la carpeta de Piper, sin crear una subcarpeta.
Logré abrir la aplicación ya con mi voz cargada com el siguiente comando en la ventana Executar de Windows: "C:\Clap\Programas\piper\piper.exe" --model pt-br-clapimproved-medium.onnx
No logré seleccionar el output file, así que Piper lo hace solo, salvando los audios también en su carpeta.
Si todo sale bien, basta escribir una frase y Piper la salva en el archivo.wav.
Lo único problema es que la aplicación no me deja escrivir palabras con tildes, como "Maurício", "Aplicação" etc.

Eso es todo, pero sigo probandola.

Punteggio: +0

Ultima edizione da clapmauricio, 01.11.2023 17:42:14

152. PolloGuerrero, 01.11.2023 22:36:32

No vale la pena. Solo genera muchos archivos wavs cortitos, aunque las voces suenan muuuuy bien, eso sí.

Punteggio: +0

153. EFRAIN , 02.11.2023 01:13:19

y como puedo desinstalar una voz?

Punteggio: +0

154. PolloGuerrero, 02.11.2023 15:22:30

En el administrador de voces, cuando seleccionás una voz, le das en eliminar, o remove.

Punteggio: +0

155. El-Megalovano, 07.11.2023 09:27:58

Ansí que si no me equivoco para hacer una voz multi-speaker si hay que hacer finetuning se debe utilizar una voz multispeaker y no una voz con un solo actor?

Punteggio: +0

156. PolloGuerrero, 07.11.2023 12:38:06

Y, eso es lo que más lógica tiene para mí, pero no lo sé.
a todo esto, ya que posteaste, aprovecho a comentarles que edité el primer post y creo que está lo suficientemente bien ordenado con los cambios pertinentes para que sepan cómo descargar e instalar a cómo está ahora. última vez que repito: Para obtenerlo, saber cómo instalarlo y tal, tienen un botón muy bonito al alcance de la mano, que, pobre, me da lástima que esté tan abandonado, y dice: abrir esta discusión desde la web. Lo pulsan, les abre la página web en este mismo hilo, que también, pobre, me da lástima que se le haya puesto tanto trabajo para al final ser menos usada por comodidad o flojera, y... Nada. ahí lo tienen.
A la próxima de"¿Alguien me pasa el link y ñañañaña? Será ignorada.

Punteggio: +0

157. Natsuki, 13.11.2023 02:37:50

Genial, ya le echaré un vistazo.

Punteggio: +0

158. PolloGuerrero, 13.11.2023 02:44:06

Chicos, ahora que el hilo fue revivido me aseguré de editar el primer post, última vez que repito: Info de dónde descargar y cómo instalar en el primer post; con las siguientes nuevas:
•Intentaré poner siempre el último comic compilado. En este momento, Piper Neural voices está en español, ya en sus parámetros de voz extra como la interfaz del administrador de voces. Ahora pueden descargar voces del repositorio oficial, desde el mesmo administrador.
•Ahora Piper usa un servidor intermediario (local) que efectúa la comunicación entre el TTS y el complemento. Hasta ahora no vi errores que sí había en el Comic anterior que tuve, donde NVDA se podía ir al carajo o el proceso del servidor GRPC se iba a la mierda comiéndote procesador a lo bobo y.
•Ahora es mucho más responsivo.
Recuerden instalar nuevamente las voces que tenían, o mover de ubicación y renombrar, o borrar todo y reinstalar de 0. Ahora deberían funcionar las voces recientemente entrenadas.
Dicho esto...

Punteggio: +0

159. martin_garrix , 17.11.2023 19:35:47

posteo

Punteggio: +0

160. PolloGuerrero, 17.11.2023 19:54:06

Listo, ahora sí! Muchas gracias.
se vienen 2 voces más para compartirles, no las hice yo. son recreaciones de voces ya conocidas, o relativamente conocidas según como se quiera ver.
Por un lado, si han usado Windows xp recordarán el paseo por Windows Xp y la voz femenina que hablaba en esos vídeos. Acá está recreada con Piper:
https://huggingface.co/polysound/piper_unofficial_voices/blob/main/es/voice-es-xp-medium.tar.gz
Y por otro lado, antes habrán escuchado que hablamos de recrear la voz de Keynote. Para ponerles en contexto, Keynote era un viejo sintetizador de voz que primero fue por hardware, y luego estuvo por software para Windows 3.1 y primeros Windows modernos, y sonaba tipo eloquence, Orfeus, Dectalk y tal. Fue recreado para Piper:
https://huggingface.co/polysound/piper_unofficial_voices/resolve/main/es/voice-es-keynote-medium.tar.gz

Punteggio: +0

161. Reino-makay, 17.11.2023 20:10:10

CHICOS, ALGUIEN ME AYUDARÍA HACER O A INSTALAR DIGAMOS, LA VOZ DE DALIA? NO SE ME GUSTARÍA PROVAR ESAS VOSES, COMO VAN CON nvda? ESCUCHÉ QUE IBA ALGO LENTAS PERO COMO A IDO LA ACTUALISACIÓN? EL QUE ME DESEE AYUDAR, COMUNÍQUESE CON MIGO EN EL INTERNO, ESTÁN ABIERTO, Y SIN MÁS. MUCHÍSIMAS GRACIAS

Punteggio: +0

162. PolloGuerrero, 17.11.2023 20:22:42

Hola! Estaba por mandarte un pv pero no te veo conectado. Bueno, fíjate el primer post de este hilo, para tu mayor comodidad lo podés abrir desde la web y ahí explico ´como instalarlo en su última versión que me aseguré de proporcionar, y están al menos las voces que hice yo también. Y bueno, de novedades como podrás leer posts más arriba, ahora la interfaz está traducida , hay 3 parámetros extra de voz propios para este sinte (yo no me animo a jugar mucho con ellos) y ahora es más responsivo. Te recomiend por ahí usarlo para lecturas puntuales. Lo vas a poder usar para la navegación y tal, pero ahora mismo tiene una regresión que no debería haber al menos para las voces en español. Pero bueno, vale la pena creo. Es cosa de que lo pruebes.
Las voces están iben, las entrenamos tanto como podemos o le dedicamos el tiempo para hacerlo, así que el problema suele estar más en el complemento que en las voces en sí. Obviamente hay voces que estarán mejor entrenadas o con mejor dataset.

Punteggio: +0

163. El-Megalovano, 18.11.2023 05:26:00

Men. Edi.
Gracis por las nuevas voces. Vaya la nostalgia con la voz femenina de Windows XP, eso sí que fue algo y con la banda sonora de Bill Brown IV fué algo más. Ahora sí tengo la voz de Keynote Gold en español y en Inglés.

Punteggio: +0

Ultima edizione da El-Megalovano, 18.11.2023 05:38:03

164. Ren_Yamamoto, 18.11.2023 14:05:05

jente, tengo una duda. ahora en donde quedó el administrador de voces de piper? no está junto con preferencias, herramientas y tal, y tampoco lo ayo en preferencias/opciones. Alguien me ayuda cone so porfa?

Punteggio: +0

165. PolloGuerrero, 18.11.2023 14:50:35

Si instalaste este último comic deberías encontrarlo en el menú NVDA, directamente. Yo lo tengo debajo de la opción ayuda. Administrador de voces Piper...

Punteggio: +0

166. Ren_Yamamoto, 18.11.2023 14:58:41

man creo que algo se me bugueó ajajajaja. No ta por ningún lado a,

Punteggio: +0

167. DulceGatitoTravieso, 18.11.2023 15:35:01

Hola hola, pregunta descargué la primer voz que estaba en el primer post, pero... jej como se instala o donde se tiene que colocar para que funcione

Punteggio: +0

168. PolloGuerrero, 18.11.2023 15:50:21

al archivo .tar.gz de cada voz déjalo donde lo tengas, la cosa es que no lo vas a descomprimir.
Instalar una voz desde un archivo local, lo que quiero hacer yo. Tan fácil como seleccionar dicho botón en la primera pestaña anterior, donde la primera vez estará vacía de voces, y ahí sea briría el explorador de archivos, para así seleccionar el archivo con extensión .tar.gz que contiene la voz, y al dar enter se instala. No vamos a descomprimirlos, sino instalarlos como acabo de explicar. eso es todo. Luego, ya se puede salir de ahí y cambiar de sintetizador.

Punteggio: +0

Ultima edizione da PolloGuerrero, 18.11.2023 16:00:50

169. Tu_Tomate, 18.11.2023 17:38:08

Como va la velocidad? Han mejorado algo?

Punteggio: +0

170. PolloGuerrero, 18.11.2023 17:46:05

sí, mucho. No espremos tampoco una velocidad al estilo Eloquence, pero al menos en mi computadora que no tiene el mejor procesador que digamos, viene bastante bien con una velocidad comparable a Sapi 5.

Punteggio: +0

171. Ren_Yamamoto, 18.11.2023 20:13:30

ameo te juro que hasta ahorita noté que sapi tenía latencia ajajajaja

Punteggio: +0

172. un_oso, 19.11.2023 00:23:33

hola que tal, leí la guía todo me quedó claro pero algo que no me quedó claro es los archivos de transcripción. como se hacen? con que programa o como y como está eso de separarlos con un &? creo que era no recuerdo. ese apartado fue el único que me quedó claro, lo demás si. gracias

Punteggio: +0

173. PolloGuerrero, 19.11.2023 00:47:17

solo un archivo de texto, que contendrá todo lo que dice el hablante en cada archivo wav. La extensión si querés dejala en txt como viene y ponele el nombre como quieras. La cosa es que pongamos que vos a los archivos los nombraste como 1.wav, 2.wav, 3.wav, y así hasta terminar. Entonces vos pondrías una sentencia como esta:
1|Hola, este es el primer audio.
Suponiendo que vos decías eso en el archivo 1.wav, que como habrás visto, no tuviste que poner la extensión .wav. Es nombre de archivo, seguido de la barra vertical como separador, seguido del texto de transcripción, sin espacios entre la barra vertical y tal.
si vas a transcribir un dataset que grabaron con audios de cualquier otro lado y transcribir de oído se te hace complicado, yo personalmente uso whisper, que es una herramienta de Open AI, aunque deben haber otras alternativas por ahí. Pero Whisper al menos en el modelo Large v3 que es el que usé yo no mandaba tanta fruta.

Punteggio: +0

174. grekmusic33, 19.11.2023 04:07:01

me gustó este sintetizador piper. Estoy usando la voz de Keynote. solamente tiene un inconveniente, es que cuando voy carácter por carácter no los pronuncia bien y hace muchas pausas al leer un texto, lo mismo pasa con algunos números.
Ojalá que en otra versión se arregle.
Ahora falta clonar la voz de álvaro, jorge y Elvira

Punteggio: +0

Ultima edizione da grekmusic33, 19.11.2023 04:09:52

175. PolloGuerrero, 19.11.2023 13:37:37

La próxima que voy a clonar (si lo hago) es la de elena, también de azure, pero la de Jorge sí, me la han estado pidiendo así que en algún momento también lo podría hacer.
Otras ideas más locas y complicadas pero será con ayuda de RVC y tal vez las haga o tal vez no seríam recrear a los vocaloid en español para Piper, aunque más o menos será cosa de imaginar en qué tono hablarían Bruno, Clara y Maika, aprovechando que al hacer inferencia en RVC se pueden meter audios hablando, y a partir de ahí se podrían hacer los datasets, pero por ahora son ideas. Podría recrear voces como Javier de Verbio, que no sé si va a quedar todo lo dinámica que en el mismo verbio pero les ahorraría mucho a quienes la quieren tener y no les anda Verbio o no se quieren complicar instalándolo.

Punteggio: +0

176. grekmusic33, 19.11.2023 15:00:56

hay una sola cosa que no entiendo sobre crear dataset, si bien se como hacerlo, pero sesupone que se introduce: 1.wav más el archivo sin Extensión (también llamado 1) donde dentro del archivo sin extensión se introduce el parámetro audio1|esta es la primera frase, ETC, díganme si estoy equivocado, por que esa parte es lo que no entiendo, ya tengo el conjunto de datos de FonixTalk en español, por sierto la voz de fer quedó bastante buena!

Punteggio: +0

Ultima edizione da grekmusic33, 19.11.2023 15:03:52

177. PolloGuerrero, 19.11.2023 15:22:26

está muy bien lo que hiciste. vos estás poniendo nombre de archivo|Texto de la transcripción (que en lo posible tiene que estar transcripto tal como suena) y como viste, no hace falta ir poniendo .wav en el txt porque el coso ya lo toma.

Punteggio: +0

178. Ren_Yamamoto, 19.11.2023 21:33:29

osea, repitiendo lo que dice @caramelos-felices, la transcripción en ese caso se haría así. (cabe aclarar que en un inicio yo si ponía la extención pero gracias a este capo no lo haré apartir de ahora) a y tecomiendo revisar en blog de notas. la transcripción sería así:

1	Esta es la primera frace.
Nada mas. y creo que si estavas algo equivocado bro jajajaja, no entendí, osea, tu ponías, wavs/1.wav1	audio 1 esta es la primera frace? o como

a, y otra duda @caramelos felices. entonces yo si pongo la carpeta, pero al parecer no es necesario por lo que diste a entender, osea que el texto ya no llevaría el nombre de carpeta y la barra posterior?

Punteggio: +0

179. PolloGuerrero, 19.11.2023 21:53:22

Y no, yo lo que hago es comprimir todos los wavs en el .zip así como están, es decir, dentro del zip ya están todos los archivos wav ni bien lo abrís o lo descomprimís, y así lo subo a drive.

Punteggio: +0

180. grekmusic33, 19.11.2023 22:59:29

sería bueno que se hiciera un audiotutorial ya que no logro comprender, o almenos alguien tiene algún dataset de prueba o de demo para poder comprender esto: muchas gracias!
por sierto: aquí tienen las voces de FonixTalk para clonar, están en archivo zip. son fragmentos de texto lellendo algo.
si van a clonar estas voces , sería bueno que en fonixtalk ESP: en el apartado hablante, que se añadieran todas las variantes de español, úrsula, dennis, ETC, y en el apartado voz, que se nombrara FonixTalk ES, ya que voy a pasar el fonixtalk en español latino MAS ADELANTE, es decir, Fonixtalk ESLA
FONIXTALK ESP, LINK:
https://drive.google.com/open?id=1EF5cSPrquUQ4nvMXrXWKaI2EBr0GWM6R&usp=drive_fs

Punteggio: +0

Ultima edizione da grekmusic33, 19.11.2023 23:25:58

723 messaggi, 25 pagine: 1…; 4 56 7 8…; 25 ↖ Torna alla lista degli argomenti

Andare ai menu ↑
Andare al contenuto ↑

Rispondere all'argomento

Devi aver loggato per postare.