sonata / Piper Neural voices: Un sintetizador para NVDA que suena muy bien y utiliza inteligencia artificial

715 Nachrichten, 24 Seiten:  1; 8 910 11 12; 24 ↖ Zurück zur Themenliste

~msgScore~: +32

271. PrincesoGuerrero,

Creo que es porque las transcripciones fueron hechas con Whisper. Lo que tiene esto es que te lo hace mucho más eficiente y te ahorra un tiempo buenísimo que por ahí no tenés, o como me pasa a mí, cuando te es muy difícil transcribir de oído, y ni se diga si tenés un dataset de muchos muchos audios. Pero claro, por ahí lo que hace Whisper es transcribirte según cómo van correctamente estas frases, o sea, c´mo se escriben correctamente, que muchas veces difiere con la entonación que usa el hablante, y creo que de ahí ivenen estas cosas. También los audios del dataset de Mario Carstañeda suelen ser frases muy cortas y por ahí no hay casi comas que poner. de ahí es donde se recomienda hacer las transcripciones manualmente, cosa que me cuesta muchísimo, pero eso hice con por ejemplo los primeros modelos que entrené, aunque siempre tenía un texto de d´nde transcribir y luego era cosa de escuchar a ver dónde habría una pausa que sonara a poner una coma, por ejemplo.

~msgScore~: +0

272. clapmauricio,

Yo no sé transcribir con pontuaciones. Por casualidad no tuve problemas con mi voz, pero si hay algo que pueden decirme sobre transcrever manualmente frases con comas, por ejemplo, los agradesco.

~msgScore~: +0

273. Ren_Yamamoto,

como que yo se cuando es coma o cuando es punto pero no sabría explicar. haber intento explicar. el caso es andar tipo wisper pero con la entonación del hablante, nomás. osea, ponle que diga, tengo flojera, quiero dormir. Ya que no tengo nada que hacer. en el quiero dormir tendría que ir una coma pero va un punto porque la persona está haciendo la pausa hacia abajo.haré un poquito de spam pero solo para explicar. es como en eloquence, cuando la pausa es hacia arríiibaa, es una coma. cuando es mas pa arríiivaa? es pues interrogación, cuando es... bueno, en sí agárrense de eloquence ya que lee bien las fraces y con expresividad, osea, las pausas que se les agan mas parecidas a un signo en el que hace una pausa parecida de eloquence pongan ese signo, o intenten que con un signo el lector se iguale lo mas posible ala pausaa del hablante. Yo unapausa que no entendía puse con ; (punto y coma) y el eloquence lo leía parecido así queva, así lo dejé. o no específicamente eloquence, pueden usar cualquierotro sintetisador ya creado (el piper no porque acabamos de explicar que pueden fallar las transcripciones)pero cualquier otro como Microsoft, vocaliser, incluso el speac que es la base para la voz en sí xd

~msgScore~: +0

Zuletzt geändert von Ren_Yamamoto, Jan 5 2024 16:11:05

274. the_princes_of_water ,

sipis, yo me agarré del eloquence, me quería agarrar con las voces de sapi5 pero es lo mismo, al menos con las voces de Microsoft. así que bue

~msgScore~: +0

275. Chuy ,

alguien me pasa el link de la ultima estable de este tts.

~msgScore~: +0

276. rmcpantoja,

Buenas, aclarando dudas:
El dataset de Gissella fue transcrito a mano (y la gran mayoría de los míos, sin whisper o similares) antes de entrenarse a cualquier sistema TTS. La poca claridad de la voz en este caso dio de qué hablar, pero se trató de transcribir lo que se pudo de acuerdo a las puntuaciones del orador.
Ahora, si se quiere hacer mejores datos estaría bien para que resulte un modelo más decente.

PiperTTS para Android está aún en desarrollo; se comenta en nuestro grupo en Discord que se publicará el código fuente, tam pronto se terminen ciertas características como la descarga e instalación de voces.

~msgScore~: +0

277. the_princes_of_water ,

ooo, genialísimo, esperaré piper para android y usaré mi mismísima voz para hacer cosas ramdom! na mentira

~msgScore~: +0

278. L-gang,

hola chicos que tal, oigan este sintetisador, es motor sierto?, tiene boses incluidas?, es rápido?, muchas gracias si me responden esas dudas!

~msgScore~: +0

279. phoenix_rising,

holaaa! chicos le re perdí el rastro a esto... como va la cosa? desde hace como un mes y medio no sigo si hay novedades. no está solucionado el problema de la latencia todavía con NVDA? si es así, donde consigo la ultima versión? necesito info… gracias de antemano.

~msgScore~: +0

280. Ren_Yamamoto,

hola @rmcpantoja, que ondabro no te había visto por arto tiempo acá xd. Bueno, si la usuaria da permiso puedo checar el dataset igual para ver que podría estar pasando o entrenar con otro modelo, me ofrezco voluntario. Porfa digan que siii esque quiero entrenar una voz pero no tengo a.e na no es cierto eso último pero boe. Y @pitufo ve al primer post. pitufo: hola chicos que tal, oigan este sintetisador, es motor sierto?, tiene boses incluidas?, es rápido?, muchas...: hoy 01:27

~msgScore~: +0

Zuletzt geändert von Ren_Yamamoto, Jan 9 2024 18:14:08

281. the_princes_of_water ,

para @zamasu, puedes entrenar una voz en inglés jajsjajs, la voz de Microsoft anna de win 7. si quieres te podría pasar un audio de la misma, o no se como es eso jajajaj

~msgScore~: +0

282. PrincesoGuerrero,

Ahora Piper está bastante rapidito para leer y navegar en sí, aunque obviamente no podés esperar algo tipo Eloquence, pero sí podrías obtener una velocidad de respuesta tipo Sapi 5. En cuanto a algo nuevo, yo creo que el desarrollador o está recargando energías o se está tomando unas vacaciones.

~msgScore~: +0

283. Ren_Yamamoto,

lol, que no esa ya estava para NVDA? the_princes_of_water: para @zamasu, puedes entrenar una voz en inglés jajsjajs, la voz de Microsoft anna de win 7. si quieres...: hoy 18:19

~msgScore~: +0

284. the_princes_of_water ,

si juisjuis, pero pa escuchar que diferencia hay entre la original y la contraparte. jajajaja

~msgScore~: +0

285. El-Megalovano,

Creo lo contrario: Según me dijo el desarrollador (que por supuesto es el mismo que desarrolla Bookworm) él está embuelto en una guerra civil en su patria lo cual no quiero extenderme aquí y retrasa algo las cosas y ni hizo compatible Piper con NVDA 2024, pero bue, esperando versiones y quizá voces RT.

~msgScore~: +0

286. the_princes_of_water ,

chicos, una consulta. por ejemplo, si yo creo un modelo de piper de una voz en inglés, es posible que esta hable español

~msgScore~: +0

287. PrincesoGuerrero,

No, si habla en inglés habla en inglés, a menos que al desarrollador se le ocurra implementar algo para que los mismos modelos de voz detecten y cambien de idioma en tiempo real como lo que hace ElevenLabs Igual si se hace, aún no me lo imagino ya que el coso se apoya de ESpeak para pronunciar y todo eso, así que no sabría si no hay que meterle mano al menos al ESpeak usado en Piper. Y claro, luego hay que modificar toda la cosa en los cuadernos y tal, pero por ahora en un idioma a la vez.

~msgScore~: +0

288. Ren_Yamamoto,

y claro, no sería al desarrollador del complemento si no al desarrollador de piper tts

~msgScore~: +0

289. the_princes_of_water ,

aa vale, graciaas chicos. d

~msgScore~: +0

290. phoenix_rising,

che, y la última versión del complemento hasta ahora es la 1.0? o hay alguna otra. porque es la que tengo lol, si hay otra pasan link? es que esta sigue con una latencia tremenda, no ha cambiado desde la beta 2.0 que es la última que había probado.

~msgScore~: +0

291. the_princes_of_water ,

yo tengo también la 1.0. se a actualizado el complemento?

~msgScore~: +0

292. El-Megalovano,

Crei que el commit reciente data de Noviembre del año anterior.

~msgScore~: +0

293. PrincesoGuerrero,

Chicos, si se fijan el primer post puse el último comic que hay hasta ahora, que no tiene esa latencia.

~msgScore~: +0

294. phoenix_rising,

perdón la ignorancia, instalé el último que pasaste en el mensaje 1 @caramelos felices, pero lo hice sobre el que ya tenía instalado. NVDA no me notificó que estaba actualizando una versión ya instalada, pero supongo que igual se actualizó. estaría bien instalarlo así? es que no sé si soy yo psicológicamente que me quiero convencer de que anda bien o es lo mismo, pero le noto menos latencia, pero no estoy seguro de que sea la que instalé o la anterior que tengo, jajaj.

~msgScore~: +0

295. the_princes_of_water ,

aaa vale, creo que será porque no a cambiado casi nada (?). pero bueno, ayer lo estuve usando por un momento piper y el NVDAse me quedó medio pegado y cambié rápidamente al eloquence

~msgScore~: +0

296. PrincesoGuerrero,

Yo instalé así actualizando un complemento sobre el otro (una forma de verificar el cambio es que la interfaz de Piper esté en español y funcionen las voces creadas más recientemente) pero si hay conflictos siempre se puede instalar de 0.

~msgScore~: +0

297. Ren_Yamamoto,

hola chicos.
Bueno, quería imformarles algo. Supongo que @rmcpantoja podrá darles actualizaciones ya que gracias a el me enteré de esto.
Una librería de piper que tiene un nombre de algo así como gdown a dejado de funcionar correctamente y eso está afectando algunos cuadernos de piper. Caso es el del cuaderno de exportación y los de testear ckpt y modelos ya en el formato de el sintetizador, (.tar.gz), doy este pequeño informe para que no borren sus modelos entrenados, no es problema de ustedes, ni de un link que no era público pero si lo era xd o del cuaderno si no de la librería. Tranquilos, que yo sepa los archivos del entrenamiento no se ven dañados pues este no usa la librería creo o si sí la usa no la usa de la misma manera que los de más cuadernos. Básicamente los modelos que entrenen en el tiempo que la librería no funcione no podrán ser ni exportados ni testeados, sin embargo como en NVDA las voces se ejecutan en la pc aún pueden usar las voces en su lector y para los nuevos aún pueden descargar el complemento y las voces disponibles para esto. Si eres solo alguien que usa voces y no las entrena no hay ningún problema para ti, maldito suertudo jajajajaj ok no.
Bueno, después de este gran comunicado corto BRAYAN se despide.
¡Saluditos!

~msgScore~: +0

Zuletzt geändert von Ren_Yamamoto, Jan 12 2024 20:30:44

298. the_princes_of_water ,

buena info. d

~msgScore~: +0

299. Ren_Yamamoto,

gracias :D

~msgScore~: +0

300. PrincesoGuerrero,

Yo ayer renegaba con esto de la exportación, ya que soy de los que entrenan modelos, pero encontré una solución provisional que funcionó de una. Cuando tengamos que ingresar la URL del modelo y el ocnfig de la voz que estamos exportando, aparte de poner como público el acceso, podemos usar el complemento de enlace directo para NVDA; que no está en la tienda hasta ahora, y al generar los enlaces directos de ambos archivos, ahí sí le va a gustarf al cuaderno.

~msgScore~: +0

715 Nachrichten, 24 Seiten:  1; 8 910 11 12; 24 ↖ Zurück zur Themenliste

Auf das Thema antworten

Sie müssen angemeldet sein, um posten zu können

Passwort vergessen? Benutzerkonto erstellen