Elhuyar – Reconocimiento del habla (ASR) bilingüe y traducción automática (MT) para creación de subtítulos traducidos y actas de plenos municipales
Elhuyar
Sector: Servicios
Business Case
Durante los últimos años se ha pasado a utilizar videoactas en la web como único registro oficial de los plenos municipales, debido al ahorro que supone el no tener que hacer transcripciones o actas manualmente y traducirlas a los dos idiomas oficiales de la CAPV. Sin embargo, esto supone diversos problemas: las videoactas no son accesibles para personas sordas; sin traducción, al ser muchos plenos bilingües, no se respetan los derechos lingüísticos de la ciudadanía, además de que las personas monolingües no pueden comprender el contenido dicho en el otro idioma; la supervivencia de los formatos digitales en el futuro no está asegurada y las actas seguramente no serán accesibles a medio o largo plazo, menos aún en periodos de cientos de años como el papel.
Objetivos
Utilizar tecnología de reconocimiento del habla (ASR o Automatic Speech Recognition) bilingüe para la creación (semi-)automática de subtítulos y actas, y tecnología de traducción automática para traducir dichos subtítulos y actas.
Use case
Se han creado modelos de transcripción/subtitulación bilingües para poder aplicarlos a los plenos municipales. Se ha creado tecnología de detección de hablantes: una vez identificadas las intervenciones de cada concejal/funcionario en un pleno, en sucesivas sesiones se detecta el interventor automáticamente. Se pueden sacar estadísticas de uso de cada idioma por concejales, partidos, etc. Se ha integrado dicha tecnología en el gestor/publicador de contenidos de la empresa Abao, dedicada entre otras cosas a servicios de grabación de plenos y publicación de videoactas, la cual le permite ahora generar también subtítulos y actas tanto en el idioma original como traducido.
Infraestructura
Cloud
Tecnologías utilizadas
Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz
Datos utilizados
Varios cientos de horas de audios transcritos. Corpus públicos de audios con distinción de hablantes.
Recursos utilizados
Varios cientos de horas de audios transcritos. Corpus públicos de audios con distinción de hablantes.
Dificultades y aprendizaje
Dificultad de transcripción de contenidos bilingües. Dificultad de transcripción de terminología y toponimia local. Entrenamiento con datasets de las localidades.
KPIs (impacto en el negocio y métricas del modelo)
Implementación en Abao. Aumento de la accesibilidad de los contenidos en cuanto a formatos y lenguas oficiales. Aumento de la durabilidad de las actas de plenos.