Logo

Elhuyar – Reconocimiento del habla (ASR) bilingüe y traducción automática (MT) para creación de subtítulos traducidos y actas de plenos municipales

Elhuyar 

Sector: Servicios

Business Case

Durante los últimos años se ha pasado a utilizar videoactas en la web como único registro oficial de los plenos municipales, debido al ahorro que supone el no tener que hacer transcripciones o actas manualmente y traducirlas a los dos idiomas oficiales de la CAPV. Sin embargo, esto supone diversos problemas: las videoactas no son accesibles para personas sordas; sin traducción, al ser muchos plenos bilingües, no se respetan los derechos lingüísticos de la ciudadanía, además de que las personas monolingües no pueden comprender el contenido dicho en el otro idioma; la supervivencia de los formatos digitales en el futuro no está asegurada y las actas seguramente no serán accesibles a medio o largo plazo, menos aún en periodos de cientos de años como el papel.

Objetivos

Utilizar tecnología de reconocimiento del habla (ASR o Automatic Speech Recognition) bilingüe para la creación (semi-)automática de subtítulos y actas, y tecnología de traducción automática para traducir dichos subtítulos y actas.

Use case

Se han creado modelos de transcripción/subtitulación bilingües para poder aplicarlos a los plenos municipales. Se ha creado tecnología de detección de hablantes: una vez identificadas las intervenciones de cada concejal/funcionario en un pleno, en sucesivas sesiones se detecta el interventor automáticamente. Se pueden sacar estadísticas de uso de cada idioma por concejales, partidos, etc. Se ha integrado dicha tecnología en el gestor/publicador de contenidos de la empresa Abao, dedicada entre otras cosas a servicios de grabación de plenos y publicación de videoactas, la cual le permite ahora generar también subtítulos y actas tanto en el idioma original como traducido.

Infraestructura

Cloud

Tecnologías utilizadas

Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz

Datos utilizados

Varios cientos de horas de audios transcritos. Corpus públicos de audios con distinción de hablantes.

Recursos utilizados

Varios cientos de horas de audios transcritos. Corpus públicos de audios con distinción de hablantes.

Dificultades y aprendizaje

Dificultad de transcripción de contenidos bilingües. Dificultad de transcripción de terminología y toponimia local. Entrenamiento con datasets de las localidades.

KPIs (impacto en el negocio y métricas del modelo)

Implementación en Abao. Aumento de la accesibilidad de los contenidos en cuanto a formatos y lenguas oficiales. Aumento de la durabilidad de las actas de plenos.

Financiación

Inteligencia Artificial Aplicada

Colaboradores

Abao

Scroll al inicio