Elhuyar – Reconocimiento del habla (ASR) y traducción automática (MT) en medios de comunicación audiovisuales, para subtitulado automático y aumento del alcance
Elhuyar
Sector: Servicios
Business Case
Debido a razones de inclusión y accesibilidad, los requisitos exigidos al sector audiovisual en materia de subtitulado son cada vez más estrictos. A su vez, la oferta de subtítulos en múltiples idiomas aumenta la posible audiencia receptora de los contenidos hasta un mercado totalmente mundial. Sin embargo, la creación y traducción de subtítulos mediante medios manuales es un proceso largo y costoso que pocas veces se asume.
Objetivos
Utilizar tecnología de reconocimiento del habla (ASR o Automatic Speech Recognition) y traducción automática (MT o Machine Translation) para la creación (semi-)automática de subtítulos y su traducción (semi-)automática.
Use case
Se ha adaptado el sistema de reconocimiento del habla al dominio de los medios de comunicación, obteniendo una mayor tasa de reconocimiento en conversaciones informales, dialectos, etc. Se ha integrado la subtitulación automática y la traducción de dichos subtítulos en los gestores de contenidos multimedia de los medios de comunicación, y al subir y catalogar un contenido audiovisual en el gestor automáticamente se crean subtítulos, se pueden corregir desde el mismo gestor, se pueden mandar a traducir y también corregir estos, y publicarlos con subtítulos incluidos en web, redes sociales, etc.
Infraestructura
On Premises o Cloud, según requisitos del cliente
Tecnologías utilizadas
Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz
Datos utilizados
Varios cientos de horas de audios transcritos
Recursos utilizados
Investigadores especializados en NLP y especialmente en reconocimiento del habla y traducción automática. Infraestructura de servidores para alojar los sistemas de reconocimiento y traducción desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota de los sistemas de reconocimiento y traducción automática. Desarrolladores frontend para integración de los sistemas de reconocimiento, traducción automática y corrección manual.
Dificultades y aprendizaje
Requisitos específicos de los sistemas de reconocimiento del habla aplicados a los contenidos de los medios de comunicación: conversaciones informales, dialectos, distinción y marcado en los subtítulos de distintos hablantes, división de los subtítulos en segmentos de duración determinada y en puntos lógicos… Entrenamiento con datasets del dominio, entrenamiento de subsistemas específicos.
KPIs (impacto en el negocio y métricas del modelo)
Implementación en Hamaika Telebista, Goiena, Antxeta Irratia, Teknopolis… Aumento de la accesibilidad de los contenidos. Aumento del alcance de los contenidos a un público global mediante traducción.
Financiación
Hazitek, Inteligencia Artificial Aplicada
Colaboradores
Hamaika Telebista, Goiena, Antxeta Irratia