Logo

Elhuyar – Reconocimiento del habla (ASR) y traducción automática (MT) en medios de comunicación audiovisuales, para subtitulado automático y aumento del alcance

Elhuyar 

Sector: Servicios

Business Case

Debido a razones de inclusión y accesibilidad, los requisitos exigidos al sector audiovisual en materia de subtitulado son cada vez más estrictos. A su vez, la oferta de subtítulos en múltiples idiomas aumenta la posible audiencia receptora de los contenidos hasta un mercado totalmente mundial. Sin embargo, la creación y traducción de subtítulos mediante medios manuales es un proceso largo y costoso que pocas veces se asume.

Objetivos

Utilizar tecnología de reconocimiento del habla (ASR o Automatic Speech Recognition) y traducción automática (MT o Machine Translation) para la creación (semi-)automática de subtítulos y su traducción (semi-)automática.

Use case

Se ha adaptado el sistema de reconocimiento del habla al dominio de los medios de comunicación, obteniendo una mayor tasa de reconocimiento en conversaciones informales, dialectos, etc. Se ha integrado la subtitulación automática y la traducción de dichos subtítulos en los gestores de contenidos multimedia de los medios de comunicación, y al subir y catalogar un contenido audiovisual en el gestor automáticamente se crean subtítulos, se pueden corregir desde el mismo gestor, se pueden mandar a traducir y también corregir estos, y publicarlos con subtítulos incluidos en web, redes sociales, etc.

Infraestructura

On Premises o Cloud, según requisitos del cliente

Tecnologías utilizadas

Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz

Datos utilizados

Varios cientos de horas de audios transcritos

Recursos utilizados

Investigadores especializados en NLP y especialmente en reconocimiento del habla y traducción automática. Infraestructura de servidores para alojar los sistemas de reconocimiento y traducción desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota de los sistemas de reconocimiento y traducción automática. Desarrolladores frontend para integración de los sistemas de reconocimiento, traducción automática y corrección manual.

Dificultades y aprendizaje

Requisitos específicos de los sistemas de reconocimiento del habla aplicados a los contenidos de los medios de comunicación: conversaciones informales, dialectos, distinción y marcado en los subtítulos de distintos hablantes, división de los subtítulos en segmentos de duración determinada y en puntos lógicos… Entrenamiento con datasets del dominio, entrenamiento de subsistemas específicos.

KPIs (impacto en el negocio y métricas del modelo)

Implementación en Hamaika Telebista, Goiena, Antxeta Irratia, Teknopolis… Aumento de la accesibilidad de los contenidos. Aumento del alcance de los contenidos a un público global mediante traducción.

Financiación

Hazitek, Inteligencia Artificial Aplicada

Colaboradores

Hamaika Telebista, Goiena, Antxeta Irratia

Scroll al inicio