Servicios

Elhuyar – Reconocimiento del habla (ASR) y traducción automática (MT) en medios de comunicación audiovisuales, para subtitulado automático y aumento del alcance

Elhuyar

Servicios

Elhuyar

Elhuyar – Reconocimiento del habla (ASR) y traducción automática (MT) en medios de comunicación audiovisuales, para subtitulado automático y aumento del alcance

Business Case

Debido a razones de inclusión y accesibilidad, los requisitos exigidos al sector audiovisual en materia de subtitulado son cada vez más estrictos. A su vez, la oferta de subtítulos en múltiples idiomas aumenta la posible audiencia receptora de los contenidos hasta un mercado totalmente mundial. Sin embargo, la creación y traducción de subtítulos mediante medios manuales es un proceso largo y costoso que pocas veces se asume.

Objetivos

Utilizar tecnología de reconocimiento del habla (ASR o Automatic Speech Recognition) y traducción automática (MT o Machine Translation) para la creación (semi-)automática de subtítulos y su traducción (semi-)automática.

Use case

Varios cientos de horas de audios transcritos

Infraestructura

On Premises o Cloud, según requisitos del cliente

Tecnologías utilizadas

Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz

Datos utilizados

Varios cientos de horas de audios transcritos

imagen

imagen

Recursos utilizados

Investigadores especializados en NLP y especialmente en reconocimiento del habla y traducción automática. Infraestructura de servidores para alojar los sistemas de reconocimiento y traducción desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota de los sistemas de reconocimiento y traducción automática. Desarrolladores frontend para integración de los sistemas de reconocimiento, traducción automática y corrección manual.

Dificultades y aprendizaje

Requisitos específicos de los sistemas de reconocimiento del habla aplicados a los contenidos de los medios de comunicación: conversaciones informales, dialectos, distinción y marcado en los subtítulos de distintos hablantes, división de los subtítulos en segmentos de duración determinada y en puntos lógicos… Entrenamiento con datasets del dominio, entrenamiento de subsistemas específicos.

KPIs (impacto en el negocio y métricas del modelo)

Implementación en Hamaika Telebista, Goiena, Antxeta Irratia, Teknopolis… Aumento de la accesibilidad de los contenidos. Aumento del alcance de los contenidos a un público global mediante traducción.

Financiación

Hazitek, Inteligencia Artificial Aplicada

Colaboradores

Hamaika Telebista, Goiena, Antxeta Irratia

multimedia

Scroll al inicio