Servicios
Elhuyar – Reconocimiento del habla (ASR) y traducción automática (MT) en medios de comunicación audiovisuales, para subtitulado automático y aumento del alcance
Servicios
Elhuyar – Reconocimiento del habla (ASR) y traducción automática (MT) en medios de comunicación audiovisuales, para subtitulado automático y aumento del alcance
Business Case
Debido a razones de inclusión y accesibilidad, los requisitos exigidos al sector audiovisual en materia de subtitulado son cada vez más estrictos. A su vez, la oferta de subtítulos en múltiples idiomas aumenta la posible audiencia receptora de los contenidos hasta un mercado totalmente mundial. Sin embargo, la creación y traducción de subtítulos mediante medios manuales es un proceso largo y costoso que pocas veces se asume.
Objetivos
Utilizar tecnología de reconocimiento del habla (ASR o Automatic Speech Recognition) y traducción automática (MT o Machine Translation) para la creación (semi-)automática de subtítulos y su traducción (semi-)automática.
Use case
Varios cientos de horas de audios transcritos
Infraestructura
On Premises o Cloud, según requisitos del cliente
Tecnologías utilizadas
Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz
Datos utilizados
Varios cientos de horas de audios transcritos
imagen
imagen
Recursos utilizados
Investigadores especializados en NLP y especialmente en reconocimiento del habla y traducción automática. Infraestructura de servidores para alojar los sistemas de reconocimiento y traducción desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota de los sistemas de reconocimiento y traducción automática. Desarrolladores frontend para integración de los sistemas de reconocimiento, traducción automática y corrección manual.
Dificultades y aprendizaje
Requisitos específicos de los sistemas de reconocimiento del habla aplicados a los contenidos de los medios de comunicación: conversaciones informales, dialectos, distinción y marcado en los subtítulos de distintos hablantes, división de los subtítulos en segmentos de duración determinada y en puntos lógicos… Entrenamiento con datasets del dominio, entrenamiento de subsistemas específicos.
KPIs (impacto en el negocio y métricas del modelo)
Implementación en Hamaika Telebista, Goiena, Antxeta Irratia, Teknopolis… Aumento de la accesibilidad de los contenidos. Aumento del alcance de los contenidos a un público global mediante traducción.
Financiación
Hazitek, Inteligencia Artificial Aplicada
Colaboradores
Hamaika Telebista, Goiena, Antxeta Irratia
multimedia