Servicios
Elhuyar – Síntesis del habla (TTS) personalizada en prensa escrita, para accesibilidad y multimodalidad
Servicios
Elhuyar – Síntesis del habla (TTS) personalizada en prensa escrita, para accesibilidad y multimodalidad
Business Case
En los últimos tiempos el consumo de noticias en formato de texto ha disminuido y se ha pasado progresivamente hacia un consumo en formato audiovisual, o incluso de solo audio. Es cada vez menos habitual ver en la calle a gente leyendo el periódico, y cada vez más normal con los cascos escuchando podcasts, radio, etc. Asimismo, en los casos en los que sí se lee, se hace menos en papel y más en dispositivos como el teléfono móvil, que presenta dificultades en su lectura al aire libre o en transporte público como son la falta de contraste, el tamaño de letra insuficiente, el movimiento del andar, la vibración del medio de transporte…, además de los problemas de personas ciegas o con diferentes discapacidades visuales a la hora de leer textos.
Objetivos
Utilizar tecnología de síntesis del habla (TTS o Text-To-Speech) para la locución de los textos de medios de comunicación. Así, se consigue que un medio escrito pueda ser escuchado en lugar de (o además de) leído, facilitando el consumo de textos por medio del teléfono móvil en entornos diversos (andando por la calle, viajando en transporte público, discapacidades varias, etc.), haciéndolo más accesible. Todo ello en varios idiomas (euskera, castellano, inglés, francés, catalán, gallego…).
Use case
Grabaciones realizadas a los locutores del medio de comunicación (alrededor de 10 minutos)
Infraestructura
On Premises o Cloud, según requisitos del cliente
Tecnologías utilizadas
Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz
Datos utilizados
Grabaciones realizadas a los locutores del medio de comunicación (alrededor de 10 minutos)
imagen
imagen
Recursos utilizados
Asesoría jurídica y de seguridad para la redacción de contratos y guardado de datos personales como son las grabaciones de voz. Investigadores especializados en NLP y especialmente en síntesis del habla. Infraestructura de servidores para alojar los sistemas de síntesis desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota del sistema de síntesis. Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.
Dificultades y aprendizaje
Dificultad a la hora de pronunciar correctamente los nuevos topónimos, nombres propios, tecnicismos… que aparecen continuamente en el entorno de los medios de comunicación, lo cual nos llevó a diseñar un sistema de actualización continua de una base de datos de ese tipo de palabras con sus pronunciaciones.Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.
KPIs (impacto en el negocio y métricas del modelo)
Implementación en el único periódico diario en euskera (Berria) y en todos los medios de Tokikom (red de medios de comunicación locales en euskera formada por más de 78 medios). Aumento de la accesibilidad de los contenidos escritos. Aumento de la multimodalidad de los medios de comunicación, al añadir la opción de escuchar medios escritos.
Financiación
Hazitek, Inteligencia Artificial Aplicada
Colaboradores
Berria, Goiena, Tokikom
multimedia