Elhuyar – Síntesis del habla (TTS) personalizada en prensa escrita, para accesibilidad y multimodalidad
Elhuyar
Sector: Servicios
Business Case
En los últimos tiempos el consumo de noticias en formato de texto ha disminuido y se ha pasado progresivamente hacia un consumo en formato audiovisual, o incluso de solo audio. Es cada vez menos habitual ver en la calle a gente leyendo el periódico, y cada vez más normal con los cascos escuchando podcasts, radio, etc. Asimismo, en los casos en los que sí se lee, se hace menos en papel y más en dispositivos como el teléfono móvil, que presenta dificultades en su lectura al aire libre o en transporte público como son la falta de contraste, el tamaño de letra insuficiente, el movimiento del andar, la vibración del medio de transporte…, además de los problemas de personas ciegas o con diferentes discapacidades visuales a la hora de leer textos.
Objetivos
Utilizar tecnología de síntesis del habla (TTS o Text-To-Speech) para la locución de los textos de medios de comunicación. Así, se consigue que un medio escrito pueda ser escuchado en lugar de (o además de) leído, facilitando el consumo de textos por medio del teléfono móvil en entornos diversos (andando por la calle, viajando en transporte público, discapacidades varias, etc.), haciéndolo más accesible. Todo ello en varios idiomas (euskera, castellano, inglés, francés, catalán, gallego…).
Use case
A cada medio de comunicación se le crean sistemas de síntesis del habla personalizados, con una o varias voces de uso exclusivo capaces de hablar en varios idiomas, generadas a partir de unos pocos minutos de grabaciones de sus propios locutores en un solo idioma. En cada noticia o artículo del sitio web del medio de comunicación se incluye una barra reproductora donde al pulsar play se escucha la noticia con las voces de los propios locutores del medio. Además, también se puede descargar como fichero audio la lectura de todo el artículo para su escucha posterior o para creación de podcasts.
Infraestructura
On Premises o Cloud, según requisitos del cliente
Tecnologías utilizadas
Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz
Datos utilizados
Grabaciones realizadas a los locutores del medio de comunicación (alrededor de 10 minutos)
Recursos utilizados
Asesoría jurídica y de seguridad para la redacción de contratos y guardado de datos personales como son las grabaciones de voz. Investigadores especializados en NLP y especialmente en síntesis del habla. Infraestructura de servidores para alojar los sistemas de síntesis desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota del sistema de síntesis. Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.
Dificultades y aprendizaje
Dificultad a la hora de pronunciar correctamente los nuevos topónimos, nombres propios, tecnicismos… que aparecen continuamente en el entorno de los medios de comunicación, lo cual nos llevó a diseñar un sistema de actualización continua de una base de datos de ese tipo de palabras con sus pronunciaciones.Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.
KPIs (impacto en el negocio y métricas del modelo)
Implementación en el único periódico diario en euskera (Berria) y en todos los medios de Tokikom (red de medios de comunicación locales en euskera formada por más de 78 medios). Aumento de la accesibilidad de los contenidos escritos. Aumento de la multimodalidad de los medios de comunicación, al añadir la opción de escuchar medios escritos.
Financiación
Hazitek, Inteligencia Artificial Aplicada
Colaboradores
Berria, Goiena, Tokikom