Logo

Elhuyar – Síntesis del habla (TTS) personalizada en prensa escrita, para accesibilidad y multimodalidad

Elhuyar 

Sector: Servicios

Business Case

En los últimos tiempos el consumo de noticias en formato de texto ha disminuido y se ha pasado progresivamente hacia un consumo en formato audiovisual, o incluso de solo audio. Es cada vez menos habitual ver en la calle a gente leyendo el periódico, y cada vez más normal con los cascos escuchando podcasts, radio, etc. Asimismo, en los casos en los que sí se lee, se hace menos en papel y más en dispositivos como el teléfono móvil, que presenta dificultades en su lectura al aire libre o en transporte público como son la falta de contraste, el tamaño de letra insuficiente, el movimiento del andar, la vibración del medio de transporte…, además de los problemas de personas ciegas o con diferentes discapacidades visuales a la hora de leer textos.

Objetivos

Utilizar tecnología de síntesis del habla (TTS o Text-To-Speech) para la locución de los textos de medios de comunicación. Así, se consigue que un medio escrito pueda ser escuchado en lugar de (o además de) leído, facilitando el consumo de textos por medio del teléfono móvil en entornos diversos (andando por la calle, viajando en transporte público, discapacidades varias, etc.), haciéndolo más accesible. Todo ello en varios idiomas (euskera, castellano, inglés, francés, catalán, gallego…).

Use case

A cada medio de comunicación se le crean sistemas de síntesis del habla personalizados, con una o varias voces de uso exclusivo capaces de hablar en varios idiomas, generadas a partir de unos pocos minutos de grabaciones de sus propios locutores en un solo idioma. En cada noticia o artículo del sitio web del medio de comunicación se incluye una barra reproductora donde al pulsar play se escucha la noticia con las voces de los propios locutores del medio. Además, también se puede descargar como fichero audio la lectura de todo el artículo para su escucha posterior o para creación de podcasts.

Infraestructura

On Premises o Cloud, según requisitos del cliente

Tecnologías utilizadas

Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz

Datos utilizados

Grabaciones realizadas a los locutores del medio de comunicación (alrededor de 10 minutos)

Recursos utilizados

Asesoría jurídica y de seguridad para la redacción de contratos y guardado de datos personales como son las grabaciones de voz. Investigadores especializados en NLP y especialmente en síntesis del habla. Infraestructura de servidores para alojar los sistemas de síntesis desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota del sistema de síntesis. Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.

Dificultades y aprendizaje

Dificultad a la hora de pronunciar correctamente los nuevos topónimos, nombres propios, tecnicismos… que aparecen continuamente en el entorno de los medios de comunicación, lo cual nos llevó a diseñar un sistema de actualización continua de una base de datos de ese tipo de palabras con sus pronunciaciones.Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.

KPIs (impacto en el negocio y métricas del modelo)

Implementación en el único periódico diario en euskera (Berria) y en todos los medios de Tokikom (red de medios de comunicación locales en euskera formada por más de 78 medios). Aumento de la accesibilidad de los contenidos escritos. Aumento de la multimodalidad de los medios de comunicación, al añadir la opción de escuchar medios escritos.

Financiación

Hazitek, Inteligencia Artificial Aplicada

Colaboradores

Berria, Goiena, Tokikom

Scroll al inicio