Servicios

Elhuyar – Síntesis del habla (TTS) personalizada en prensa escrita, para accesibilidad y multimodalidad

Elhuyar

Servicios

Elhuyar

Elhuyar – Síntesis del habla (TTS) personalizada en prensa escrita, para accesibilidad y multimodalidad

Business Case

En los últimos tiempos el consumo de noticias en formato de texto ha disminuido y se ha pasado progresivamente hacia un consumo en formato audiovisual, o incluso de solo audio. Es cada vez menos habitual ver en la calle a gente leyendo el periódico, y cada vez más normal con los cascos escuchando podcasts, radio, etc. Asimismo, en los casos en los que sí se lee, se hace menos en papel y más en dispositivos como el teléfono móvil, que presenta dificultades en su lectura al aire libre o en transporte público como son la falta de contraste, el tamaño de letra insuficiente, el movimiento del andar, la vibración del medio de transporte…, además de los problemas de personas ciegas o con diferentes discapacidades visuales a la hora de leer textos.

Objetivos

Utilizar tecnología de síntesis del habla (TTS o Text-To-Speech) para la locución de los textos de medios de comunicación. Así, se consigue que un medio escrito pueda ser escuchado en lugar de (o además de) leído, facilitando el consumo de textos por medio del teléfono móvil en entornos diversos (andando por la calle, viajando en transporte público, discapacidades varias, etc.), haciéndolo más accesible. Todo ello en varios idiomas (euskera, castellano, inglés, francés, catalán, gallego…).

Use case

Grabaciones realizadas a los locutores del medio de comunicación (alrededor de 10 minutos)

Infraestructura

On Premises o Cloud, según requisitos del cliente

Tecnologías utilizadas

Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz

Datos utilizados

Grabaciones realizadas a los locutores del medio de comunicación (alrededor de 10 minutos)

imagen

imagen

Recursos utilizados

Asesoría jurídica y de seguridad para la redacción de contratos y guardado de datos personales como son las grabaciones de voz. Investigadores especializados en NLP y especialmente en síntesis del habla. Infraestructura de servidores para alojar los sistemas de síntesis desarrollados (en caso de no requerir instalación On Premises). Desarrolladores de API para llamada remota del sistema de síntesis. Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.

Dificultades y aprendizaje

Dificultad a la hora de pronunciar correctamente los nuevos topónimos, nombres propios, tecnicismos… que aparecen continuamente en el entorno de los medios de comunicación, lo cual nos llevó a diseñar un sistema de actualización continua de una base de datos de ese tipo de palabras con sus pronunciaciones.Desarrolladores frontend para inclusión de barra reproductora de audio en el sitio web del medio.

KPIs (impacto en el negocio y métricas del modelo)

Implementación en el único periódico diario en euskera (Berria) y en todos los medios de Tokikom (red de medios de comunicación locales en euskera formada por más de 78 medios). Aumento de la accesibilidad de los contenidos escritos. Aumento de la multimodalidad de los medios de comunicación, al añadir la opción de escuchar medios escritos.

Financiación

Hazitek, Inteligencia Artificial Aplicada

Colaboradores

Berria, Goiena, Tokikom

multimedia

Scroll al inicio