Elhuyar – Gestión de contenidos multimedia (MAM) con generación automatizada de metadatos mediante el uso de la inteligencia artificial y el procesamiento natural del lenguaje
Elhuyar
Sector: Servicios
Business Case
La digitalización y las tecnologías de la información han generado un crecimiento exponencial de archivos y contenidos multimedia, lo que ha llevado a la necesidad de gestionar adecuadamente estos activos en las organizaciones modernas. Esto ha dado lugar al desarrollo Media Asset Managers (MAM) para el almacenamiento, clasificación, organización, optimización, mantenimiento y preservación de estos elementos.
Objetivos
Aplicar tecnologías de inteligencia artificial para mejorar la gestión de contenidos audiovisuales en sistemas MAM, aplicando tecnologías de transcripción de audios, y tecnologías para la segmentación temática y generación automática de metadatos semánticos
Use case
Adaptación de modelos de lenguaje neuronales (encoder, encoder-decoder, y decoder) para implementar las tareas de segmentación temática, extracción de entidades nombradas, extracción de descriptores temáticos y generación de resumen automático.
Infraestructura
On Premise y Cloud..
Tecnologías utilizadas
Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz
Datos utilizados
Datasets públicos y privados para las tareas de resumen automático, extracción de entidades y extracción de descriptores temáticos.
Recursos utilizados
Investigadores especializados en NLP y especialmente en Information Extraction y LLMs. Infraestructura de servidores para desplegar los modelos entrenados.
Dificultades y aprendizaje
La segmentación temática de transcripciones resulta de difícil resolución mediante un enfoque supervisado, siendo los enfoques no supervisados más robustos, sobre todo, los basados en LLMs utilizados de forma zero-shot.
KPIs (impacto en el negocio y métricas del modelo)
Tasas de acierto superiores al 90% en extracción de entidades y de descriptores temáticos. Capacidad de procesar tres idiomas: euskera, castellano e inglés. Mejora en la gestión documental de contenidos multimedia.
Financiación
Inteligencia Artificial Aplicada (SPRI) y financiación privada.