Logo

Elhuyar – Gestión de contenidos multimedia (MAM) con generación automatizada de metadatos mediante el uso de la inteligencia artificial y el procesamiento natural del lenguaje

Elhuyar 

Sector: Servicios

Business Case

La digitalización y las tecnologías de la información han generado un crecimiento exponencial de archivos y contenidos multimedia, lo que ha llevado a la necesidad de gestionar adecuadamente estos activos en las organizaciones modernas. Esto ha dado lugar al desarrollo Media Asset Managers (MAM) para el almacenamiento, clasificación, organización, optimización, mantenimiento y preservación de estos elementos.

Objetivos

Aplicar tecnologías de inteligencia artificial para mejorar la gestión de contenidos audiovisuales en sistemas MAM, aplicando tecnologías de transcripción de audios, y tecnologías para la segmentación temática y generación automática de metadatos semánticos

Use case

Adaptación de modelos de lenguaje neuronales (encoder, encoder-decoder, y decoder) para implementar las tareas de segmentación temática, extracción de entidades nombradas, extracción de descriptores temáticos y generación de resumen automático.

Infraestructura

On Premise y Cloud..

Tecnologías utilizadas

Aprendizaje automático o profundo Minería de Textos Reconocimiento de voz

Datos utilizados

Datasets públicos y privados para las tareas de resumen automático, extracción de entidades y extracción de descriptores temáticos.

Recursos utilizados

Investigadores especializados en NLP y especialmente en Information Extraction y LLMs. Infraestructura de servidores para desplegar los modelos entrenados.

Dificultades y aprendizaje

La segmentación temática de transcripciones resulta de difícil resolución mediante un enfoque supervisado, siendo los enfoques no supervisados más robustos, sobre todo, los basados en LLMs utilizados de forma zero-shot.

KPIs (impacto en el negocio y métricas del modelo)

Tasas de acierto superiores al 90% en extracción de entidades y de descriptores temáticos. Capacidad de procesar tres idiomas: euskera, castellano e inglés. Mejora en la gestión documental de contenidos multimedia.

Financiación

Inteligencia Artificial Aplicada (SPRI) y financiación privada.

Colaboradores

Baleuko.

Scroll al inicio