EJIE – Productivización de herramientas del lenguaje basadas en IA
EJIE
Sector: TIC
Business Case
¿Cómo realizar la explotación de modelos de traducción, transcripción y síntesis en modo servicio el día+1?
Objetivos
Técnicos: escalado del servicio en base a las necesidades y autorecovery. Funcionales: ¿y cuando la traducción sea mejorable como lo detectamos y corregimos?
Use case
Los modelos se han desplegado en modo contenedor sobre una solución onpremise (openshift de Red Hat) con recursos gráficos virtualizados (slots de 4gb de tarjetas V100s). Los modelos deben “entrar” en la memoria gráfica asignada y el contenedor debe disponer de funciones “health” (liveness en el lenguaje kubernetes).
Infraestructura
On Premise
Tecnologías utilizadas
Aprendizaje automático o profundo; Reconocimiento/procesamiento de imágenes; Minería de textos
Datos utilizados
Traducción: lenguaje generalista con dato de medios (público) y lenguaje administrativo con 100% datos de servicio traducción IVAP. Transcripción: modelo base + dato procesado (juicios + eitb). Síntesis: 4 voces (3eu+1es) con dato generado + 2 dato inet (fr,en).
Recursos utilizados
El equipo ha estado formado por personal de Vicomtech y del grupo de Innovación de EJIE estando la solución desplegada en los CPDs del Gobierno Vasco. Ha sido necesaria contratar tanto para el enriquecimiento del dato (transcripción) como para la generación de dato desde cero (síntesis).
Dificultades y aprendizaje
En el plano técnico ha sido necesario interiorizar dinámicas a la hora de trabajar con recursos gráficos (GPU): adquisición, virtualización, dimensionamiento adecuado de modelos a slots de tamaño fijo… La mejora de modelos y corrección de los mismos se arreglan con datos y no con programación. La generación de datos no es una actividad de las contratables por EJIE por lo que dicha actividad se ha realizado directamente por parte del Gobierno Vasco.
KPIs (impacto en el negocio y métricas del modelo)
Existen indicadores de número de solicitudes realizadas de forma diaria y segmentadas por colectivo (dispositivo, ip, apikey…). Más de 200.000 peticiones diarias por un colectivo de 30.000 personas únicas. El número de peticiones de traducción realizadas a los servicios oficiales ha disminuido debido a la ayuda aportada por las herramientas del lenguaje
Financiación
Se trata de un proyecto 100% ejecutado con dinero de presupuestos donde ha participado política lingüística (HPS), la dirección de tecnología (DTIC) e IVAP.
Colaboradores
Vicomtech ha sido la empresa adjudicataria de la contratación de modelos IA EJIE ha aportado su conocimiento de más de 40 años en gestión IT.