PROYECTO MODELA

Euskera
Deep_learning

El proyecto MODELA tiene una duración total de 21 meses con comienzo el 1 de abril de 2016 y finalización el 31 de diciembre de 2017. Las principales fases del proyecto son las siguientes:

  • Fase 1: Conceptualización y especificación de requisitos. En esta fase se determinará el alcance del proyecto a través de la definición de los escenarios de aplicación y especificación de requisitos para el prototipo a desarrollar.
  • Fase 2: Investigación y desarrollo. En esta fase se llevarán a cabo las tareas de adquisición de nuevo conocimiento y su aplicación a través del desarrollo de un prototipo.
  • Fase 3: Validación y difusión. En esta fase se llevarán a cabo las tareas de validación del prototipo desarrollado en la fase 2 en base a los requisitos definidos en la fase 1 y se llevarán a cabo las tareas de difusión y potencial explotación de los resultados.

A continuación se muestran las actividades del proyecto explicitadas a través de tareas que se han agrupado en base a paquetes de trabajo.

  • PT1: COORDINACIÓN DEL PROYECTO. El objetivo de este PT es dotar al proyecto de un instrumento efectivo de coordinación entre socios y tareas que garantice que todas las actividades necesarias para la gestión técnica y económico-administrativa del proyecto se desarrollan a tiempo.
  • PT2: EXTRACCIÓN Y GENERACIÓN DE RECURSOS LINGÜÍSTICOS. El objetivo de este paquete es la generación de recursos lingüísticos en forma de corpus y léxicos bilingües que ayuden a mejorar el rendimiento del sistema MT a desarrollar en el proyecto. Si bien en un primer paso se recopilará manualmente todo el material disponible el grueso del paquete consistirá en el desarrollo de tecnología adaptada a pares de lenguas de media densidad que permita la recopilación masiva de corpus paralelos y comparables, así como la extracción de léxico bilingüe desde los mismos. La compilación masiva de corpus del dominio de noticias redundará en la consecución de modelos de traducción más exitosos. Por un lado, se dispondrá de más volumen de datos para el entrenamiento de los modelos a desarrollar en PT3 y PT4, y por otro, el léxico bilingüe extraído será de mayor precisión y cobertura, lo que también redundará positivamente en los sistemas de TA. La tecnología desarrollada permitirá llevar a cabo los procesos de recopilación masiva de corpus, así como de extracción de terminología. Para la recopilación de corpus se implementarán técnicas del estado del arte orientadas a la extracción automática de corpus paralelos y comparables desde la web. Se estudiarán las diferentes combinaciones y se implementará la que mejor se adapte al escenario propuesto: compilación de grandes volúmenes de corpus para pares de idiomas de densidad media, como euskera-castellano o euskera-inglés. La extracción de terminología será abordada desde los paradigmas planteados en la literatura y poniendo énfasis en la extracción de términos multipalabra y locuciones. Se desarrollarán técnicas para la extracción tanto desde corpus paralelos como desde comparables. Se utilizarán como punto de partida las herramientas PACO, CO3, e Itzulterm desarrolladas por Elhuyar así como distintas herramientas para la extracción de terminología y compilación de corpus desarrolladas en el marco de los proyectos europeos TTC y ACCURAT.
  • PT3: SISTEMAS BASE DE TRADUCCIÓN AUTOMÁTICA ESTADÍSTICA. El objetivo de este paquete de trabajo es el desarrollo de sistemas de traducción automática basados en métodos estadísticos estándares. Los sistemas desarrollados servirán de base para la comparación con los resultados obtenidos por métodos de aprendizaje profundo sobre los conjuntos de prueba creados en el PT2. Se desarrollarán dos versiones de los sistemas en este PT. La primera versión se creará usando modelos a base de segmentos (“phrase-based models”, PBSMT) a partir de los datos del dominio determinados en el PT2, y servirá de base mínima para las comparaciones de modelos. La segunda versión será una versión avanzada basada en datos fuera de dominio, usando técnicas de combinación de datos y modelos que permitan generar traducciones de mayor calidad. Esta versión servirá de base comparativa fuerte (“strong baseline”) para las comparaciones, al ser un modelo basado en métodos óptimos actualmente disponibles para aumentar los modelos PBSMT. Los resultados de este paquete de trabajo serán usados en los paquetes de trabajo 5 y 6, como base de evaluación comparativa y como componentes de TAE para la hibridación de sistemas.
  • PT4: TÉCNICAS DE “DEEP LEARNING” PARA TRADUCCIÓN AUTOMÁTICA. El objetivo de este paquete de trabajo es la realización de experimentos de DL en el área de TA. Para ello antes se debe elegir y evaluar el software a utilizar. También, antes de proceder a los experimentos, junto a los resultados de PT3, deben ser evaluadas las necesidades de capacidad de cálculo. Los resultados servirán de base para la tarea PT5.
  • PT5: INTEGRACIÓN DE TÉCNICAS DE DEEP LEARNING EN SISTEMAS DE TRADUCCIÓN AUTOMÁTICA. El objetivo de esta tarea es la integración de métodos de deep learning en sistemas de traducción automática, combinando los resultados obtenidos en los paquetes de trabajo 3 y 4. Esta integración tiene como objetivo la creación de sistemas avanzados de TA para lograr mejoras a nivel de la calidad final de las traducciones para los datos y dominios seleccionados en el marco del proyecto.
  • PT6: VALIDACION DE LOS RESULTADOS. El objetivo de este paquete de trabajo es la validación de los resultados del proyecto. La validación de los resultados del proyecto consistirá principalmente en una evaluación humana comparativa del sistema de TA basado en “Deep Learning” que se ha desarrollado en el proyecto con los sistemas actuales de TA estadística que emplea actualmente MondragonLingua (representada a través de ISEA). La evaluación de sistemas de TA es un campo de investigación en sí mismo, por lo que se adoptará un enfoque práctico y contrastado en este campo basado en la post-edición de traducciones automáticas. El objetivo final es determinar si las tecnologías basadas en “Deep Learning” contribuyen a una mejora de la calidad de los sistemas de TA. También se llevará a cabo una validación de la calidad desde el punto de vista de las empresas usuarias.
  • PT7: DIFUSIÓN, TRANSFERENCIA Y EXPLOTACIÓN DE LOS RESULTADOS. Este paquete de trabajo se centra la difusión y explotación de resultados a nivel académico e industrial. En el primer caso esta labor recaerá en los centros de investigación y en el segundo caso en las unidades de I+D empresariales. El principal objetivo de este paquete de trabajo es analizar el impacto del proyecto a nivel industrial a través de la transferencia de resultados a las empresas asociadas a Ametzagaiña e ISEA y el análisis preliminar de las previsiones de explotación comercial.