MODELA PROIEKTUA

Castellano
Deep_learning

MODELA proiektuak 21 hilabeteko iraupena du, 2016ko apirilaren 1etik 2017ko abenduaren 31ra. Hauek dira proiektuaren fase nagusiak:

  • 1. fasea: Kontzeptualizazioa eta eskakizunak zehaztea. Fase honetan, proiektuaren irismena finkatuko da; horretarako, garatuko den prototipoa non aplika litekeen definituko da eta zer eskakizun izango dituen zehaztuko.
  • 2. fasea: Ikerketa eta garapena. Fase honetan, jakintza areagotzeko eta prototipo bat garatuz aplikatzeko lanak egingo dira.
  • 3. fasea: Baliozkotzea eta zabalkundea. Fase honetan, 1. fasean zehaztutako eskakizunak oinarri harturik 2. fasean garatutako prototipoa baliozkotuko da, eta emaitzak zabaltzeko eta balizko ustiapenerako zereginei ekingo zaie.

Proiektuaren jarduerak ageri dira jarraian, lan-paketearen arabera multzokatutako zereginen bitartez zehaztuta.

  • 1LP PROIEKTUAREN KOORDINAZIOA LP honen helburua da proiektuari tresna eraginkor bat jartzea bazkideak eta zereginak koordinatzeko, bermatuko duena proiektuaren kudeaketa tekniko eta ekonomiko-administratiborako egin beharreko zeregin guztiak garaiz egitea.
  • 2LP: HIZKUNTZA-BALIABIDEAK ERAUZTEA ETA SORTZEA. Pakete honen helburua da hizkuntza-baliabideak sortzea (corpus eta lexiko elebidunak), proiektuan garatu beharreko itzulpen automatikoko sistemaren errendimendua hobetzen laguntzeko. Lehen urratsa eskura dagoen materiala eskuz biltzea izango da, baina paketearen zati nagusia teknologiari loturik egongo da; alegia, dentsitate ertaineko hizkuntza-bikoteetara egokitutako teknologia garatuko da, aukera emango diguna corpus paralelo eta konparagarri masiboak biltzeko eta haietatik lexiko elebiduna erauzteko. Albisteen arloko corpusen konpilazio masiboari esker, itzulpen-eredu hobeak lortuko ditugu. Alde batetik, datu-bolumen handiagoa izango dugu 3LPan eta 4LPan garatu beharreko ereduak entrenatzeko. Bestetik, erauzitako lexiko elebiduna zehatzagoa eta esparru zabalagokoa izango da, eta hori ere mesedegarri da itzulpen automatikoko sistemetarako. Garatutako teknologiari esker, corpusen bilketa masiborako eta terminologia erauzteko prozesuak egin ahal izango dira. Corpusak biltzeko, webetik corpus paralelo eta konparagarriak erauzteko azken ikerketetako teknikak aplikatuko dira. Konbinazio guztiak aztertuko dira, eta proposatutako egoerara ongien egokitzen dena inplementatuko da: corpus-bolumen handien konpilazioa dentsitate ertaineko hizkuntza-bikoteetarako, hala nola euskara-gaztelania eta euskara-ingelesa. Terminologia-erauzketa literaturan proposatutako paradigmen arabera egingo da, eta ahalegin berezia egingo da hitz anitzeko terminoak eta lokuzioak erauzteko. Corpus paraleloetatik nahiz konparagarrietatik erauzteko teknikak garatuko dira. Abiapuntu gisa, Elhuyarrek garatutako PACO, CO3 eta Itzulterm tresnak erabiliko dira, baita TTC eta ACCURAT Europako proiektuen esparruan terminologia erauzteko eta corpusak konpilatzeko garatutako tresnak ere.
  • 3LP: ITZULPEN AUTOMATIKO ESTATISTIKOKO OINARRIZKO SISTEMAK. Lan-pakete honen helburua da metodo estatistiko estandarretan oinarritutako itzulpen automatikoko sistemak garatzea. Garatutako sistemak oinarri gisa erabili ahal izango dira gero 2LPan sortutako proba-multzoen gainean ikasketa sakoneko metodoekin lortutako emaitzekin konparatzeko. Sistemen bi bertsio garatuko dira LP honetan. Lehen bertsioa segmentuetan oinarritutako ereduen gainean eraikiko da (“phrase-based models”, PBSMT), 2LPan zehaztutako domeinuaren datuetatik abiatuta, eta ereduak konparatzeko gutxieneko oinarri gisa balioko du. Bigarren bertsioa bertsio aurreratu bat izango da, domeinuz kanpoko datuetan oinarritua; datuak eta ereduak konbinatuz kalitate hobeko itzulpenak lor ditzaketen teknikak erabiliko dira horretarako. Bertsio hau baliagarri izango da konparazio-oinarri sendo gisa (“strong baseline”), gaur egun PBSMT ereduak areagotzeko dauden metodo optimoetan oinarrituta baitago. Lan-pakete honen emaitzak 5. eta 6. lan-paketeetan erabiliko dira, ebaluazio konparatiboko oinarri gisa eta sistemen hibridaziorako TAE-osagai gisa.
  • 4LP: “DEEP LEARNING” TEKNIKAK ITZULPEN AUTOMATIKORAKO. Lan-pakete honen helburua itzulpen automatikoaren arloko DLko esperimentuak egitea da. Horretarako, erabili beharreko softwarea hautatu eta ebaluatu behar da. Orobat, esperimentuei ekin aurretik, 3LPko emaitzekin batera, kalkulu-ahalmenaren beharrak ebaluatu behar dira. Emaitzak oinarritzat hartuko dira 5LP zereginerako.
  • 5LP: DEEP LEARNIKG TEKNIKAK TXERTATZEA ITZULPEN AUTOMATIKOKO SISTEMETAN. Zeregin honen helburua da deep learning-eko metodoak itzulpen automatikoko sistemetan txertatzea, 3 eta 4 lan-paketeetan lortutako emaitzak konbinatuz. Itzulpen automatikoko sistema aurreratuak sortzea du helburu txertatze horrek, proiektuaren esparruan hautatutako datu eta domeinuetako itzulpenen amaierako kalitatean hobekuntzak lortzeko.
  • 6LP: EMAITZAK BALIOZKOTZEA. Lan-pakete honen helburua proiektuaren emaitzak baliozkotzea da. Proiektuaren emaitzen baliozkotzea, nagusiki, hau izango da: giza ebaluazio bat egitea, aurrez aurre jarririk, batetik, proiektuan “Deep Learning”-ean oinarrituta garatu den itzulpen automatikoko sistema eta, bestetik, MondragonLinguak (ISEAk ordezkatua) gaur egun erabiltzen dituen itzulpen automatiko estatistikoaren sistemak. Itzulpen automatikoko sistemen ebaluazioa ikerketa-eremua da berez; horregatik, ikuspegi praktiko bat, eremu horretan kontrastatua dagoena, erabiliko da, itzulpen automatikoen post-edizioetan oinarritua. Hau da azken helburua: zehaztea ea “Deep Learning”-ean oinarritutako teknologiak lagungarriak diren itzulpen automatikoko sistemen kalitatea hobetzeko. Halaber, kalitatearen baliozkotze bat egingo da enpresa erabiltzaileen ikuspuntutik.
  • 7LP: EMAITZAK ZABALTZEA, TRANSFERITZEA ETA USTIATZEA. Lan-pakete honen helburua da emaitzak maila akademiko eta industrialean zabaltzea eta ustiatzea. Lehen kasuan, ikerketa-zentroak arduratuko dira hori egiteaz; bigarren kasuan, berriz, enpresetako I+Gko unitateak. Lan-pakete horren helburu nagusia da aztertzea zer eragin duen proiektuak industrian, Ametzagaiña eta ISEAra elkartutako enpresei egindako emaitzen transferentziaren bidez eta ustiapen komertzialaren aurreikuspenen lehen analisi baten bidez.