Una dintre cele mai importante conferinţe din lume, în domeniul prelucrării limbajului natural, este Conferinţa Anuală a Asociaţiei de Lingvistică Computaţională (cei mai mulţi cercetători americani, ar spune că este cea mai importantă!), aflată anul acesta la cea de a 43-a ediţie.
Conferinţa ACL s-a desfăşurat, în perioada 25-30 iunie la Universitatea Michigan, Ann Arbor şi s-a bucurat de cea mai mare participare (699 de participanţi înregistraţi) de până acum. Cu ocazia acestei conferinţe s-au organizat, ca de obicei, o serie de workshopuri, „vedeta” incontestabilă fiind de data aceasta workshopul „Building and Using Parallel Texts: Data-Driven Machine Translation and Beyond (Construcţia şi exploatarea corpusurilor paralele: traducerea automată statistică şi dincolo de ea”).
Interesul fată de acest workshop, pe lângă tematica intrinsecă, şi de conferinţele invitate ale unor specialişti de marcă (Mike Maxwell şi Franz Och) a fost sporit şi de faptul că el a fost organizat pe marginea a două competiţii tehnologice extrem de incitante: o competiţie între sisteme de traducere automată bazată pe metode statistice pentru patru perechi de limbi (spaniolă-engleză, franceză-engleză, finlandeză-engleză şi germană-engleză) şi o competiţie între sisteme de aliniere lexicală, pentru trei perechi de limbi (engleză-română, engleză-inuktitut , engleză-hindi). Competiţia între cele 11 sisteme de traducere automată participante a dat câştig de cauză Universităţii din Washington, SUA, urmată îndeaproape de Universitatea Politehnică a Cataloniei, Spania.
Rezultatele competiţiei au au indicat clar că sistemele statistice de traducere automată, chiar dacă încă nu depăşesc semnificativ performanţele sistemelor bazate pe reguli, sunt mult mai robuste şi incomparabil mai uşor de adaptat de la pereche de limbi la alta, sau de la un domeniu la altul. A fost relevată şi o serie de priorităţi ale cercetării viitoare, cu precădere îmbunătăţirea modelelor statistice de traducere, a modelelor de limbă şi a decodoarelor (programe care pe baza unui model de traducere pentru limbile A şi B şi a unui model de limbă pentru B, generează traducerea de maximă probabilitate a unui text din limba A în limba B).
Dacă modelele de limbă au cunoscut în ultimii 7-8 ani îmbunătăţiri spectaculoase, şi unele decodoare (cum ar fi Pharaoh, ISI-decoder ori Marie) au apărut în domeniul public, un punct critic pare să fie acurateţea modelelor de traducere. Dacă performanţa unui model de limbă se evaluează prin teste privind acurateţea dezambiguizării morfo-lexicale a unui text arbitrar în limba modelată (POS-tagging), acurateţea unui model de traducere pentru o pereche de limbi A-B se evaluează prin măsurarea corectitudinii alinierii lexicale a două texte în limbile A şi respectiv B care reprezintă traduceri reciproce (o astfel de pereche se mai numeşte bi-text).
Alinierea lexicală a unui bitext este operaţie prin care pentru fiecare cuvânt sau expresie dintr-o limbă se pune automat în corespondenţă un cuvânt sau o expresie în cea de a doua limbă astfel încât cele două unităţi lexicale reprezintă traduceri mutuale, în contextele lor de apariţie. Nu este de mirare deci, interesul pentru competiţia de aliniere lexicală în care au participat 50 de sisteme: 37 pentru perechea de limbi engleză-română, 10 pentru perechea de limbi engleză-inuktitut şi trei pentru perechea de limbi engleză-hindi. Limbile română, inuktitut şi hindi au fost alese pe considerentul acestea sunt trei limbi, importante, din multele limbi pentru care volumul resurselor computaţionale, disponibile în domeniul public, este considerat insuficient pentru aplicarea metodelor „clasice” folosite în traducerea automată pe baze statistice.
La această competiţie a participat şi Institutul de Cercetări pentru Inteligenţă Artificială al Academiei Române, cunoscut ca unul dintre reputatele centre europene de cercetare în domeniul tehnologiilor limbajului. Sub îndrumarea conducătorului lor de doctorat Prof. Dan Tufiş, membru corespondent al Academiei Române şi directorul Institutului de Cercetări pentru Inteligenţă Artificială, tinerii cercetători români Radu Ion, Alexandru Ceauşu şi Dan Ştefănescu, au realizat un sistem original de aliniere lexicală cu care au câştigat competiţia ACL2005 organizată pentru perechea de limbi engleză-română.
Performanţa este cu atât mai deosebită, cu cât printre competitori s-au aflat cercetători de renume de la Universităţi sau companii faimoase: Institute for Information Science-University of Southern California (Prof. Daniel Marcu), Institute for Language Technologies-Carnegie Melon University (Prof. Ralf Brown, Prof. Jaime Carbonell), Institute for Advanced Computer Studies-University of Maryland (Prof. Philip Resnik, Dr. Adam Lopez), Microsoft Research (Dr. Robert Moore), Departamento de Lenguajes y Sistemas Informaticos-Universitat Jaume I (Prof. Juan Miguel Vilar), Transducens-Departamento de Lenguajes y Sistemas Informaticos-Universitat d’Alacant (Prof. Mikel L. Forcada).
Fiecare echipă participantă a putut introduce în competiţie oricâte sisteme de aliniere: de pildă ISI (care a ocupat locul al doilea) a participat cui 25 de sisteme (variante diferite ale unui sistem de bază), Carnegie Mellon a participat cu 3 sisteme, Universitatea Maryland cu două sisteme, iar echipa din România cu 4 sisteme (două complet diferite şi celelalte 2 variante ale primelor).
Interesant de remarcat ca sistemele realizate de echipele coordonate de Prof. Dan Tufiş şi Prof. Daniel Marcu (unul din cei mai cunoscuţi specialişti americani, de origine română, laureat de altfel al Premiului Academiei Române pe anul 2000 pentru o carte care i-a adus o reputaţie mondială) au ocupat primele 25 de locuri din cele 37!
Tehnologiile multilinguale ale viitorului, trebuie să fie general aplicabile, indiferent de limbă. Workshopul acesta a arătat că limba română are o serie de particularităţi foarte interesante, ignorate în mare parte de cercetarea mondială, devenind o adevărată provocare pentru comunitatea ştiinţifică. Importanţa acestei competiţii, pe lângă excepţionalul rezultat al cercetătorilor din România, constă în plasarea limbii române în fluxul cercetărilor internaţionale preocupate de prelucrarea multilinguală a limbajului natural. Un merit incontestabil îi revine prof. Rada Mihalcea de la Departamentul de Calculatoare şi Inginerie al Universităţii Texas-ului de Nord, o tânără şi valoroasă cercetătoare, extrem de activă în promovarea limbii române în cyberspaţiu. Ea a fost una din organizatoarele acestui workshop, ce se înscrie într-o suită de alte competiţii la organizarea cărora a participat în 2003 (la NAACL, Edmonton, Canada) şi 2004 (Senseval3, Barcelona, Spania) şi în care limba română a fost obiect de investigaţie. Prof. Rada Mihalcea şi Prof. Daniel Marcu sunt membri ai Comisiei de informatizare pentru limba română a Academiei Române.