2.5       Cross-Language Information Retrival

 

In generale un sistema adeguato di C.L.I.R. deve contenere delle tecnologie capaci di relazionare correttamente queries e documenti a prescindere dal linguaggio di redazione di entrambe, e quindi disporre i documenti in ordine di rilevanza.[1]

A differenza di un sistema di retrival monolingua, in un C.L.I.R.s. è necessario sopperire ad un necessario processo di words matching e weighting da applicare a più linguaggi.

Questo implica tra l’altro un precedente sviluppo di una risorsa lessicale capace di tradurre dal linguaggio delle queries a quello/i del documento e viceversa, e che sia capace di risolvere il problema delle ambiguità, già pesantissimo all’interno di sistemi di retrival monolingue, ed enormemente amplificato in un contesto plurilinguistico.

Sono stati sviluppati principalmente tre tipi di approcci per la realizzazione di sistemi di C.L.I.R. tramite altrettante tecniche:

 

1.      Machine Translation: sebbene il pregio di un sistema di Machine Translation sia la produzione di testi comprensibili ed affidabili da un linguaggio sorgente ad un linguaggio target (premessa ed ammessa la totale affidabilità del sistema di M.T.), è una soluzione che non è vista come una risposta reale al problema di sopperire al matching e retrival di documenti multilingue.

Tramite un sistema di M.T. sarebbe possibile sopperire alla riduzione di una query e dei documenti relativi ad uno stesso linguaggio per poi ponderare se i diversi documenti fossero rilevanti verso le informazioni espresse nelle queries: ovviamente il processo di M.T. avrebbe riguardato la traduzione del testo di queste ultime.

Tuttavia la traduzione accurata dei testi delle queries può essere vista sia come impossibile da realizzarsi, ma anche come non necessaria, visto che nel caso specifico (produzione di queries multilingue) non c’è la necessita della produzione in linguaggio target dei termini della query, e molto spesso la traduzione da una query sorgente a queries multiple plurilingue può comportare un miglioramento nelle performance del sistema di C.L.I.R..

 

2.      Knowledge-based: la tecnica è sviluppata tramite l’applicazione di thesauri, ontologie e dizionari bi- o multilingue.

 

2.1.                       Thesauri ed Ontologie

 

L’applicazione dei thesauri ad un sistema di C.L.I.R. è stata storicamente il primo tipo di soluzione adottata.

Riprendendo il concetto di thesaurus esaminato precedentemente, il suo utilizzo all’interno di tali sistemi potrebbe essere interpretato come lo sfruttamento di una ontologia specializzata nell’organizzazione terminologica, e quando esso è realizzato in un contesto multilinguistico prevede ovviamente l’organizzazione terminologica di tutti i termini di ciascuna lingua.

A sua volta thesaurus multilingue per l’indicizzazione e la ricerca di documenti può essere visto come un set di thesauri monolingue, tutti relazionati verso un sistema comune di concetti.

Tramite questo sistema, un utente è in grado di produrre un’interrogazione in una determinata lingua, ed ottenere i documenti contenenti i concetti corrispondenti negli altri linguaggi.

Attraverso questo sistema di approccio, possono essere assegnati per ogni documento i termini ad esso appropriati

Le sperimentazioni recenti, e la presenza in commercio di soluzioni basati proprio su questa tecnologia, hanno dimostrato che un sistema di thesaurus multilingue può fornire buoni risultati in un contesto di C.L.I.R..

Gli obbiettivi della ricerca attuale, oltre che mirare allo sviluppo di thesauri multilingue, finora presenti in minor numero rispetto a quelli monolingua, sono finalizzati alla produzione di assegnazioni semiautomatiche dei concetti, precedentemente realizzata manualmente da uno staff di esperti, nel campo specifico.

 

2.2.                       Dizionari

 

Molti sistemi di C.L.I.R. utilizzano una serie di dizionari bilingue come interfacce di traduzione.

Generalmente i dizionari bilingue, predestinati ad un’utenza umana, se sottoposti ad un’operazione di pre-processing, possono essere resi utilizzabili da sistemi automatici, costituendo una serie di Machine Readable Dictionaries, M.R.Ds..

Tuttavia le sperimentazioni di sistemi di C.L.I.R. basati su M.R.Ds. si sono dimostrate  carenti, mancando dal 40% al 60% delle operazioni di retrival eseguite da I.R.S. monolingue: è stato calcolato che l’occorrenza ‘out of vocabulary’ in sistemi di M.R.Ds. bilingue sia la causa del 23% degli effettivi fallimenti di sessioni di C.L.I.R..

 

3.      Corpus-based: è un sistema di approccio realizzato tramite l’analisi statistica di ampi corpora testuali e l’estrazione automatica di informazioni necessarie alla costruzione di specifiche applicazioni di traduzione.

La collezione di testi generalmente consiste in una serie di corpus monolingue paralleli per l’estrazione di termini multilingue equivalenti, e duna derivazione di questa tecnica, indipendente dai corpora analizzati.

È la così detta tecnica di Latent Semantic Indexing, L.S.I., capace di estrarre termini linguistici e di produrre rappresentazioni di documenti indipendenti dai corpora paralleli.

Altro tipo di corpora utilizzabili per applicazioni di C.L.I.R. sono i Comparable Corpora, più semplici da reperire e da costruire dei corpora paralleli, e fra le applicazioni realizzate con tale tecnologia spicca il corpus allineato Tedesco – Italiano realizzato tramite l’analisi di storie della Swiss news agency, S.D.A..

La collezione di testi della S.D.A. è stata connotata manualmente di una serie di concetti detti subject descriptors realizzati ed attribuiti secondo lo stesso schema di classificazione.

 

 



[1] Anche in questo caso il sistema deve essere capace di distinguere quali siano le parti del corpus (i documenti) più importanti da visualizzare con priorità e quali siano le parti del testo di una query (le parole) più rilevanti da rendere più ponderanti nel sistema di retrival.