5.6       Sperimentazioni con UNL

 

            5.6.1    UNL e la traduzione automatica delle schede bibliografiche

 

Il sistema UNL è dunque l’applicazione più ambiziosa di M.T. per adesso implementata, ed essa si adatta alla resa multilingue di parti di testo specifiche, tecnico-scientifiche, e comunque il cui dizionario di parole risulti abbastanza settoriale: tutte quelle caratteristiche che ho riconosciuto come perfettamente proprie delle schede bibliografiche pubblicate online.

Infatti nella realizzazione delle pagine web ero riuscito a fornire un servizio di C.L.I.R., ma secondo i criteri del M.L.I.A., avrei dovuto ottimizzare il sistema di Information Retrival rendendo capace il maggior numero possibile di utenti di poter leggere i contenuti dei testi archiviati nella propria lingua, o comunque in un linguaggio a lui accessibile secondo i criteri di abbattimento dello Standard Inglese precedentemente accennati.

Ciascuna scheda bibliografica, non avrebbe dovuto essere tradotta integralmente, anche perché alcune informazioni, quali :

 

1.                  autore,

 

2.                  titolo,

 

3.                  Soggetto topografico,

 

4.                  ISBN o ISSN,

 

5.                  data di edizione,

 

6.                  luogo di pubblicazione

 

per una precisa indicazione del testo descritto, avrebbero dovuto rimanere nella lingua di redazione originale; la traduzione dei campi si sarebbe dunque limitata ai campi riferiti al:

 

1.                  tipo di documento,

 

2.                  soggetto,

 

3.                  riassunto del testo

 

e purtroppo, eccetto il campo tipo documento, i campi che in fieri avrebbero contenuto molto testo, e quindi avrebbe dovuto essere creata una nuova tabella nel database bibliografiapiste identica alla tabella libri, nella quale i contenuti dei campi Type, Subject ed Abstract[1] fossero stati o direttamente rappresentati tramite espressioni UNL, oppure fossero state redatte nella lingua per la quale il processo di encodifica in UNL fosse il più preciso e sicuro per poi poter decodificare in tutte le lingue supportate dai Server Language.[2]

            La scelta è ovviamente caduta sulla seconda opzione, e per contrappasso,[3] la lingua più malleabile per l’encodifica sarebbe stata l’Inglese.

La tabella Book, praticamente gemella della tabella libri, destinata ad archiviare la bibliografia adattata alle operazioni di M.T. tramite UNL avrebbe avuto la seguente architettura.

 

Tipo documento :

UNL o Inglese

ISBN / ISSN :

Codice

Autore :

Lingua originale

Titolo :

Lingua originale

Edito :

Lingua originale + numero

Soggetto :

UNL o Inglese

Soggetto Topografico :

Lingua originale

Riassunto :

UNL o Inglese

 

Malgrado UNL costituisse l’applicazione più efficiente, con cui fornire il supporto multilinguistico, e malgrado il corpus di testi limitato (rispetto agli standard dei corpora testuali), non sarebbe stato possibile estendere a tutta la bibliografia il servizio multilingua.

La sperimentazione avrebbe riguardato solo una parte del corpus bibliografico, ed avrebbe costituito un esempio funzionante applicato ad una porzione rappresentativa di testi che avessero potuto esemplificare e ben descrivere tutte le differenti tipologie di documenti presenti nel corpus.

Questo per dimostrare, a parte la peculiarità dell’argomento bibliografico trattato, che sarebbe stato possibile fornire questo servizio per tutto quel materiale documentario relativo a temi Egittologici, anche i più particolari, fra i quali sarebbe doveroso inserire la bibliografia relativa alle Piste Carovaniere del Deserto Occidentale Egiziano.

 

5.6.2    estendere UNL

 

Come introdotto precedentemente, la sperimentazione tramite UNL avrebbe riguardato un campione rappresentativo dei documenti presenti nel corpus di testi della bibliografia digitale, ma sarebbe auspicabile nell’ottica del futuro, poter prima di tutto estendere a tutto il corpus bibliografico questo supporto multilinguistico, ed estendere sempre più la loro traduzione a nuovi Language Server, dilatando sempre maggiormente la panoramica di linguaggi supportati.

Proprio in questa ottica, la sperimentazione realizzata sarebbe stata eseguita proprio per non limitare a pura teoria il tema del multilinguismo, e deve quindi essere presa come tale: un esempio che è possibile applicare ai corpora bibliografici, la cui qualità potrebbe essere espansa in breve tempo ad un enorme numero di utenti, il cui valore informatico sarebbe incrementato tramite un applicativo più che notevole, forse costituente il top di tutti i sistemi di M.T. mai concepiti, incrementando la comprensione e la facilità di studio dei contenuti trattati, a prescindere dalla lingua con cui essi furono originariamente redatti.

 

5.6.3    UNL applicato ad un sistema di C.L.I.R.

 

L’utilizzo di UNL come sistema di M.T. è soltanto uno, forse il più ambizioso, tra gli applicativi realizzabili.

All’interno dello stesso dominio della traduzione automatica è possibile rivolgersi al sistema UNL per applicazioni molto particolari, ed in questo specifico caso, avendo sviluppato all’interno del sistema di consultazione dell’archivio bibliografico il concetto e quindi un prototipo di sistema di C.L.I.R., è stato ipotizzato l’utilizzo di UNL proprio all’interno di un sistema di Retrival Multilinguistico.

            Questa ipotesi è nata durante l’analisi dei diversi processi che avrebbero portato e permesso ad un sistema automatico di rispondere correttamente ad una stringa complessa espressa in N.L., estraendo i documenti pertinenti e prescindere per entrambi dai linguaggi di redazione.

            La difficoltà principale, a parte la costruzione dell’ontologia infor per la rappresentazione astratta dei contenuti dei documenti della bibliografia, rimaneva la realizzazione di un sistema capace di indicare al motore di ricerca come corrette tutte quelle parole chiave rappresentative di ogni elemento dell’ontologia e la loro traduzione nei linguaggi supportati dal portale.[4]

Era necessario cioè implementare un sistema che comunicasse al motore di ricerca che, ad esempio, la chiave keyword(x) della tabella infor espressa nella lingua x, all’interno del ricerca nata dalla richiesta della stringa di query così rappresentabile query = [keyword1(x), keyword2(x), keyword3(x), ecc…], era equivalente alla chiave espressa nelle lingue y, z, ecc.., e dunque avrebbero prodotto l’estrazione dello stesso elemento dalla tabella Infor.  

In pratica l’effetto prodotto dall’ontologia infor e dal sistema di ricerca così concepiti, è quello di simulare rispondendo alla richiesta espressa in lingua x come se essa fosse stata contemporaneamente eseguita, con lo stesso significato, espresso nelle lingue x, y, z, ecc…; infatti è addirittura possibile formulare query con parole contemporaneamente in più lingue come nell’esempio: “caravan’s tracks del deserto occidentale”, interrogazione improbabile, ma che illustra a dovere le potenzialità del prototipo del sistema di C.L.I.R..

Il sistema simula inoltre l’effetto di portare query d’interrogazione ed i campi dell’ontologia allo stesso standard rappresentativo (la stessa lingua), perché in pratica sembra formulare interrogazioni in qualsiasi dei linguaggi supportati ed ottenere una corretta interrogazione ed estrazione degli argomenti rappresentati nell’ontologia, base della successiva interrogazione per l’estrazione dei testi pertinenti.

L’applicazione di UNL a questo triplice sistema query à ontologia à archivio testi invece di simulare questo processo, porterebbe all’effettiva riduzione delle lingue in gioco precedentemente descritta.

            UNL non verrebbe utilizzato però nel suo modo tradizionale, ossia:

 

1.      partendo da un testo sorgente,

 

2.      encodificandolo in espressione UNL,

 

3.      decodificando per produrre i testi  target

 

poiché per l’applicazione in questione non sarebbe stato necessario tradurre niente, ma riuscire ad astrarre le chiavi di ricerca e la query immessa dall’utente allo stesso codice astratto ed indipendente dai diversi linguaggi sorgenti in gioco.

Il linguaggio target non sarebbe dunque più consisistito in un N.L., ma sarebbe stato UNL stesso, e il suo utilizzo UNL  sarebbe da arresare al punto 2, evitando inoltre proprio il processo più difficoltoso da realizzare, la decodifica da UNL a linguaggi target.

            Il processo di encodifica avrebbe riguardato due parti altrettanto distinte del processo di I.R. e sarebbe avvenuto in due momenti distinti:

 

1.            Query d’interrogazione: la stringa espressa in NLsoruce(x) dovrebbe essere encovertirla ed il processo, ovviamente, sarebbe avvenuto in tempo reale.

2.            Ontologia Infor:  l’ontologia non avrebbe più necessitato della traduzione delle chiavi relative a ciascun elemento in tutte le lingue supportate, poiché ciascun elemento avrebbe avuto come proprie le stesse chiavi espresse in UNL.

Praticamente ogni campo “chiavi” avrebbe dovuto essere scritto in una sola lingua, meglio se l’Inglese, e poi sottoposta ad un software ENCO, le cui espressioni risultanti avrebbero costituito le chiavi UNL riferite a quel determinato argomento.

Questo processo, evidentemente, dovrebbe avvenire prima di caricare nel database Infor i valori delle singole chiavi, anche se non è da escludere che pure questo procedimento potrebbe avvenire in tempo reale durante l’interrogazione dell’utente.

 

L’encodifica  produrrebbe quindi  la riduzione delle diverse lingue in gioco (fra query e chiavi) allo stesso standard linguistico: UNL.

            Il sistema in concreto potrebbe funzionare così:

 

·      Previa riduzione dei campi chiavi della tabella infor ad espressioni UNL o in tempo reale;

 

·      Ricezione della query e sua encodifica ;

 

·      La query(UNL), a questo punto, potrà essere utilizzata per interrogare l’ontologia ed estrarne i campi pertinenti.

 

   La realizzazione di questo progetto assicurerebbe un netto miglioramento dell’efficienza di tutto il sistema di I.R. poiché produrrebbe:

 

1.      la riduzione delle dimensioni dell’ontologia Infor, eliminando la traduzione, linguaper lingua, delle chiavi di ciascun argomento ivi rappresentato;

 

2.      il mantenimento delle sfumature semantiche contenute nell’espressione di query ed all’interno delle chiavi dell’ontologia Infor, ottenibile grazie alle caratteristiche intrinseche ad UNL stesso, ed a sua volta riuscire ad ottenere:

 

2.1        l’incremento della precision:[5] il mantenimento del contenuto semantico delle espressioni di query diverrebbe un ulteriore criterio per l’esclusione degli elementi, Ret & Nrel, e cioè non pertinenti al “senso” dell’interrogazione, come ad esempio gli omografi;

 

2.2        la riduzione del processo di normalizzazione e di stemming: assumendo quanto affermato nel punto 2 e 2.1 appare evidente che la riduzione a stem di una parola flessa potrebbe portare alla perdita delle sfumature semantiche necessarie a distinguere il senso di una query da altre.

Il livello di normalizzazione e stemming dovrebbe dunque essere ponderata, perché invece di avere come risultato l’incremento dell’efficienza provvedendo alla eliminazione di elementi ridondanti ed inutili ne produrrebbe un decremento perchè cancellerebbe il significato semantico contenuto, ad esempio, in una particolare costruzione sintattica.

 

2.3    Riduzione complessiva dei tempi: i tempi di encodifica della stringa di query [6] andrebbero a sostituirsi ai tempi di normalizzazione e di stemming riducendo sicuramente il tempo totale necessario alla rielaborazione della query dal testo sorgente alla stringa che sarà utilizzata per l’interrogazione.

 

            Sembra dunque ragionevole ipotizzare che l’applicazione di UNL al prototipo di sistema di C.L.I.R. sperimentato nel portale egittologico Bibliografiapiste potrebbe produrre risultati molto interessanti, o comunque confrontabili con i sistemi standard.

 



[1] Quello che nei campi corrispondenti della tabella libri avevo scritto in Italiano.

[2] Per i processi di encodifica e decodifica è necessario rifarsi a quanto sviluppato nella 3° parte dedicata alle strutture di Machine Translation.

[3] Contrappasso rispetto alle premesse filosofiche tramite cui è stato propagandato il sistema UNL, ossia sopperire al dominio della lingua inglese nelle applicazioni web.

[4] Naturalmente il tentativo sarebbe stato quello di rendere il numero di linguaggi supportati il più esteso possibile.

[5] Per quanto concerne il concetto della Precision e di elementi Nrel ed elementi Ret vedi 2.3  Sistemi di Information Retrival

[6] Che per quanto complessa possa mai essere, sarà sempre una frase pensata per un’interrogazione ad un archivio.