4.2       query multilingue: realizzazione del C.L.I.R.

 

Le caratteristiche fondamentali della tabella infor, creata come un’ontologia per la rappresentazione dei contenuti semantici presenti nella bibliografia digitale, avrebbero dovuto essere:

 

·              la propria indipendenza dagli elementi della bibliografia,

 

·              la sua elasticità, ossia la possibilità di essere sempre ampliata di un nuovo campo idi nel caso venisse identificato un nuovo argomento da dover rappresentare all’interno della bibliografia, oppure la possibilità di aggiungere chiavi relative ad argomenti già esistenti.

 

L’indipendenza dalla tabella libri era realizzata fisicamente…questo perché la tabella infor è esterna ed amministrabile indipendentemente dall’archivio dei documenti della bibliografia digitale ai quali però era relazionata tramite i rispettivi campi idi à free.

L’elasticità della struttura sarebbe stata dovuta sia dal modo con il quale era stata concepita e realizzata, sia dalle buone prestazioni di MySql per la gestione di database.

Infatti esse sopperivano ad una carenza che altrimenti avrebbe compromesso l’implementazione di tutta l’architettura precedentemente illustrata: una volta costruito un campo, e dichiarati i tipi di dati che esso avrebbe contenuto, era necessario rispettare delle dimensioni massime dopo le quali all’interno del campo non sarebbe più stato possibile inserire nuovi valori.

Questo avrebbe significato che se un record della tabella infor avesse superato le dimensioni supportate per il campo chiavi, il record non sarebbe più stato aggiornabile, sempre ammesso che le dimensioni supportate avessero già sopperito all’inserimento di tutte le chiavi programmate.

L’architettura di MySql, invece, rappresenta la soluzione a questo problema strutturale.

Infatti sarebbe stato possibile, una volta raggiunte le dimensioni massime di un record, inserire un altro elemento all’interno della bibliografia, ed assegnarvi lo stesso valore (nome) nel campo idi, e quindi continuare nell’inserimento delle chiavi relative allo stesso argomento il cui sviluppo era stato bloccato da meri problemi di spazio.

Questa avrebbe consentito lo sviluppo sempre maggiore e sempre più preciso di chiavi (e combinazioni di parole) sempre più efficienti per il reperimento dei documenti tramite l’ontologia infor: teoricamente, per ogni argomento, avrebbero potuto essere costruiti infiniti record contenenti lo stesso valore nel campo idi, (nome dell’argomento) e chiavi diverse per la sua rappresentazione nel campo chiavi.

Questa ultima affermazione, “chiavi diverse per la sua rappresentazione”, avrebbe costituito lo spunto per la realizzazione di una struttura di I.R. multilingue.

Infatti se avessimo considerato in modo del tutto oggettivo  la rappresentazione all’interno di infor un argomento della bibliografia (e cioè dei record della tabella dove il campo idi fosse stato uguale), così come la rappresentazione di un lemma all’interno di un dizionario multilingue, avremmo potuto trovarvi questa  relazione, perché entrambe le rappresentazioni erano costituite da:

 

·              un lemma (argomento della bibliografia digitale nella tabella infor, voce del dizionario nel vocabolario multilingue),

 

·              la sua rappresentazione (il campo chiavi in tutti gli elementi con idi identico di infor, le definizioni in ciascuna lingua della stessa parola nel dizionario multilingue)

 

e cioè entrambe le strutture erano realizzate attraverso un oggetto indicizzato (voce del dizionario ßà argomento della bibliografia) al quale erano riferite le proprie rappresentazioni (nel caso del dizionario multilingue le diverse definizioni, ciascuna per linguaggio, relative allo stesso lemma).

            Queste deduzioni apparentemente banali, avrebbero permesso, previamente accertato che la tabella infor potesse accogliere elementi con lo stesso valore all’interno del campo idi ma con chiavi diverse attribuitegli, che la rappresentazione di ogni argomento avrebbe potuto essere indipendente dalla lingua nella quale fossero state espresse le chiavi.

            Cioè che la tabella infor avrebbe potuto contenere uno o più record che avrebbe rappresentato quel determinato argomento con i campi chiavi espresse in una determinata lingua, e poi altri record rappresentanti lo stesso argomento (campo idi identico) con chiavi in un’altra lingua, e di nuovo altri elementi ancora che avrebbero rappresentato lo stesso argomento con chiavi in una terza lingua:

 

Nome campo

Valore

Nome campo

Valore

idi :

Oasi

Chiavi  ( italiano ) :

L’oasi di Bahariya, Oasi del deserto occidentale, ecc…

idi :

Oasi

Chiavi  ( inglese )  :

Bahariya oasis, Egyptian western desert oasis, ecc...

idi :

Oasi

Chiavi  ( linguaX)  :

chiave1X, chiave 2x, chiave3x… chiaveNX

 

            Questa struttura era applicabile teoricamente a qualsiasi lingua,[1] ed avrebbe consentito la realizzazione di quanto aspirato durante l’esposizione nella 2° parte relativa al concetto di C. L. I. R. [2]

            Tramite questa struttura, la procedura di estrazione dei documenti avrebbe potuto estrarre gli stessi record dalla tabella libri a prescindere sia da quale lingua fosse stata usata per la redazione della scheda bibliografica, sia da quale lingua fosse stata utilizzata per comporre la query d’interrogazione.  

Non solo, l’ontologia infor, divenuta multilingue, avrebbe consentito la possibilità per l’utente di formulare query multilingue miste, poiché l’interrogazione verso la tabella infor avrebbe avuto riferimento ai contenuti dei campi chiavi, ma avrebbe estratto lo stesso campo idi tramite cui interrogare la bibliografia digitale, ed il campo idi sarebbe stato raggiungibile sia tramite parole chiave inglesi, italiane o in linguaX.[3]

            Schematizzando dunque i processi relativi ad una query di ricerca libera:

 

·        L’utente avrebbe compilato il form, scelto l’opzione di ricerca,[4] e lanciata l’interrogazione,

 

·        Il sistema avrebbe ricevuto la query, tokenizzata, ed eseguito la prima funzione di select estraendo per ogni tokens della query il campo idi corrispondente (se presente)

 

·        Il sistema avrebbe generato una nuova funzione di select contenente i campi idi estratti dalla precedente interrogazione.

Sarebbero così estratti i documenti attinenti all’espressione di select.

 

·        I documenti estratti sarebbero stati visualizzati nel browser utente generando un indice puntato del tutto identico a quell'implementato per la realizzazione della ricerca per campi.

Ogni documento sarebbe stato munito di link alla pagina doc.php che ne avrebbe visualizzato, se selezionato, la scheda bibliografica completa.

 

Infor, la tabella inizialmente concepita per la semplice[5] realizzazione di una ricerca svincolata dai campi della tabella libri, e costruita per eseguire un’interrogazione al database ad un livello concettuale astratto e quindi superiore si era trasformata in una risorsa multilinguistica, realizzando efficientemente quanto proposto dall’aspetto del C.L.I.R. per un Multi Languages Information Access alla bibliografia digitale.

 



[1] Nella tabella rappresentata dalla linguaX, le cui chiavi, chiaveXN rappresentano stringhe di caratteri così come le chiavi esemplificate per l’Italiano e per l’Inglese.

Teoricamente perché la sua realizzazione pratica avrebbe sicuramente incontrato nuove difficoltà per la sua corretta implementazione, difficoltà di livello strutturale dovute alla sintassi di ciascun linguaggio, oppure ai problemi derivati dall’uso di alfabeti diversi e quindi dalla difficoltà di reperire i fonte unico de per poter scrivere correttamente le singole parole, ecc…

[2]  Il concetto di Cross Language Information Retrival, C.L.I.R.. è stato ampiamente affrontato nella 2° parte a cui è consigliabile rifarsi per un’adeguata comprensione delle problematiche proposte.

[3] Il sistema implementato avrebbe estratto gli stessi documenti sia da una query italiana, ad esempio le piste carovaniere, sia da una query inglese,ad esempio caravan’s routes, sia da una query mista, ad esempio le piste of caravans, grammaticalmente scorretta e praticamente improbabile, ma esempio che illustra efficacemente le potenzialità della struttura realizzata.

[4] L’opzione frase esatta, già sviluppata precedentemente, sarà ripresa successivamente. Per adesso è necessario esaminare le altre due opzioni, perché ad esse viene applicata la tokenizzazione della stringa di query.

[5] L’attributo “semplice” è relativo a quanto sviluppato oltre il primo obbiettivo prefissato, e non vuole sminuire il notevole livello di efficienza che già avrebbe avuto un sistema dotato della semplice ricerca libera monolingue.