2 Reperimento delle informazioni
2.1
MultiLingual
Information Access
La rapida diffusione del World Wide Web ha consentito un’enorme distribuzione delle risorse di comunicazione, disseminando una grande mole di documenti per tutto il mondo.
Questa situazione ha visto l’espansione parallela dei linguaggi rappresentati a quella verificatasi per l’utenza di Internet, situazione che avrebbe richiesto di ovviare all’impostazione iniziale ormai inaccettabile di reperibilità delle informazioni basata su standard di lingua inglese.[1]
La rapida e più recente diffusione della tecnologia del World Wide Web ha dunque prodotto una espansione enorme del numero di pagine redatte e di utenti parlanti lingua non inglese.[2]
Proprio sulla base di questi dati statistici sono state sviluppate tutte quelle strutture necessarie all’implementazione di sistemi funzionanti per il reperimento delle informazioni presenti sul web a prescindere dal linguaggio di redazione ed indipendentemente dalla lingua parlata dall’utente.[3]
Il termine MultiLingual Information Access utilizzato nelle sue accezioni più ampie, vuole riassumere e riferirsi a tutte quelle problematiche incontrate nello sviluppo dei sistemi di rappresentazione, archiviazione, interrogazione e reperimento delle informazioni di banche dati ad ogni livello di precisione e specificità.
Esso avrebbe indicato anche tutte quelle strutture specificatamente dedicate e necessarie alla gestione di corpora multiligue, e dunque l’identificazione della lingua di redazione,[4] la decodifica dei caratteri,[5] strutture di indicizzazione di corpora testuali multilinguistici, tecnologie di Cross-Language (o Cross-Lingual) Information Retrival,[6] e tutte quelle strutture da implementare per lo sviluppo della fase successiva al reperimento dei documenti, e cioè la visualizzazione, e dunque la presentazione, la sommarizzazione e la traduzione automatica dei risultati di una interrogazione.[7]
Dunque lo studio e lo sviluppo di strumenti e tecnologie per il MultiLanguage Information Access riguarda un'area di studio multidisciplinare dove sarebbero confluite metodologie e strumentazioni sviluppate nel campo del Natural Language Processing (Multiple Language Recognition, Manipulation e Display) e dell'Information Retrival (Multilanguage o Cross Language Search e Cross Language Retrival).
[1] Basti pensare ai primi motori di ricerca: Yahoo, AltaVista e Lycos, ec… e questo pechè la diffusione del web sarebbe inizialmente avvenuta in ambienti accademici o comunque sufficientemente istruiti per una comprensione soddisfacente della lingua inglese.
[2] First DELOS International Summer School on Digital Library
Technologies,
Nel suo intervento, Carol Peters (IEI-CNR) ha descritto lo stato delle ricerche sullo sviluppo dei sistemi e delle tecnologie per il MultiLingual Information Access (M.L.I.A.), che consente l'archiviazione, il recupero e l'accesso a informazioni in tutte le lingue, e del Cross Language Information Retrival (C.L.I.R.), che permette di svolgere una ricerca in una sola lingua e poter recuperare documenti in varie lingue.
Se infatti fino ad oggi Internet è stato dominato dalla lingua inglese, già da tempo si assiste ad un aumento significativo di documenti in lingue diverse; di conseguenza cresce la richiesta, da parte delle comunità di utenti non anglofone, che siano sviluppati quei sistemi che favoriscono l'accesso all'informazione a prescindere da ogni barriera linguistica e culturale.
Tutto questo ha un impatto molto forte sulle nostre attività, in particolare nel campo della formazione, dell'e-commerce e del divertimento, soprattutto dal momento che Internet viene sempre di più utilizzato non solo dal mondo accademico, ma da un'utenza generalizzata
Molti altri aspetti che caratterizzano la costruzione delle digital libraries sono stati trattati durante il corso: Norbert Fuhr (Università di Dortmund) ha spiegato l’applicazione dell’information retrival al mondo delle biblioteche digitali, sottolineando l'importanza di modelli concettuali adeguati (per esempio gli FRBR dello IFLA) in grado di descrivere i tipi di oggetti e le relazioni esistenti tra loro.
Andreas Paepke (Stanford University) ha descritto le problematiche relative all'elaborazione di un'interfaccia che sia sempre più semplice per l'utente ma contemporaneamente dotata di una struttura sempre più forte e funzionale.
Ha portato l'esempio della tecnologia dei microcomputer che, a causa delle ridotte dimensioni, rende necessario un'attenzione particolare alle interfacce.
[3] Un sistema di ricerca delle informazioni, Information Retrival System, I.R.S., è
un corredo di strumenti che consentono di esplorare una collezione di
documenti.
Il
funzionamento di un sistema di ricerca delle informazioni si articola in tre
compiti fondamentali:
Anche se, per
chi lo usa, l'importanza maggiore va all'efficacia della presentazione, il
ruolo predominante è quello della costruzione degli indici.
Un'operazione
di ricerca prende di solito le mosse da un'interrogazione da parte di un
utente; il risultato ideale è l'insieme dei documenti che la soddisfano.
Il
significato di "soddisfare un'interrogazione" dipende dalla forma di
questa, dalle intenzioni di chi interroga e da altre caratteristiche del
sistema. Nel caso più semplice, può significare "contenere una o più delle
parole che formano l'interrogazione".
In casi più
complessi, si può giudicare se un documento soddisfa un'interrogazione solo con
l'uso di tecniche di trattamento del linguaggio, tecniche statistiche, di
psicologia del lavoro e altro.
Infine, il
risultato deve essere presentato all'utente in modo utile, sia per una
comprensione immediata sia per poter formulare di nuovo l'interrogazione
rapidamente e seguendo una strategia di ricerca.
Un'interrogazione
può essere anche implicita: è il caso dei cosiddetti "recommender
systems", il cui compito è analizzare gli interessi dell'utente (ad
esempio, registrando sessioni di ricerca precedenti e documenti già consultati),
estrarre dei termini chiave con i quali avviare una ricerca autonomamente -
tecnicamente in "batch mode" - e presentare periodicamente i
risultati.
Ogni
operazione di ricerca fa cardine su un indice, che può essere anche costruito
automaticamente.
Infatti, se la collezione di documenti è in forma elettronica, degli indicizzatori automatici possono sfruttare in vario modo le parole presenti nei testi e la loro rilevanza - data, ad esempio, dal numero di occorrenze o dalla posizione nel testo - per costruire degli indici. I cosiddetti motori di ricerca disponibili in rete sono costruiti a partire da indicizzatori automatici.
[4] Sia della lingua di redazione dei documenti archiviati, sia del linguaggio usato dall’utente esecutore dell’interrogazione e quindi destinatario dei dati estratti dal web.
[5] Il problema di UNICODE
[6] C.L.I.R.
[7] La
precisa definizione terminologica delle accezioni attribuite al termine M.L.I.A. è ardua poiché essa riguarda la
definizione di una nuova area multidisciplinare caratterizzata da una
terminologia non ancora del tutto stabile e definita. A volte il termine M.L.I.A. è affiancato ad altri gruppi di applicazioni, come ad
esempio il MultiLingual Information Retrival, invece riferito a quel gruppo
di sistemi sviluppati per il recupero delle informazioni monolingue relative
eccetto l’Inglese, come il sistema di Text
REtrival Conferences, T.R.E.C.,
implementata per operazioni di I.R.
sulla lingua spagnola.
Altro termine introdotto dall’agenzia D.A.R.P.A.., US Defence Advanced Research Projects Agency, è Translingual Information Retrival, usato per indicare una serie di tecnologie, tra le quali il C.L.I.R., dedicate al reperimento, la visualizzazione e l’amministrazione di corpora di documenti multilinguistici.