Ricerca Linguistica

Progetto di ricerca lessico computazionale e bilingue somalo-italiano

Fondazione Rut, in collaborazione con la Società Geografica Italiana, ha avviato un progetto di ricerca dedicato alla costruzione di un lessico computazionale bilingue somalo-italiano relativo al periodo dell’espansione coloniale italiana in Africa.

L’iniziativa si concentra sull’estrazione e la sistematizzazione dei termini contenuti nei taccuini dell’esploratore Ugo Ferrandi, preziosa fonte di dati linguistici e culturali. Nei suoi appunti, Ferrandi registra numerosi termini indigeni utilizzati per descrivere oggetti, concetti e fenomeni propri della cultura somala, offrendo così uno spaccato autentico della lingua somala precoloniale, quale era parlata da pastori e agricoltori nomadi prima dell’arrivo delle potenze europee.

Finora sono stati estratti oltre 600 termini appartenenti a diversi ambiti semantici: flora e fauna, abitazioni, rituali matrimoniali e funebri, folklore, feste, abbigliamento, giochi, arredamento domestico, armi e organizzazione sociale.

I termini analizzati riguardano in gran parte oggetti della vita quotidiana – dai mobili agli utensili agricoli, dagli strumenti per l’allevamento agli oggetti personali e alle armi. Questi elementi compongono un mosaico dettagliato della vita materiale delle popolazioni somale prima delle profonde trasformazioni del XX secolo. Oggi, di fronte alla rapida scomparsa di molti manufatti artigianali sostituiti da prodotti industriali locali o d’importazione, la documentazione di tali oggetti assume un’importanza cruciale: senza una registrazione sistematica, saperi tramandati per generazioni rischiano di andare perduti per sempre.

I termini riportati da Ferrandi sono stati collegati, quando possibile, ai corrispettivi del somalo contemporaneo, al fine di ricostruirne l’evoluzione storica. I concetti analizzati sono inoltre organizzati in una ontologia, ovvero una rete di informazioni che consente di esplorare in modo interattivo le relazioni tra parole, oggetti e significati. Grazie a sofisticati strumenti di interrogazione, è possibile indagare aspetti specifici della cultura materiale somala di oltre un secolo fa, contribuendo alla preservazione di un patrimonio linguistico e culturale di inestimabile valore.

Struttura tecnologica e linguistica del progetto

La prima fase del progetto si concentra sull’estrazione e la sistematizzazione dei termini individuati nei taccuini di Ferrandi. Quando disponibile, la descrizione dei lemmi viene arricchita con informazioni tratte dal Somali Corpus realizzato da Jama Musse Jama (2006), un corpus bilanciato e annotato che comprende testi poetici, letterari e scientifici. Il lessico incluso nel corpus fornisce dati linguistici fondamentali – come frequenza, collocazioni, etimologia, sinonimi e contrari, varianti ortografiche, definizioni tratte da dizionari di riferimento, nonché traduzioni in inglese, italiano, francese e svedese.

Poiché tuttavia il lessico del corpus è codificato in un formato proprietario, il suo collegamento alla risorsa termino-ontologica del progetto richiede una conversione preliminare nel modello “lemon”. Tale processo prevede una fase intermedia di trasformazione nel formato CONLL-U (Conference on Natural Language Learning). A questo scopo è stato sviluppato un applicativo tecnologico in grado di convertire automaticamente le annotazioni linguistiche in formato CoNLL in linked data secondo il modello OntoLex-Lemon. Il programma sarà applicato al corpus annotato del somalo per strutturare i termini di interesse all’interno di una terminologia computazionale coerente e interoperabile.

Per supportare la fase di annotazione dei corpora di riferimento, è stata inoltre sviluppata una interfaccia utente temporanea, utile sia per l’annotazione dei testi sia per la definizione dei requisiti funzionali che guideranno lo sviluppo dello strumento definitivo. Le tecnologie adottate sono pienamente coerenti in tutte le fasi di sviluppo della ricerca. 

Il tool utilizzato consente agli studiosi di annotare testi con informazioni lessicali, operando sia sulla parte in lingua originale sia sulla traduzione italiana, e rappresenta un passo essenziale verso la creazione di un ecosistema digitale integrato per la documentazione e lo studio della lingua e della cultura somala.

arrow_upward