Ricerca Linguistica

Progetto di Ricerca Lessico Computazionale Bilingue Somalo-Italiano.

La Fondazione Rut ha avviato un progetto di ricerca in collaborazione con la Società Geografica Italiana per la costruzione di un lessico computazionale bilingue somalo-italiano dedicato all’epoca dell’espansione colonialista dell’Italia in Africa.

La prima fase del progetto si sta concentrando sull’estrazione e sulla sistematizzazione dei termini tratti dai taccuini redatti dall’esploratore Ugo Ferrandi. I taccuini costituiscono una vera e propria miniera di informazione linguistica: per descrivere oggetti, concetti e fenomeni propri della cultura somala Ferrandi riporta una pletora di termini indigeni, ritraendo così una fase antica della lingua somala così come era parlata da pastori e agricoltori nomadi in epoca precoloniale, prima dell’avvento delle potenze europee.

La prima fase del progetto si sta concentrando sull’estrazione e sulla sistematizzazione dei termini riportati dal Ferrandi nei suoi taccuini. Quando possibile, la descrizione delle parole viene arricchita con informazioni tratte dal lessico somalo incorporato nel Somali Corpus realizzato da Jama Musse Jama (2006). Il corpus annotato e bilanciato (comprende testi sia della poesia sia della prosa letteraria e scientifica) incorpora, infatti, un lessico somalo con informazioni linguistiche relative alle parole presenti nel corpus, quali frequenza, collocazioni, etimologia, sinonimi e contrari, varianti ortografiche, definizioni tratte da un elenco di dizionari di riferimento nonché traduzioni in inglese, italiano, francese e svedese.

Tuttavia, poiché il lessico del corpus è codificato in un formato proprietario, il collegamento con la nostra risorsa termino-ontologica non può essere effettuato senza la precedente conversione del lessico del corpus nel modello lemon. Il processo di conversione prevede una fase intermedia in cui il formato proprietario viene trasformato nel formato CONLL-U (Conference on Natural Language Learning). È stato quindi sviluppato un applicativo tecnologico per convertire automaticamente annotazioni linguistiche in formato CoNLL in linked data (modello OntoLex – Lemon). Tale programma sarà applicato al corpus annotato del somalo per strutturare i termini di interesse in una terminologia computazionale.

Per consentire una prima fase di annotazione dei corpora di riferimento del progetto, inoltre, è stata sviluppata un’interfaccia utente temporanea, utile anche a supportare il processo di definizione dei requisiti utente che porterà allo sviluppo dello strumento di annotazione definitivo. Le tecnologie in uso sono coerenti con quanto previsto per le fasi successive di sviluppo. Il tool consente agli studiosi di annotare con informazioni lessicali un primo gruppo di testi ebraici, sia sulla loro parte in lingua originale che su quella in traduzione italiana.

Analisi della lingua Ebraica.

Costruzione di una Risorsa Terminologica Bilingue Ebraico-Italiano tratta dal libro di Rut.

La Fondazione Rut ha avviato un lavoro per la costruzione di una risorsa digitale terminologica partendo dall’analisi computazionale del libro di Rut, un testo contenuto nella Bibbia ebraica e cristiana, scritto in ebraico e la sua redazione, ad opera di autori ignoti, è collocata dai diversi studiosi tra il V e il II secolo a.c..

Si è quindi proceduto a definire diversi campi semantici nel Libro di Rut (Agricoltura e alimentazione, Società e politica, Famiglia, Unità di misura, Corpo e sue parti, Gheullà/Redenzione, Yibbùm/Levirato, Tempo, Spazio, Dio) e individuare le parole legate a ognuno di essi, annotando metodicamente ogni versetto in cui esse appaiono.

Sono stati poi selezionati per una prima analisi i termini appartenenti ai campi Famiglia, Unità di misura, Corpo e sue parti. Definiti i campi semantici principali, si è quindi proceduto alla descrizione formale della semantica di alcuni termini ebraici secondo la teoria del Dizionario esplicativo e combinatorio (DEC) messa a punto da Igor Mel’čuk nell’ambito del modello Senso-Testo.

Secondo questa teoria, le entrate di un lessico possono essere concepite come entità trilaterali che comprendono:
  • Un senso, una forma fonetica o grafica;
  • Tratti combinatori (ad esempio, distribuzione sintattica).

Ad ogni entrata del nostro lessico è stata quindi associata:
  • Una informazione semantica: una definizione in genere accompagnata da una forma proposizionale, nella quale vengono esplicitati gli attanti introdotti dalla unità lessicale;
  • Una informazione sintattica (regime): sono specificate tutte le combinazioni sintattiche possibili nelle quali può figurare ciascuno degli attanti semantici individuati nella definizione del termine in esame;
  • Una informazione lessico combinatoria (funzioni lessicali): attraverso delle funzioni lessicali vengono specificate le relazioni semantiche che sussistono tra un lessema argomento X (la parola chiave) ed altri lessemi Y del lessico.

In tale fase del lavoro, l’analisi si è concentrata sullo studio di alcuni termini relativi alla Famiglia. La sfera semantica, seppur circoscritta, ci ha consentito di indagare il concetto di matrimonio nell’antica civiltà ebraica e delle sue similitudini con l’istituzione giuridica del matrimonium nel mondo romano dell’epoca. Il repertorio terminologico è stato inoltre organizzato in una mappa concettuale utile alla formalizzazione ontologica del dominio di interesse.

"La Divina Malattia” Progetto di Ricerca Metatestuale.

Fondazione Rut ha attivato una collaborazione con l’“Associazione Teatro Patologico” per la realizzazione di un pièce teatrale che abbia l’obiettivo di stimolare l’interesse e l’attenzione del pubblico e delle istituzioni sulle tematiche legate al contrasto alla marginalità e a favorire la rigenerazione sociale.

Lo spettacolo si ispira alla Divina Commedia di Dante Alighieri e verrà diretto dal fondatore dell’Associazione, Dario D’Ambrosi e interpretato da ragazze e ragazzi diversamente abili.

La rappresentazione dello spettacolo si è realizzta, il 23 e 24 settembre 2023 a Napoli.

Redazione del "Data Management Plan".

La gestione dei dati del progetto è supportata dall’infrastruttura CLARIN e dal suo repository nazionale, il ILC4CLARIN. ILC4CLARIN ospiterà i corpora e lessici del progetto e provvederà a supportare il team nella descrizione e pubblicazione degli stessi, in linea con i principi FAIR e della scienza aperta.

Il Data Management Plan (DMP), ovvero il piano di gestione dei dati del progetto, sarà un documento costantemente aggiornato, ma una prima stesura è prevista per quest’anno, descrivendo i dataset in termini di provenienza, questioni legali, formati e standard, preservazione durante le fasi del progetto e al termine dello stesso, accessibilità, riusabilità. Il piano di redazione del DMP è stato sviluppato nel corso di due riunioni con i componenti del progetto.

Sono stati identificati i seguenti elementi:
  • Modello di descrizione dei dati, optando per quello proposto da Science Europe, verso cui stanno convergendo molti progetti a livello europeo;
  • Lo strumento utilizzato per la redazione, Argos, collegato anche allo Scientific Knowledge Graph della piattaforma OpenAIRE.

All’interno del progetto sull’Analisi della Lingua Somala, i ricercatori che collaborano sul progetto della Fondazione Rut sono stati invitati a presentare il proprio lavoro e il contributo scientifico al prestigioso convegno internazionale sulle antologie “TOTh – Terminology & Ontology: Theories and applications” Chambery – Francia.

Finanziamento Dottorati di Ricerca con l'"Università Suor Orsola Benincasa".

Fondazione Rut aderisce alla Scuola Nazionale dei Dottorati in Scienze Religiose remunerando due borse di dottorato presso l’Università Suor Orsola Benincasa di Napoli nel curriculum Transdisciplinarietà.
Studio e Ricerca

Gli ambiti di Rut