Ricerca Linguistica
Progetto Fondamentalismi
Il lavoro presenta un esperimento pilota che esplora l’uso dei modelli linguistici di grandi dimensioni (Large Language Models, LLM) nel contesto dell’Analisi Critica del Discorso (Critical Discourse Analysis, CDA).
La CDA esplora i meccanismi attraverso i quali il discorso, inteso come qualsiasi forma di evento comunicativo e come una pratica sociale, contribuisce al mantenimento o alla sovversione delle relazioni di potere. Questa ricerca analitica vuole rendere visibili le ideologie nascoste nel discorso, che non è mai neutrale.
L’approccio proposto prevede la costruzione di uno standard di riferimento basato sul consenso, ottenuto dalle annotazioni di tre valutatori umani, utilizzato poi per valutare l’accuratezza di un’analisi automatica eseguita dal LLM.
Il caso di studio esamina un corpus di trenta articoli d’opinione provenienti da giornali ideologicamente diversi, per indagare la rappresentazione mediatica dell’attacco di Hamas a Israele del 7 Ottobre 2023. Le testate scelte sono The Jerusalem Post (TJP), The Electronic Intifada (TEI) e The Washington Post (TWP); per ognuna di queste sono stati raccolti 10 articoli.
È stato creato un set di 8 domande, basate in particolare sulla teoria di Van Dijk, uno dei principali esponenti della CDA che dedica particolare attenzione all’analisi delle news. Le domande mirano a indagare le strategie discorsive e le rappresentazioni ideologiche presenti nei testi esaminati.
Le domande sono state somministrate a tre valutatori umani e al contempo all’intelligenza artificiale, dopo una rielaborazione sotto forma di prompt. In particolare, abbiamo usato Gpt-4o interrogato attraverso l’interfaccia ChatGPT. Data la frequente natura non deterministica dell’intelligenza artificiale, ciascuna domanda gli è stata sottoposta 5 volte.
Dopo aver raccolto le risposte sia degli annotatori umani che del LLM in un foglio di lavoro, è stato calcolato prima l’inter-agreement tra i 3 valutatori umani e poi quello tra le 5 risposte del LLM.
In seguito, è stato stabilito un gold standard di riferimento basato sul consenso. I risultati ottenuti hanno evidenziato sia i punti di forza dell’intelligenza artificiale applicata alla CDA, sia i suoi limiti e criticità.
Tra i primi, è emerso che il LLM:
- riconosce in maniera adeguata caratteristiche esplicite del discorso
- individua accuratamente i temi salienti e il loro ruolo nella narrativa
- identifica adeguatamente il ruolo degli attori principali.
Tra i secondi, invece, rileviamo che l’intelligenza artificiale:
- non sempre distingue le caratteristiche implicite del discorso
- non sempre identifica correttamente gli eufemismi. Infatti, tra questi talvolta riporta
- termini fortemente denotativi, come “mass slaughter” (massacro di massa) e “carnage” (carneficina).
- talvolta interpreta erroneamente espressioni disumanizzanti. Difatti, ha riconosciuto espressioni come “Zionist aggression” (aggressione sionista) e “Zionist arrogance” (arroganza Sionista) come espressioni disumanizzanti.
Questo esperimento pilota rafforza l’idea che i LLM non possano essere considerati sostituti degli analisti critici umani, ma strumenti di supporto che possono assistere nell’esplorazione di grandi corpora, a evidenziare caratteristiche salienti del discorso e a generare considerazioni preliminari.
Fondamentalismi 2.0
Il lavoro di ricerca Fondamentalismi si pone come obiettivo quello di creare una risorsa lessicale multilingue dei termini antisemiti.
Il progetto prevede un focus diacronico incentrato sull’evoluzione e sull’etimologia delle parole d’odio, che hanno contribuito alla nascita e alla diffusione del fondamentalismo religioso di matrice islamica. Lo scopo ultimo di questo progetto, è proprio quello di risalire alle radici di tale fenomeno.
Le lingue che sono state individuate quali oggetto di studio sono l’italiano, l’inglese e l’arabo. Le epoche di interesse che abbiamo individuato sono, invece, quattro e sono:
- l’epoca contemporanea
- Il ‘900
- 1200-1300
- I-II secolo d.C
Per ognuna di queste epoche abbiamo identificato diverse fonti da analizzare, ovvero:
- 5 dataset presi da piattaforme open source quali Kaggle e Zenodo, che raccolgono dei dati estratti dai social e dati raccolti dall’Osservatorio dell’antisemitismo
- Un testo di Sayyid Qutb “La nostra lotta contro gli ebrei” e un testo di origini russe “I protocolli degli anziani di Sion”
- Un testo di Ibn Taymiyya “Expounds on Islam” e alcune prediche antiebraiche cristiano di Bernardino da Feltre e Giovanni da Capistrano.
- Le “Historiae” di Tacito.
Tra i temi chiave che sono ricorrenti e che influenzano l’ideologia antisemita, ne abbiamo in particolare considerati 4:
1- Politico (riguarda temi come il colonialismo, il sionismo, l’imperialismo, la lobbying ebraica, ecc.)
2- Religioso (deicidio, gli ebrei considerati come nemici di Dio, come l’anticristo, ecc.)
3- Economico (le convinzioni secondo le quali gli ebrei sono usurai, strozzini, mercanti, ecc.)
4- Biologico (riguarda temi come la bestialità, disumanità, l’accusa del sangue ecc.)
Sulla base di questi temi chiave stiamo indicando delle keywords:
Il progetto prevede di formalizzare digitalmente la risorsa in accordo ai principi dei Linguistic Linked Open Data e del Web Semantico, e di renderla consultabile e agganciabile ad altre risorse.