Investigación Lingüística

Proyecto de investigación sobre léxico computacional bilingüe somalí-italiano.

La Fundación Rut ha puesto en marcha un proyecto de investigación en colaboración con la Sociedad Geográfica Italiana para la construcción de un léxico computacional bilingüe somalí-italiano dedicado a la era de la expansión colonialista de Italia en África.

La primera fase del proyecto se centra en la extracción y sistematización de términos extraídos de los cuadernos escritos por el explorador Ugo Ferrandi. Los cuadernos constituyen una auténtica mina de información lingüística: para describir objetos, conceptos y fenómenos típicos de la cultura somalí, Ferrandi recoge una gran cantidad de términos indígenas, retratando así una fase antigua de la lengua somalí tal como la hablaban los pastores y los agricultores nómadas en el siglo XIX. Período precolonial, anterior a la llegada de las potencias europeas.

La primera fase del proyecto se centra en la extracción y sistematización de los términos relatados por Ferrandi en sus cuadernos. Cuando es posible, la descripción de las palabras se enriquece con información extraída del léxico somalí incorporado al Corpus somalí creado por Jama Musse Jama (2006). El corpus anotado y equilibrado (incluye textos tanto de poesía como de prosa literaria y científica) incorpora, de hecho, un léxico somalí con información lingüística relativa a las palabras presentes en el corpus, como frecuencia, colocaciones, etimología, sinónimos y antónimos, ortografía. variantes, definiciones extraídas de una lista de diccionarios de referencia, así como traducciones al inglés, italiano, francés y sueco.

Sin embargo, dado que el léxico del corpus está codificado en un formato propietario, la conexión con nuestro recurso termino-ontológico no puede realizarse sin la previa conversión del léxico del corpus al modelo Lemon. El proceso de conversión incluye una fase intermedia en la que se transforma el formato propietario al formato CONLL-U (Conference on Natural Language Learning. Fue Luego desarrolló una aplicación tecnológica para convertir automáticamente anotaciones lingüísticas en formato CoNLL en datos vinculados (modelo OntoLex-Lemon).

Este programa se aplicará al corpus somalí anotado para estructurar los términos de interés en una terminología computacional. Además, para permitir una fase inicial de anotación de los corpus de referencia del proyecto, se ha desarrollado una interfaz de usuario temporal, que también es útil para apoyar el proceso de definición de los requisitos del usuario que conducirá al desarrollo de la herramienta de anotación definitiva. Las tecnologías utilizadas son consistentes con lo que se espera para las siguientes fases de desarrollo. La herramienta permite a los estudiosos anotar un primer grupo de textos judíos con información léxica, tanto en su idioma original como en su traducción al italiano.

Análisis de la Lengua Hebrea:

Construcción de un recurso terminológico bilingüe Hebreo-Italiano tomado del libro de Rut.

La Fundación Rut ha iniciado trabajos para la construcción de un recurso terminológico digital a partir del análisis computacional del libro de Rut, texto contenido en la Biblia hebrea y cristiana, escrito en hebreo y su redacción, de autores desconocidos, es situada por diversos estudiosos entre los siglos V y II a.C…

Se analizan los campos semánticos del Libro de Rut (Agricultura y nutrición, Sociedad y política, Familia, Unidad de medida, Cuerpo y sus partes, Geullà/Redención, Yibbùm/Levirate, Tiempo, Espacio, Dios) y posteriormente se analizan las palabras relacionadas. identificados a cada uno de ellos, anotando metódicamente cada verso en el que aparecen.

Luego se seleccionaron para un análisis inicial los términos pertenecientes a los campos Familia, Unidad de medida, Cuerpo y sus partes. Una vez definidos los principales campos semánticos, se procedió a la descripción formal de la semántica de algunos términos hebreos según la teoría del Diccionario Explicativo y Combinatorio (DEC) desarrollado por Igor Mel’chuk dentro del modelo Sense-Text.

Según esta teoría, las entradas de un léxico pueden concebirse como entidades trilaterales que incluyen:
  • Un sentido, una forma fonética o gráfica;
  • Características combinatorias (por ejemplo, distribución sintáctica).

Por lo tanto, cada entrada de nuestro léxico estaba asociada con:
  • Información semántica: definición acompañada generalmente de una forma proposicional, en la que se hacen explícitos los actantes introducidos por la unidad léxica;
  • Información sintáctica (régimen): se especifican todas las posibles combinaciones sintácticas en las que puede aparecer cada uno de los actantes semánticos identificados en la definición del término en cuestión;
  • Información léxica combinatoria (funciones léxicas): a través de funciones léxicas se especifican las relaciones semánticas que existen entre un lexema temático X (la palabra clave) y otros lexemas Y del léxico.

En esta fase del trabajo, el análisis se centró en el estudio de algunos términos relativos a la Familia. El ámbito semántico, aunque limitado, permitió investigar el concepto de matrimonio en la antigua civilización judía y sus similitudes con la institución jurídica del matrimonium en el mundo romano de la época. El repertorio terminológico también se organizó en un mapa conceptual útil para la formalización ontológica del dominio de interés.

Proyecto de Investigación Metatextual “La Divina Enfermedad”.

La Fundación Rut ha activado una colaboración con la «Associazione Teatro Patologico» para la creación de una pieza teatral que tiene como objetivo estimular el interés y la atención del público y de las instituciones sobre cuestiones relacionadas con la lucha contra la marginalidad y favorecer la regeneración social.

El espectáculo está inspirado en la Divina Comedia de Dante Alighieri y Estará dirigida por el fundador de la Asociación, Dario D’Ambrosi e interpretada por niñas y niño discapacitado.

La representación del espectáculo tuvo lugar los días 23 y 24 Septiembre de 2023 en Nápoles.

Redacción del Plan de Gestión de Datos.

La Gestión de Datos del proyecto está soportada por la infraestructura de CLARIN y su repositorio nacional, ILC4CLARIN. ILC4CLARIN albergará los corpus y léxicos del proyecto y apoyará al equipo en su descripción y publicación, en línea con los principios FAIR y de ciencia abierta.

El Plan de Gestión de Datos (DMP) será un documento constantemente actualizado, pero se espera un primer borrador este año, describiendo los conjuntos de datos en términos de procedencia, cuestiones legales, formatos y estándares, preservación durante las fases del proyecto y al final, accesibilidad, reutilización. El plan de redacción del DMP se desarrolló durante dos reuniones con los miembros del proyecto.

Se han identificado los siguientes elementos:
  • Modelo de descripción de datos, optando por el propuesto por Science Europe, hacia el que están convergiendo numerosos proyectos a nivel europeo;
  • La herramienta utilizada para la redacción, Argos, también conectada al Scientific Knowledge Graph de la plataforma OpenAIRE.

Dentro del proyecto de análisis de la lengua somalí, los investigadores que colaboran en el proyecto de la Fundación Rut fueron invitados a presentar sus trabajos y aportaciones científicas al prestigioso congreso internacional de antologías “TOTh – Terminología & Ontología: Teorías y aplicaciones” Chambery – Francia.

Financiación de doctorados de investigación con la "Universidad Suor Orsola Benincasa".

La Fundación Rut se suma a la Escuela Nacional de Doctorados en Ciencias Religiosas remunerando dos becas de doctorado en la Universidad Suo Orsola Benincasa de Nápoles en el plan de estudios de Transdisciplinariedad.
Estudio e Investigación

Las áreas de Rut