Encontrada(s) 2 página(s)
HESML V1R5 JAVA SOFTWARE LIBRARY OF ONTOLOGY-BASED SEMANTIC SIMILARITY MEASURES AND INFORMATION CONTENT MODELS
- Lastra-Díaz, Juan J.
- Lara-Clares, Alicia
- Garcia-Serrano, Ana
WORD SIMILARITY BENCHMARKS OF RECENT WORD EMBEDDING MODELS AND ONTOLOGY-BASED SEMANTIC SIMILARITY MEASURES
- Lastra-Díaz, Juan J.
- Goikoetxea, Josu
- Hadj Taieb, Mohamed Ali
- Garcia-Serrano, Ana
- Ben Aouicha, Mohamed
- Agirre, Eneko
HESML V2R1 JAVA SOFTWARE LIBRARY OF SEMANTIC SIMILARITY MEASURES FOR THE BIOMEDICAL DOMAIN
- Lara-Clares, Alicia
- Lastra-Díaz, Juan J.
- Garcia-Serrano, Ana
REPRODUCIBLE EXPERIMENTS ON THE MASTER THESIS: AN EXPERIMENTAL SURVEY OF NAMED ENTITY RECOGNITION METHODS IN THE BIOMEDICAL DOMAIN
- Hennig, Sebastian
- Garcia-Serrano, Ana
REPRODUCIBLE EXPERIMENTS ON WORD AND SENTENCE SIMILARITY MEASURES FOR THE BIOMEDICAL DOMAIN
- Lara-Clares, Alicia
- Lastra-Díaz, Juan J.
- Garcia-Serrano, Ana
This dataset introduces a set of reproducibility resources with the aim of allowing the exact replication of the experiments introduced by our main paper, which is a reproducible experimental survey on biomedical sentence similarity with the following aims: (1) to elucidate the state of the art of the problem; (2) to solve some reproducibility problems preventing the evaluation of most of current methods; (3) to evaluate several unexplored sentence similarity methods; (4) to evaluate for the first time an unexplored benchmark, called Corpus-Transcriptional-Regulation (CTR); (5) to carry out a study on the impact of the pre-processing stages and Named Entity Recognition (NER) tools on the performance of the sentence similarity methods; and finally, (6) to bridge the lack of software and data reproducibility resources for methods and experiments in this line of research. This dataset sets a self-contained reproducibility platform which contains the Java source code and binaries of our main benchmark program, as well as a Docker image which allows the exact replication of our experiments in any software platform supported by Docker, such as all Linux-based operating systems, Windows or MacOS. Our benchmark program is distributed with the UMLS SNOMED-CT and MeSH ontologies by courtesy of the US National Library of Medicine (NLM), as well as all needed software components with the aim of making the setup process easier. Our Docker image provides an exact virtual replica of the machine in which we ran our experiments, thus removing the need to carry-out any tedious setup process, such as the setup of the Python virtual environments and other software components.
HESML library is freely distributed for any non-commercial purpose under a CC By-NC-SA-4.0 license, subject to the citing of the two mains HESML papers [17] as attribution requirement. However, HESML distribution also includes other datasets, databases or data files whose use require the attribution acknowledgement by any user of HEMSL. Thus, we urge to the HESML users to fulfill with licensing terms related to other resources distributed with the library as detailed in its companion release notes.
FORMAL CONCEPT ANALYSIS FOR TOPIC DETECTION: A CLUSTERING QUALITY EXPERIMENTAL ANALYSIS
- Castellanos, Angel
- Cigarrán, Juan
- Garcia-Serrano, Ana
REPRODUCIBILITY DATASET FOR A BENCHMARK OF BIOMEDICAL SEMANTIC MEASURES LIBRARIES
- Lastra-Díaz, Juan J.
- Lara-Clares, Alicia
- Garcia-Serrano, Ana
MATERIALES PARA LA EVALUACIÓN DE ARTEXT POR PARTE DE ESTUDIANTES UNIVERSITARIOS DE DERECHO
- Sara Pistola Grille
- Iria Da Cunha Fanego
- Susana Viñuales Ferreiro
El contenido de este dataset es resultado de la investigación llevada a cabo en el proyecto "Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro" (TIC-eADMIN), cuyo principal objetivo era desarrollar, en el contexto de la e-Administración, una herramienta TIC en línea de ayuda a la redacción de textos administrativos en español por parte de empleados públicos, para contribuir a que los textos que reciba la ciudadanía estén redactados en lenguaje claro. Esta herramienta ya se ha desarrollado y puede utilizarse gratuitamente en línea desde el siguiente enlace: www.sistema-artext.com. Además, uno de los objetivos específicos del proyecto era analizar y sistematizar los rasgos lingüísticos prototípicos de algunos géneros textuales del ámbito de la Administración.
Asimismo, el contenido de este dataset está relacionado con la investigación que se está llevando a cabo en el proyecto "Un prototipo tecnológico para la redacción en lenguaje claro: incorporación en la Administración pública y análisis de su impacto en la ciudadanía" (arText_IMPACT), que tiene como uno de sus objetivos principales evaluar el impacto del uso del sistema arText en diferentes colectivos de la ciudadanía española.
, Descripción del datasetEste dataset contiene los materiales empleados para evaluar arText en el marco de los estudios universitarios de derecho de la UNED. Para llevar a cabo la evaluación, se planteó una propuesta de Trabajo de Fin de Grado (TFG) que incluía una tarea de escritura de textos administrativos utilizando el sistema arText. Esta propuesta se puso en práctica con 22 estudiantes del Grado en Ciencias Jurídicas de las Administraciones Públicas de la UNED. En el marco de esta propuesta se diseñaron tres documentos que se pusieron a disposición del alumnado: unas instrucciones sobre cómo llevar a cabo el TFG, una rúbrica de evaluación y una encuesta para determinar la percepción de los estudiantes sobre la propuesta de TFG y sobre el uso del sistema arText. Asimismo, se cuantificaron los resultados de la encuesta.
, Metodología (empleada para la recogida o generación de los datos)La metodología empleada para la obtención de los datos incluye siete etapas:
- Etapa 1. Selección de la muestra de estudiantes universitarios que puedan evaluar arText. Se seleccionan 22 estudiantes de la asignatura de TFG (último curso) del grado en Ciencias Jurídicas de las Administraciones Públicas de la UNED.
- Etapa 2. Diseño de una propuesta de TFG que incorpore el uso de arText para redactar textos administrativos.
- Etapa 3. Diseño de unas instrucciones para explicar al alumnado cómo llevar a cabo la propuesta.
- Etapa 4. Diseño de una rúbrica de evaluación.
- Etapa 5. Diseño de una encuesta para evaluar la percepción del alumnado sobre la propuesta de TFG y sobre el uso de arText.
- Etapa 6. Puesta en práctica de la propuesta de TFG. El alumnado lleva a cabo el TFG. Como parte de las conclusiones del trabajo, debe rellenar la encuesta de evaluación.
- Etapa 7. Análisis cuantitativo de los resultados de la encuesta.
CORPUS DE 100 TEXTOS CORRESPONDIENTES A 5 GÉNEROS TEXTUALES DEL ÁMBITO DE LA ADMINISTRACIÓN
- Sara Pistola Grille
- Iria Da Cunha Fanego
- Susana Viñuales Ferreiro
El contenido de este dataset es resultado de la investigación llevada a cabo en el proyecto "Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro" (TIC-eADMIN), cuyo principal objetivo era desarrollar, en el contexto de la e-Administración, una herramienta TIC en línea de ayuda a la redacción de textos administrativos en español por parte de empleados públicos, para contribuir a que los textos que reciba la ciudadanía estén redactados en lenguaje claro. Esta herramienta ya se ha desarrollado y puede utilizarse gratuitamente en línea desde el siguiente enlace: www.sistema-artext.com. Asimismo, uno de los objetivos específicos del proyecto era sistematizar los rasgos lingüísticos prototípicos de algunos géneros textuales del ámbito de la Administración, para lo cual se anotó un corpus y se analizaron los resultados.
, Descripción del datasetEste dataset contiene 2 ficheros. El primero de ellos incluye un corpus de 100 textos reales (121.548 palabras) del ámbito de la Administración en formato .txt. Los textos se corresponden con 5 géneros textuales prototípicos de este ámbito: acta de inspección, contrato, requerimiento, resolución dirigida a un particular y resolución publicada en portales institucionales (20 textos por género). El segundo fichero contiene el mismo corpus de 100 textos anotado utilizando la herramienta ATLAS.ti, tanto en el formato propio de la herramienta (.atlproj23) como en XML. Para la anotación se tienen en cuenta los siguientes rasgos lingüísticos: apartados, títulos, contenidos y fraseología representativa para expresar esos contenidos. Los resultados de la anotación de este corpus y su posterior análisis se han integrado en el sistema arText para ayudar al personal público a estructurar y redactar estos géneros textuales dirigidos a la ciudadanía.
, MetodologíaLa metodología empleada para la obtención de los datos incluye 5 etapas:
- Etapa 1. Selección de los 5 géneros textuales objeto del estudio. Los criterios de selección de los géneros son: frecuencia y dificultad de escritura de los géneros por parte del alumnado universitario de derecho y del personal público, y cantidad de texto libre presente en modelos o plantillas. Para obtener esta información se llevaron a cabo dos encuestas: una al alumnado de la UNED y otra al personal del Ayuntamiento de Madrid.
- Etapa 2. Compilación del corpus. El corpus está formado por 100 textos (20 por cada género textual) generados por el Ayuntamiento de Madrid, institución que se ha tomado como caso de estudio. Esta cantidad es estadísticamente representativa para el análisis de textos de ámbitos especializados, según se indica en investigaciones previas.
- Etapa 3. Transformación del corpus a texto plano y anonimización. Los textos del corpus se encuentran en distintos formatos, por lo que se transforman a texto plano. Asimismo, los textos de carácter privado (correspondientes a los géneros acta de inspección, requerimiento y resolución dirigida a un particular) se anonimizan.
- Etapa 4. Selección de los rasgos lingüísticos que se tienen en cuenta para el análisis del corpus. Los rasgos que se analizan son: a nivel textual, los apartados, los títulos y los contenidos, y a nivel léxico, la fraseología.
- Etapa 5. Anotación del corpus mediante la herramienta ATLAS.ti.La anotación se lleva a cabo manualmente. Los rasgos lingüísticos se anotan en ATLAS.ti mediante códigos de distintos colores: los apartados en rojo, los títulos en verde, los contenidos en azul y la fraseología en amarillo.
ADAPTACIÓN A LENGUAJE CLARO DE FRASEOLOGÍA ADMINISTRATIVA
- Sara Pistola Grille
- Iria Da Cunha Fanego
- Susana Viñuales Ferreiro
El contenido de este dataset es resultado de la investigación llevada a cabo en el proyecto "Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro" (TIC-eADMIN), cuyo principal objetivo era desarrollar, en el contexto de la e-Administración, una herramienta TIC en línea de ayuda a la redacción de textos administrativos en español por parte de empleados públicos, para contribuir a que los textos que reciba la ciudadanía estén redactados en lenguaje claro. Esta herramienta ya se ha desarrollado y puede utilizarse gratuitamente en línea desde el siguiente enlace: www.sistema-artext.com. Asimismo, uno de los objetivos específicos del proyecto era analizar y sistematizar los rasgos lingüísticos prototípicos de algunos géneros textuales del ámbito de la Administración.
, Descripción del dataset
Este dataset contiene un único fichero. En ese fichero se incluyen cinco fichas con información lingüística a nivel textual sobre los apartados y los contenidos prototípicos de cinco géneros textuales del ámbito de la Administración pública española. Además, a nivel léxico, incluye una selección de frases extraídas de un corpus de textos reales que se puede utilizar para expresar esos contenidos, así como la adaptación de esas frases a las principales recomendaciones de lenguaje claro para el español. Para cada par de frases (original-adaptación), se indican las recomendaciones de lenguaje claro que se han aplicado y el número de veces que se ha aplicado cada recomendación. Los resultados de este dataset se han obtenido a partir del análisis de un corpus de textos procedentes del Ayuntamiento de Madrid. Los cinco géneros textuales que se analizan son: acta de inspección, contrato, requerimiento, resolución dirigida a un particular y resolución publicada en portales institucionales. La información que contiene este dataset se ha integrado en el sistema arText para ayudar al personal público a estructurar y redactar estos géneros textuales dirigidos a la ciudadanía.
, Metodología (empleada para la recogida o generación de los datos)La metodología empleada para la obtención de los datos incluye 7 etapas:
- Etapa 1. Selección de los cinco géneros textuales objeto del estudio. Los criterios de selección de los géneros son: frecuencia y dificultad de escritura de los géneros por parte del alumnado universitario de derecho y del personal público, y cantidad de texto libre presente en modelos o plantillas. Para obtener esta información se llevaron a cabo dos encuestas: una al alumnado de la UNED y otra al personal del Ayuntamiento de Madrid.
- Etapa 2. Compilación del corpus. El corpus está formado por 100 textos (20 por cada género textual) generados por el Ayuntamiento de Madrid, institución que se ha tomado como caso de estudio. Esta cantidad es estadísticamente representativa para el análisis de textos de ámbitos especializados, según se indica en investigaciones previas.
- Etapa 3. Selección de los rasgos lingüísticos que se tienen en cuenta para el análisis del corpus. Los rasgos que se analizan son: a nivel textual, los apartados, los títulos y los contenidos, y a nivel léxico, la fraseología.
- Etapa 4. Anotación del corpus mediante la herramienta ATLAS.ti. La anotación se lleva a cabo manualmente.
- Etapa 5. Análisis de los rasgos textuales. Se determinan los apartados, títulos y contenidos prototípicos de cada uno de los cinco géneros textuales objeto del estudio. Se consideran prototípicos los rasgos que aparecen en un 50 % o más de los textos del corpus. Adicionalmente, los rasgos que aparecen en entre un 40 % y un 50 % de los textos del corpus se consideran opcionales.
- Etapa 6. Selección y adaptación a lenguaje claro de la fraseología. Se seleccionan algunas frases representativas para expresar los contenidos de cada género textual y se adaptan manualmente a las principales recomendaciones de lenguaje claro para el español.
- Etapa 7. Cuantificación de las recomendaciones de lenguaje claro empleadas en la clarificación. Se contabiliza el número de veces se han aplicado las recomendaciones de lenguaje claro para cada par de frases (original-adaptación). También se indica el total de veces que se utiliza cada recomendación en función del género textual.