Buscador | Buscador

Resultados totales (Incluyendo duplicados): 11
Encontrada(s) 2 página(s)

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/1RRAWJ

Dataset. 2020

HESML V1R5 JAVA SOFTWARE LIBRARY OF ONTOLOGY-BASED SEMANTIC SIMILARITY MEASURES AND INFORMATION CONTENT MODELS

Lastra-Díaz, Juan J.
Lara-Clares, Alicia
Garcia-Serrano, Ana

This dataset introduces HESML V1R5 which is the fifth release of the Half-Edge Semantic Measures Library (HESML) detailed in [13]. HESML V1R5 is a linearly scalable and efficient Java software library of ontology-based semantic similarity measures and Information Content (IC) models for ontolgies like WordNet, SNOMED-CT, MeSH, GO and any other ontologies based on the OBO file format. HESML V1R5 implements most ontology-based semantic similarity measures and Information Content (IC) models reported in the literature, as well as the evaluation of three pre-trained word embedding models. It also provides a XML-based input file format in order to specify the execution of reproducible word/concept similarity experiments based on WordNet, SNOMED-CT, MeSH, or GO without software coding. HESML V1R5 introduces the following novelties: (1) the parsing and in-memory representation of the SNOMED-CT, MeSH and any other ontologies based on the OBO file format such as the Gene Ontology (GO); (2) a new collection of efficient path-based similarity measures based on the reformulation of previous path-based measures which are based on the new Ancestors-based Shortest-Path Length (AncSPL) algorithm; and (3) a collection of groupwise similarity measures. HESML library is freely distributed for any non-commercial purpose under a CC By-NC-SA-4.0 license, subject to the citing of the two mains HESML papers as attribution requirement. However, HESML distribution also includes other datasets, databases or data files whose use require the attribution acknowledgement by any user of HEMSL. Thus, we urge to the HESML users to fulfill with licensing terms related to other resources distributed with the library as detailed in its companion release notes.

Proyecto: UNED/BICI N7/

DOI: https://doi.org/10.21950/1RRAWJ

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/1RRAWJ

HANDLE: https://doi.org/10.21950/1RRAWJ

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/1RRAWJ

PMID: https://doi.org/10.21950/1RRAWJ

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/1RRAWJ

Ver en: https://doi.org/10.21950/1RRAWJ

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/1RRAWJ

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQ1CVX

Dataset. 2018

WORD SIMILARITY BENCHMARKS OF RECENT WORD EMBEDDING MODELS AND ONTOLOGY-BASED SEMANTIC SIMILARITY MEASURES

Lastra-Díaz, Juan J.
Goikoetxea, Josu
Hadj Taieb, Mohamed Ali
Garcia-Serrano, Ana
Ben Aouicha, Mohamed
Agirre, Eneko

This dataset is a companion reproducibility package of the related paper submitted for publication, whose aim is to allow the exact replication of a very large experimental survey on word similarity between the families of ontology-based semantic similarity measures and word embedding models as detailed in ‘appendix-reproducible-experiments.pdf’ file. Our experiments are based on the evaluation of all methods with the HESML V1R4 semantic measures library and the recording of these experiments with Reprozip. HESML is a self-contained Java software library of semantic measures based on WordNet whose latest version, called HESML V1R4, also supports the evaluation of pre-trained word embedding files. HESML is a self-contained experimentation platform on word similarity which is especially well suited to run large experimental surveys by supporting the execution of automatic reproducible experiment files on word similarity based on a XML-based file format called (*.exp). On the other hand, ReproZip is a virtualisation tool whose aim is to warrant the exact replication of experimental results onto a different system from that originally used in their creation. Reprozip captures all the program dependencies and is able to reproduce the packaged experiments on any host platform, regardless of the hardware and software configuration used in their creation. Thus, ReproZip warrants the reproduction of the experiments introduced herein in the long-term. Finally, other very valuable feature of Reprozip is that it allows to modify the input files of any Reprozip package with the aim of evaluating a set of experiments using originally unconsidered methods, configuration parameters or datasets. This dataset contains a Reprozip package to reproduce our experiments in any supported platform, as well as all pre-trained word embedding models and word similarity datasets used in our experiments. In addition, this dataset also contains all raw output files generated by our experiments, and a R script file to generate all output processed files corresponding to the data tables in our related paper. Finally, we provide a very detailed experimental setup in the aforementioned PDF file to allow all our experiments to be reproduced exactly.

Proyecto: //

DOI: https://doi.org/10.21950/AQ1CVX

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQ1CVX

HANDLE: https://doi.org/10.21950/AQ1CVX

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQ1CVX

PMID: https://doi.org/10.21950/AQ1CVX

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQ1CVX

Ver en: https://doi.org/10.21950/AQ1CVX

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQ1CVX

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQLSMV

Dataset. 2022

HESML V2R1 JAVA SOFTWARE LIBRARY OF SEMANTIC SIMILARITY MEASURES FOR THE BIOMEDICAL DOMAIN

Lara-Clares, Alicia
Lastra-Díaz, Juan J.
Garcia-Serrano, Ana

This dataset introduces HESML V2R1 which is the sixth release of the Half-Edge Semantic Measures Library (HESML) detailed in [24]. HESML V2R1 is a linearly scalable and efficient Java software library of ontology-based semantic similarity measures and Information Content (IC) models for ontologies like WordNet, SNOMED-CT, MeSH, GO and any other ontologies based on the OBO file format. HESML V2R1 also implements most of the sentence similarity methods in the biomedical domain together with a set of sentence pre-processing configurations, the integration of the three main biomedical NER tools, Metamap [3], MetamapLite [7] and cTAKES [31]. HESML V2R1 implements most ontology-based semantic similarity measures and Information Content (IC) models reported in the literature, as well as the evaluation of three pre-trained word embedding models for the general domain and 33 pre-trained embeddings and language models. It also provides a XML-based input file format in order to specify the execution of reproducible word/concept similarity experiments based on WordNet, SNOMED-CT, MeSH, or GO without software coding, and the necessary software clients to run the sentence-based experiments in the biomedical domain. HESML V2R1 introduces the following novelties: (1) the software implementation of a new package for the evaluation of sentence similarity methods; (2) the software implementation of most of the sentence similarity methods in the biomedical domain; (3) the implementation of a new package for sentence pre-processing together with a set of sentence pre-processing configurations; (4) the integration of the three main biomedical NER tools, Metamap [3], MetamapLite [7] and cTAKES [31]; (5) the software implementation of a parser based on the averaging Simple Word EMbeddings (SWEM) models introduced by Shen et al. [32] for efficiently loading and evaluating FastText-based [4] and other word embedding models; (6) the integration of Python wrappers for the evaluation of BERT [8], Universal Sentence Encoder (USE) [5] and Flair [1] models; and finally, (7) the software implementation of a new string-based sentence similarity method based on the aggregation of the Li et al. [29] similarity and Block distance [9] measures, called LiBlock, as well as eight new variants of the ontology-based methods proposed by Sogancioglu et al. [33], and a new pre-trained word embedding model based on FastText [4] and trained on the full-text of the articles in the PMC-BioC corpus [6]. HESML library is freely distributed for any non-commercial purpose under a CC By-NC-SA-4.0 license, subject to the citing of the two mains HESML papers [24] as attribution requirement.However, HESML distribution also includes other datasets, databases or data files whose use require the attribution acknowledgement by any user of HEMSL. Thus, we urge to the HESML users to fulfill with licensing terms related to other resources distributed with the library as detailed in its companion release notes., HESML V2R1 is a Java library developed with NetBeans 8 which compiles and runs in any Docker-based complaint platform., This work was partially supported by the UNED predoctoral grant started in April 2019 (BICI N7, November 19th, 2018)., Esta librerı́a estará disponible de forma permanente y perpetua.

Proyecto: //

DOI: https://doi.org/10.21950/AQLSMV

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQLSMV

HANDLE: https://doi.org/10.21950/AQLSMV

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQLSMV

PMID: https://doi.org/10.21950/AQLSMV

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQLSMV

Ver en: https://doi.org/10.21950/AQLSMV

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/AQLSMV

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/DYAZRE

Dataset. 2020

REPRODUCIBLE EXPERIMENTS ON THE MASTER THESIS: AN EXPERIMENTAL SURVEY OF NAMED ENTITY RECOGNITION METHODS IN THE BIOMEDICAL DOMAIN

Hennig, Sebastian
Garcia-Serrano, Ana

Semantic Textual Similarity (also known as Semantic Short-text Similarity) is a research problem that aims to calculate the similarity among text units (phrases, sentences, paragraphs or texts) focusing on the semantic content. The importance of Semantic Similarity in Natural Language Processing has increased in the last years due to its relevance in many tasks and applications, such as Automatic Summarization, Machine Translation, Question Answering or Semantic Indexing. UB-NER is a self-contained Java software library for benchmarking state-of-the-art STS measures in the biomedical domain. It allows to define and execute a set of experiments combining different measures and preprocessing methods. This dataset contains the reproducibility framework and dependencies, whose aim is to allow the exact replication of unsupervised named entity recognition experiment in the biomedical domain as detailed in "ReproductionProtocol.pdf" file.

Proyecto: //

DOI: https://doi.org/10.21950/DYAZRE

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/DYAZRE

HANDLE: https://doi.org/10.21950/DYAZRE

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/DYAZRE

PMID: https://doi.org/10.21950/DYAZRE

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/DYAZRE

Ver en: https://doi.org/10.21950/DYAZRE

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/DYAZRE

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/EPNXTR

Dataset. 2021

REPRODUCIBLE EXPERIMENTS ON WORD AND SENTENCE SIMILARITY MEASURES FOR THE BIOMEDICAL DOMAIN

Lara-Clares, Alicia
Lastra-Díaz, Juan J.
Garcia-Serrano, Ana

This dataset introduces a set of reproducibility resources with the aim of allowing the exact replication of the experiments introduced by our main paper, which is a reproducible experimental survey on biomedical sentence similarity with the following aims: (1) to elucidate the state of the art of the problem; (2) to solve some reproducibility problems preventing the evaluation of most of current methods; (3) to evaluate several unexplored sentence similarity methods; (4) to evaluate for the first time an unexplored benchmark, called Corpus-Transcriptional-Regulation (CTR); (5) to carry out a study on the impact of the pre-processing stages and Named Entity Recognition (NER) tools on the performance of the sentence similarity methods; and finally, (6) to bridge the lack of software and data reproducibility resources for methods and experiments in this line of research. This dataset sets a self-contained reproducibility platform which contains the Java source code and binaries of our main benchmark program, as well as a Docker image which allows the exact replication of our experiments in any software platform supported by Docker, such as all Linux-based operating systems, Windows or MacOS. Our benchmark program is distributed with the UMLS SNOMED-CT and MeSH ontologies by courtesy of the US National Library of Medicine (NLM), as well as all needed software components with the aim of making the setup process easier. Our Docker image provides an exact virtual replica of the machine in which we ran our experiments, thus removing the need to carry-out any tedious setup process, such as the setup of the Python virtual environments and other software components.

HESML library is freely distributed for any non-commercial purpose under a CC By-NC-SA-4.0 license, subject to the citing of the two mains HESML papers [17] as attribution requirement. However, HESML distribution also includes other datasets, databases or data files whose use require the attribution acknowledgement by any user of HEMSL. Thus, we urge to the HESML users to fulfill with licensing terms related to other resources distributed with the library as detailed in its companion release notes.

Proyecto: //

DOI: https://doi.org/10.21950/EPNXTR

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/EPNXTR

HANDLE: https://doi.org/10.21950/EPNXTR

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/EPNXTR

PMID: https://doi.org/10.21950/EPNXTR

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/EPNXTR

Ver en: https://doi.org/10.21950/EPNXTR

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/EPNXTR

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/ML9OI9

Dataset. 2021

FORMAL CONCEPT ANALYSIS FOR TOPIC DETECTION: A CLUSTERING QUALITY EXPERIMENTAL ANALYSIS

Castellanos, Angel
Cigarrán, Juan
Garcia-Serrano, Ana

RepLab is a competitive evaluation exercise for Online Reputation Management systems organized as an activity of CLEF. RepLab 2013 focused on the task of monitoring the reputation of entities (companies, organizations, celebrities, etc.) on Twitter. The monitoring task for analysts consists of searching the stream of tweets for potential mentions to the entity, filtering those that do refer to the entity, detecting topics (i.e., clustering tweets by subject) and ranking them based on the degree to which they signal reputation alerts (i.e., issues that may have a substantial impact on the reputation of the entity). The RepLab 2013 task is defined, accordingly, as (multilingual) topic detection combined with priority ranking of the topics, as input for reputation monitoring experts. The detection of reputational polarity (does the tweet have negative/positive implications for the reputation of the entity?) is an essential step to assign priority, and was evaluated as a standalone subtask, Application of Formal Concept Analysis (FCA), an exploratory technique for data analysis and organization. In particular, we propose an extension of FCA-based methods for topic detection applied in the literature by applying the stability concept for the topic selection. The hypothesis is that FCA will enable the better organization of the data and stability the better selection of topics based on this data organization, thus better fulfilling the task requirements by improving the quality and accuracy of the topic detection process, FCA.tar.gz (about 3MB) This file contains the FCA implementation as well as the input files for the execution The dataset can be downloaded from the official RepLab webpage: http://nlp.uned.es/replab2013/.

Proyecto: //

DOI: https://doi.org/10.21950/ML9OI9

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/ML9OI9

HANDLE: https://doi.org/10.21950/ML9OI9

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/ML9OI9

PMID: https://doi.org/10.21950/ML9OI9

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/ML9OI9

Ver en: https://doi.org/10.21950/ML9OI9

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/ML9OI9

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/OTDA4Z

Dataset. 2020

REPRODUCIBILITY DATASET FOR A BENCHMARK OF BIOMEDICAL SEMANTIC MEASURES LIBRARIES

Lastra-Díaz, Juan J.
Lara-Clares, Alicia
Garcia-Serrano, Ana

This dataset introduces a set of reproducibility resources with the aim of allowing the exact replication of the experiments introduced by our companion paper, which compare the performance of the three UMLS-based semantic similarity libraries reported in the literature as follows: (1) UMLS::Similarity [20], (2) Semantic Measures Library (SML) [3], and the latest version of our Half-Edge Semantic Measures Library (HESML) introduced in our aforementioned companion paper. HESML V1R5 is the fifth release of our Half-Edge Semantic Measures Library (HESML) detailed in [15] which is a linearly scalable and efficient Java software library of ontology-based semantic similarity measures and Information Content (IC) models for ontologies like WordNet, SNOMED-CT, MeSH and GO. This dataset sets a self-contained reproducibility platform which contains the Java source code and binaries of our main benchmark program, as well as a Docker image which allows the exact replication of our experiments in any software platform supported by Docker, such as all Linux-based operating systems, Windows or MacOS. Our benchmark program is distributed with the UMLS SNOMED-CT and MeSH ontologies by courtesy of the US National Library of Medicine (NLM), as well as all needed software components with the aim of making the setup process easier. Our Docker image provides an exact virtual replica of the machine in which we ran our experiments, thus removing the need to carry-out any tedious setup process, such as the setup of the UMLS Metathesaurus on MySQL database, UMLS::Similarity library and other software components.

Proyecto: //

DOI: https://doi.org/10.21950/OTDA4Z

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/OTDA4Z

HANDLE: https://doi.org/10.21950/OTDA4Z

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/OTDA4Z

PMID: https://doi.org/10.21950/OTDA4Z

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/OTDA4Z

Ver en: https://doi.org/10.21950/OTDA4Z

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/OTDA4Z

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/V45AMM

Dataset. 2023

MATERIALES PARA LA EVALUACIÓN DE ARTEXT POR PARTE DE ESTUDIANTES UNIVERSITARIOS DE DERECHO

Sara Pistola Grille
Iria Da Cunha Fanego
Susana Viñuales Ferreiro

Descripción del proyecto

El contenido de este dataset es resultado de la investigación llevada a cabo en el proyecto "Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro" (TIC-eADMIN), cuyo principal objetivo era desarrollar, en el contexto de la e-Administración, una herramienta TIC en línea de ayuda a la redacción de textos administrativos en español por parte de empleados públicos, para contribuir a que los textos que reciba la ciudadanía estén redactados en lenguaje claro. Esta herramienta ya se ha desarrollado y puede utilizarse gratuitamente en línea desde el siguiente enlace: www.sistema-artext.com. Además, uno de los objetivos específicos del proyecto era analizar y sistematizar los rasgos lingüísticos prototípicos de algunos géneros textuales del ámbito de la Administración.

Asimismo, el contenido de este dataset está relacionado con la investigación que se está llevando a cabo en el proyecto "Un prototipo tecnológico para la redacción en lenguaje claro: incorporación en la Administración pública y análisis de su impacto en la ciudadanía" (arText_IMPACT), que tiene como uno de sus objetivos principales evaluar el impacto del uso del sistema arText en diferentes colectivos de la ciudadanía española.

, Descripción del dataset

Este dataset contiene los materiales empleados para evaluar arText en el marco de los estudios universitarios de derecho de la UNED. Para llevar a cabo la evaluación, se planteó una propuesta de Trabajo de Fin de Grado (TFG) que incluía una tarea de escritura de textos administrativos utilizando el sistema arText. Esta propuesta se puso en práctica con 22 estudiantes del Grado en Ciencias Jurídicas de las Administraciones Públicas de la UNED. En el marco de esta propuesta se diseñaron tres documentos que se pusieron a disposición del alumnado: unas instrucciones sobre cómo llevar a cabo el TFG, una rúbrica de evaluación y una encuesta para determinar la percepción de los estudiantes sobre la propuesta de TFG y sobre el uso del sistema arText. Asimismo, se cuantificaron los resultados de la encuesta.

, Metodología (empleada para la recogida o generación de los datos)

La metodología empleada para la obtención de los datos incluye siete etapas:

Etapa 1. Selección de la muestra de estudiantes universitarios que puedan evaluar arText. Se seleccionan 22 estudiantes de la asignatura de TFG (último curso) del grado en Ciencias Jurídicas de las Administraciones Públicas de la UNED.
Etapa 2. Diseño de una propuesta de TFG que incorpore el uso de arText para redactar textos administrativos.
Etapa 3. Diseño de unas instrucciones para explicar al alumnado cómo llevar a cabo la propuesta.
Etapa 4. Diseño de una rúbrica de evaluación.
Etapa 5. Diseño de una encuesta para evaluar la percepción del alumnado sobre la propuesta de TFG y sobre el uso de arText.
Etapa 6. Puesta en práctica de la propuesta de TFG. El alumnado lleva a cabo el TFG. Como parte de las conclusiones del trabajo, debe rellenar la encuesta de evaluación.
Etapa 7. Análisis cuantitativo de los resultados de la encuesta.

Proyecto: Ministerio de Ciencia, Innovación y Universidades, Ministerio de Ciencia, Innovación y Universidades/PGC2018-099694-A-I00, PDC2022-133935-I00/

DOI: https://doi.org/10.21950/V45AMM

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/V45AMM

HANDLE: https://doi.org/10.21950/V45AMM

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/V45AMM

PMID: https://doi.org/10.21950/V45AMM

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/V45AMM

Ver en: https://doi.org/10.21950/V45AMM

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/V45AMM

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/YDVJ51

Dataset. 2024

CORPUS DE 100 TEXTOS CORRESPONDIENTES A 5 GÉNEROS TEXTUALES DEL ÁMBITO DE LA ADMINISTRACIÓN

Sara Pistola Grille
Iria Da Cunha Fanego
Susana Viñuales Ferreiro

Descripción del proyecto

El contenido de este dataset es resultado de la investigación llevada a cabo en el proyecto "Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro" (TIC-eADMIN), cuyo principal objetivo era desarrollar, en el contexto de la e-Administración, una herramienta TIC en línea de ayuda a la redacción de textos administrativos en español por parte de empleados públicos, para contribuir a que los textos que reciba la ciudadanía estén redactados en lenguaje claro. Esta herramienta ya se ha desarrollado y puede utilizarse gratuitamente en línea desde el siguiente enlace: www.sistema-artext.com. Asimismo, uno de los objetivos específicos del proyecto era sistematizar los rasgos lingüísticos prototípicos de algunos géneros textuales del ámbito de la Administración, para lo cual se anotó un corpus y se analizaron los resultados.

, Descripción del dataset

Este dataset contiene 2 ficheros. El primero de ellos incluye un corpus de 100 textos reales (121.548 palabras) del ámbito de la Administración en formato .txt. Los textos se corresponden con 5 géneros textuales prototípicos de este ámbito: acta de inspección, contrato, requerimiento, resolución dirigida a un particular y resolución publicada en portales institucionales (20 textos por género). El segundo fichero contiene el mismo corpus de 100 textos anotado utilizando la herramienta ATLAS.ti, tanto en el formato propio de la herramienta (.atlproj23) como en XML. Para la anotación se tienen en cuenta los siguientes rasgos lingüísticos: apartados, títulos, contenidos y fraseología representativa para expresar esos contenidos. Los resultados de la anotación de este corpus y su posterior análisis se han integrado en el sistema arText para ayudar al personal público a estructurar y redactar estos géneros textuales dirigidos a la ciudadanía.

, Metodología

La metodología empleada para la obtención de los datos incluye 5 etapas:

Etapa 1. Selección de los 5 géneros textuales objeto del estudio. Los criterios de selección de los géneros son: frecuencia y dificultad de escritura de los géneros por parte del alumnado universitario de derecho y del personal público, y cantidad de texto libre presente en modelos o plantillas. Para obtener esta información se llevaron a cabo dos encuestas: una al alumnado de la UNED y otra al personal del Ayuntamiento de Madrid.
Etapa 2. Compilación del corpus. El corpus está formado por 100 textos (20 por cada género textual) generados por el Ayuntamiento de Madrid, institución que se ha tomado como caso de estudio. Esta cantidad es estadísticamente representativa para el análisis de textos de ámbitos especializados, según se indica en investigaciones previas.
Etapa 3. Transformación del corpus a texto plano y anonimización. Los textos del corpus se encuentran en distintos formatos, por lo que se transforman a texto plano. Asimismo, los textos de carácter privado (correspondientes a los géneros acta de inspección, requerimiento y resolución dirigida a un particular) se anonimizan.
Etapa 4. Selección de los rasgos lingüísticos que se tienen en cuenta para el análisis del corpus. Los rasgos que se analizan son: a nivel textual, los apartados, los títulos y los contenidos, y a nivel léxico, la fraseología.
Etapa 5. Anotación del corpus mediante la herramienta ATLAS.ti.La anotación se lleva a cabo manualmente. Los rasgos lingüísticos se anotan en ATLAS.ti mediante códigos de distintos colores: los apartados en rojo, los títulos en verde, los contenidos en azul y la fraseología en amarillo.

Proyecto: Ministerio de Ciencia, Innovación y Universidades/PGC2018-099694-A-I00/

DOI: https://doi.org/10.21950/YDVJ51

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/YDVJ51

HANDLE: https://doi.org/10.21950/YDVJ51

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/YDVJ51

PMID: https://doi.org/10.21950/YDVJ51

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/YDVJ51

Ver en: https://doi.org/10.21950/YDVJ51

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/YDVJ51

e-cienciaDatos, Repositorio de Datos del Consorcio Madroño

doi:10.21950/ZF2KRC

Dataset. 2023

ADAPTACIÓN A LENGUAJE CLARO DE FRASEOLOGÍA ADMINISTRATIVA

Sara Pistola Grille
Iria Da Cunha Fanego
Susana Viñuales Ferreiro

Descripción del proyecto

El contenido de este dataset es resultado de la investigación llevada a cabo en el proyecto "Tecnologías de la Información y la Comunicación para la e-Administración: hacia la mejora de la comunicación entre Administración y ciudadanía a través del lenguaje claro" (TIC-eADMIN), cuyo principal objetivo era desarrollar, en el contexto de la e-Administración, una herramienta TIC en línea de ayuda a la redacción de textos administrativos en español por parte de empleados públicos, para contribuir a que los textos que reciba la ciudadanía estén redactados en lenguaje claro. Esta herramienta ya se ha desarrollado y puede utilizarse gratuitamente en línea desde el siguiente enlace: www.sistema-artext.com. Asimismo, uno de los objetivos específicos del proyecto era analizar y sistematizar los rasgos lingüísticos prototípicos de algunos géneros textuales del ámbito de la Administración.

, Descripción del dataset

Este dataset contiene un único fichero. En ese fichero se incluyen cinco fichas con información lingüística a nivel textual sobre los apartados y los contenidos prototípicos de cinco géneros textuales del ámbito de la Administración pública española. Además, a nivel léxico, incluye una selección de frases extraídas de un corpus de textos reales que se puede utilizar para expresar esos contenidos, así como la adaptación de esas frases a las principales recomendaciones de lenguaje claro para el español. Para cada par de frases (original-adaptación), se indican las recomendaciones de lenguaje claro que se han aplicado y el número de veces que se ha aplicado cada recomendación. Los resultados de este dataset se han obtenido a partir del análisis de un corpus de textos procedentes del Ayuntamiento de Madrid. Los cinco géneros textuales que se analizan son: acta de inspección, contrato, requerimiento, resolución dirigida a un particular y resolución publicada en portales institucionales. La información que contiene este dataset se ha integrado en el sistema arText para ayudar al personal público a estructurar y redactar estos géneros textuales dirigidos a la ciudadanía.

, Metodología (empleada para la recogida o generación de los datos)

La metodología empleada para la obtención de los datos incluye 7 etapas:

Etapa 1. Selección de los cinco géneros textuales objeto del estudio. Los criterios de selección de los géneros son: frecuencia y dificultad de escritura de los géneros por parte del alumnado universitario de derecho y del personal público, y cantidad de texto libre presente en modelos o plantillas. Para obtener esta información se llevaron a cabo dos encuestas: una al alumnado de la UNED y otra al personal del Ayuntamiento de Madrid.
Etapa 2. Compilación del corpus. El corpus está formado por 100 textos (20 por cada género textual) generados por el Ayuntamiento de Madrid, institución que se ha tomado como caso de estudio. Esta cantidad es estadísticamente representativa para el análisis de textos de ámbitos especializados, según se indica en investigaciones previas.
Etapa 3. Selección de los rasgos lingüísticos que se tienen en cuenta para el análisis del corpus. Los rasgos que se analizan son: a nivel textual, los apartados, los títulos y los contenidos, y a nivel léxico, la fraseología.
Etapa 4. Anotación del corpus mediante la herramienta ATLAS.ti. La anotación se lleva a cabo manualmente.
Etapa 5. Análisis de los rasgos textuales. Se determinan los apartados, títulos y contenidos prototípicos de cada uno de los cinco géneros textuales objeto del estudio. Se consideran prototípicos los rasgos que aparecen en un 50 % o más de los textos del corpus. Adicionalmente, los rasgos que aparecen en entre un 40 % y un 50 % de los textos del corpus se consideran opcionales.
Etapa 6. Selección y adaptación a lenguaje claro de la fraseología. Se seleccionan algunas frases representativas para expresar los contenidos de cada género textual y se adaptan manualmente a las principales recomendaciones de lenguaje claro para el español.
Etapa 7. Cuantificación de las recomendaciones de lenguaje claro empleadas en la clarificación. Se contabiliza el número de veces se han aplicado las recomendaciones de lenguaje claro para cada par de frases (original-adaptación). También se indica el total de veces que se utiliza cada recomendación en función del género textual.