Repositorio

Proposta de preservació de dades científiques en accés obert mitjançant tècniques d’anàlisi forense digital

Wilderbeek López del Castillo, Teodoro
Ja fa temps que les agències de finançament de la recerca requereixen als investigadors que facilitin la compartició de les dades de recerca que s’hagin elaborat durant els projectes que hagin rebut finançament, la qual cosa fa que han d’estar disponibles en accés obert al públic generalment mitjançant un repositori. Per tant, els centres de preservació digital s’enfronten al repte de gestionar i preservar a llarg termini aquestes dades científiques, les quals presenten qüestions tècniques com la diversitat de formats i el seu gran volum. L’objectiu d’aquesta tesi és demostrar que les tècniques d’anàlisi forense digital permeten preservar de manera eficaç dades de recerca de ciències socials i humanitats, tot tenint en compte els requeriments de les agències de finançament, les gran dimensions dels conjunts de dades, els diferents suports físics on s’emmagatzemen els conjunts de dades i la possible presència de dades confidencials. Per demostrar aquesta hipòtesi, es va crear un flux de treball detallat de preservació que ha de servir com una solució tècnica a aquells centres que no tenen capacitats per utilitzar repositoris de dades, atès que el model utilitza un programari de codi obert sota DSpace, molt utilitzat a centres de preservació. La recerca s’ha delimitat a les dades científiques en ciències socials i humanitats ja que no és factible dissenyar un model que inclogui altres ciències degut a les grans complicacions tècniques. La metodologia que s’ha emprat ha consistit en primer lloc en fer una anàlisi de la literatura existent sobre dades de recerca en accés obert, sobre agències de finançament de la recerca, sobre aplicació de l’anàlisi forense digital en biblioteques i arxius i sobre organitzacions especialitzades en el dipòsit de dades. En segon lloc, s’ha realitzat una sèrie d’entrevistes a responsables de repositoris DSpace en forma de qüestionari obert per tal de conèixer les seves opinions en quant a l’aplicació del model. En tercer i últim lloc, per elaborar la proposta es va fer una sèrie de proves fent servir les tècniques forenses, la qual cosa va requerir l’adquisició d’un maquinari prou potent i l’ús del programari en codi obert BitCurator. Un cop completades aquestes proves, es va passar a definir pas per pas el flux de treball del model de preservació on es va emprar la terminologia OAIS. Per tal de tenir una base sòlida per construir el model es van estudiar diferents casos d’ús de tècniques forenses a biblioteques i arxius, de les quals es van emprar i adaptar diversos mètodes. L’últim pas fou l’estudi del programari DSpace, on es van fer algunes proves amb un repositori local. El resultat final ha consistit en un flux de treball, que es divideix en els processos secundaris de preparatius inicials, de captura de suport, d’examen i anàlisi de contingut, de processat de continguts, de preparació de paquets de dades per a la ingesta al repositori i d’ingesta al repositori. Addicionalment, es va realitzar un flux de treball on s’il·lustren els passos que ha de realitzar el personal del repositori per preparar paquets de dades per als usuaris, un cop aquests han fet una consulta de continguts. Les conclusions finals són que el model de preservació compleix amb els diferents requisits de les agències de finançament de la recerca en quant a l’accés obert, mentre que les tècniques d’anàlisi forense digital permeten salvaguardar la integritat de les dades, executen diverses anàlisis de dades i identifiquen i bloquegen informació privada i sensible. El programari DSpace permet la ingesta de grans volums de dades, però és necessari habilitar la funció amb la ingesta per FTP., It has long been that funding agencies for research require researchers to facilitate the sharing of research data produced in funded projects which must be open-access available, generally through a repository. Therefore, digital preservation centres are facing the challenge of preservation and long-term storage of research data. The purpose of this thesis is to prove that digital forensics techniques are valid to preserve effectively research data in the social sciences and humanities. To prove this hypothesis, a preservation workflow has been created to provide a technical solution to centres without the means to use data repositories, since the model uses the DSpace open source software. The methodology has involved, firstly, analysing of the bibliography on open research data, on funding agencies for research, on digital forensics use cases in libraries and archives and on organizations specialized on deposit of data. Secondly, a series of interviews to responsible people for DSpace repositories have been conducted to know their opinions regarding the application of the model. Lastly, a series of tests have been done to develop the proposal. Once these tests have been completed, the workflow of the preservation model was defined in which the OAIS terminology was used. The theoretical basis of the model was the study of diverse use cases of digital forensics, of which different methods were adapted. The last step was the study of the DSpace software, in which some tests on a local repository were done. The final conclusions are that the preservation model meets the different requirements of research funding agencies regarding open access, while digital forensic analysis techniques allow to safeguard the integrity of the data, perform diverse data analyses and identify and block personally identifiable information. DSpace software allows the intake of large volumes of data, but it is necessary to enable the FTP ingest function.
Repository: TDR: Tesis Doctorales en Red