Commit 31c55871 authored by Lucas Terriel's avatar Lucas Terriel 🐍

add first dataset in ArchivesNationales directory : XML/EAD files, EAD files...

add first dataset in ArchivesNationales directory :  XML/EAD files, EAD files listing with content and name entities informations, txt file with choice of selections
parent 4af3f7c2
Critères de choix des IR pour ce premier corpus
- fichiers EAD valides et à l'état "publié" (publiés en SIV) ; s'ils existent dans une version "en cours de rédaction", cette version doit être, soit validée et publiée avant le début du test, soit appelée à très peu évoluer dans le SIA pendant la période de test
- ne contenant aucune information non diffusable
- décrivant une quantité significative d'ensembles documentaires ou de pièces (incluant donc idéalement au moins 500 unités de description)
- la très grande majorité des unités de description (UD), en tout cas au moins celles de bas niveau, doit contenir des noms propres de personnes et de lieux non balisés.
Nota : dans la sélection opérée, trois IR sont déjà soit totalement soit en bonne partie indexés pour ce qui est des personnes et/ou des lieux. Il s'agira alors essentiellement d'identifier les personnes dont les noms ont été balisés. Ces 3 IR sont retenus parce qu'ils sont représentatifs de nombreux autres et/ou parce que les noms des personnes indexés sont ceux de personnalités de haut rang sans doute connues de référentiels externes comme Wikidata. Ils pourraient peut-être aussi servir de fichiers de référence (corpus d'apprentisssage ?).
- l'indexation de ces noms propres, l'identification et la description même sommaire des entités ainsi nommées (la production dans le cadre du projet de notices d'autorité les concernant, à partir de référentiels externes) doivent être vraiment utiles pour une exploitation de l'IR par l'utilisateur final. Donc, ces noms doivent être parmi les principaux sujets des documents, ou désigner des auteurs, destinataires ou bénéficiaires, juridictions, lieux de rédaction, lieux d'événements...
Nota : se projeter dans une SIV au sein de laquelle des dispositifs beaucoup plus performants d'interrogation et de consultation de ces données seraient présents : accès unifié par des pages ou onglets "qui" et "où", accès cartographique pour les lieux, recherche directe dans des listes de noms indexés puis affichage des notices des lieux et personnes pour choisir une ou plusieurs entités et les relations qu'elles ont avec les documents ; résultats de recherche à facettes...
- idéalement des informations contextuelles doivent être présentes dans les UD contenant les noms propres, ou dans les UD hiérarchiquement supérieures, pour aider à identifier les entités nommées (date des documents, données biographiques, données de localisation des lieux...)
- les IR choisis doivent être si possible représentatifs d'autres IR existants, en terme de catégorie (répertoire numérique détaillé de séries nominatives ou géographiques, inventaire analytique), de structure et de contenu
En terme de quantité :
- représentation de tous les départements et services DIRF idéalement
- au maximum, pour ce jeu d'IR de test qui doit rester de taille réduite, 2 IR par département et 1 IR par mission
Critères de choix élaborés par Florence Clavaud (mission référentiels des AN).
Sélection réalisée par F. Clavaud sur la base de premières propositions formulées par l'ensemble des services de la DIRF et par le Département des archives électroniques et audiovisuelles.
Markdown is supported
0% or .
You are about to add 0 people to the discussion. Proceed with caution.
Finish editing this message first!
Please register or to comment