Création de scripts d'encodage/de transformation et de consignes pour les éditions EHRI
Dans le cadre de la mise en place d'un processus semi-automatisé pour la publication des éditions EHRI, il est important de faciliter au maximum le travail des historiens et chercheurs qui travaillent sur une édition, notamment s'ils n'ont pas de connaissances étendues en XML-TEI. Afin de faire cela, nous avons décidé de créer quelques étapes de simplification pour l'encodage des éditions EHRI, à l'aide de scripts en Python.
Voilà quelques étapes que l'on souhaite simplifier :
-
L'encodage des métadonnées (teiHeader) d'une édition, ce qui peut être grandement automatisé par le fait que la plupart des métadonnées ne changent pas pour une même édition (script ou template avec infos sur ce qu'il y a à compléter --> proposer des options ?) -
L'encodage basique du texte (text) -
L'encodage d'une majeure partie des entités nommées (en reprenant la liste de ce qui est présent sur les portails EHRI et ce que l'on a pu voir dans les éditions déjà traitées), à condition de prendre en compte aussi le fait que les textes sont de différentes langues de l'un à l'autre. -
L'ajout/la création d'une nouvelle entité nommée dans les index, ainsi que ses informations essentielles (Mise en place de consignes techniques ?) -
Consignes pour une utilisation simplifiée et à la portée de tous des scripts d'encodage mis en place (pas à pas complet) -
Consignes pour l'encodage du reste des fichiers, en lien avec l'ODD développée (choix de balises, éléments à rajouter/enlever, mettre des attributs, etc.)
Tout cela s'accompagnera d'une documentation par un ou plusieurs billets de blog qui retrace les choix faits pour la simplification de ces étapes, la manière dont cela fonctionne, etc.
-
Documentation