Export eScriptorium XML Page vers TEI Publisher
Sessions de travail
Préalable
-
🔬 Colab exploratoire
: https://colab.research.google.com/drive/1UjT5Gw7OrsmrBIYFxfQBHXKRl8NWqT38?usp=sharing -
🔄 Colab récursif
: https://colab.research.google.com/drive/1utnnaUFQd3WMcSdbNt-qN-sjeT7rJvH2?usp=sharing
02/06/21
- lancement du projet
- vérification de la qualité des données
- ajout des annotations nécessaires dans eScriptorium
- annotation des regions : en-tête, et différentes colonnes
- annotation des baselines de l'en-tête
- annotation des baselines représentant les premières lignes de chaque enregistrement dans la colonne 5 (Noms, prénoms et domiciles des parties)
- association des baselines à leur region respective
- export XML Page
- création du jupyter colab
- chargement des fichiers
- identification des premières lignes d'un paragraphe
- récupération des coordonnées signifiantes
08/06/2021
- poursuite du travail dans le jupyter colab
- regroupement des nœuds en fonction de leurs coordonnées
- création de la class Row() correspondant à une entrée dans le répertoire :
- le numéro lui étant associé
- une date d’enregistrement
- un ou plusieurs types d'acte
- un résumé
- informations relatives aux droits d'enregistrement (date et droits payés)
- tri des noeuds en fonction de leur colonne d'appartenance
- test réalisé sur
FRAN_0025_3056_L-0.xml
17/06/2021
- Test sur une autre page d'un répertoire
- Ajout d'un mécanisme pour vérifier si la ligne est associée à une région ou non. Si non associée, stockage dans une catégorie 'misc'
- Mise en place via Colab du téléchargement de la la XSLT de Manon et du parser Saxon
- Application de la transformation dans Colab et génération du fichier TEI
Entre-séance
- Modification de l'XSL de Manon et création d'un PR (https://github.com/inoblivionem/xslt-playground/pull/1)
- Ajout d'un téléchargement automatique des données de test
21/06/2021
- Modélisation de l'arbre TEI, voir #17 (comment 535202)
- Création du nœud
<text>
et reconstitution des enregistrement dans le fichier TEI à partir du JSON créé depuis le PAGE XML - Création d'une sortie TEI pour chacun de nos fichiers de test
Entre-séance
- Réunion avec Floriane et Manon pour discuter de TEI Publisher et nous montrer une visualisation de nos fichiers sur la plateforme
- Finition de la création de la sortie TEI avec la structure table
- Test de déploiement sur TEI Publisher avec la structure table
- Implémentation récursive bout-en-bout
Reste à faire
-
Regrouper les lignes du paragraphe central -
Regrouper le segments des autres colonnes qui vont avec une ligne "first_line" donnée -
Résoudre les TODO -
Vérifier qu'on a tout dans le bon ordre -
Tester sur 1 ou 2 pages supplémentaires -
Créer la sortie TEI (Voir la XSLT de Manon et Generator Lectaurep-TEI de Lucas) -
modifier l'XSL de Manon pour corriger certains comportements
-
-
Faire l'affichage dans TEI Publisher -
modifier la TEI résultant de l'XSL pour rendre compte de la structure logique -
remplir le teiHeader -
contrôler la validité du fichier (suppose d'avoir élaboré un schéma)
-
-
Gérer les exceptions -
Contrôle automatique des dates dans les colonnes 2 et 6
Aller plus loin dans TEI Publisher
-
Implémenter la recherche à facette -
quelles facettes ?
-
-
afficher les images sources -
ajouter l'alignement texte/image
Edited by Alix Chagué