Mentions légales du service

Skip to content
Snippets Groups Projects
Open Export eScriptorium XML Page vers TEI Publisher
  • View options
  • Export eScriptorium XML Page vers TEI Publisher

  • View options
  • Open Issue created by Hugo Scheithauer

    Sessions de travail

    Préalable

    création d'un set d'exemples sur eScriptorium : http://traces6.paris.inria.fr/document/699/edit/

    02/06/21

    • lancement du projet
    • vérification de la qualité des données
    • ajout des annotations nécessaires dans eScriptorium
      • annotation des regions : en-tête, et différentes colonnes
      • annotation des baselines de l'en-tête
      • annotation des baselines représentant les premières lignes de chaque enregistrement dans la colonne 5 (Noms, prénoms et domiciles des parties)
      • association des baselines à leur region respective
    • export XML Page
    • création du jupyter colab
      • chargement des fichiers
      • identification des premières lignes d'un paragraphe
      • récupération des coordonnées signifiantes

    08/06/2021

    • poursuite du travail dans le jupyter colab
    • regroupement des nœuds en fonction de leurs coordonnées
    • création de la class Row() correspondant à une entrée dans le répertoire :
      • le numéro lui étant associé
      • une date d’enregistrement
      • un ou plusieurs types d'acte
      • un résumé
      • informations relatives aux droits d'enregistrement (date et droits payés)
    • tri des noeuds en fonction de leur colonne d'appartenance
    • test réalisé sur FRAN_0025_3056_L-0.xml

    17/06/2021

    • Test sur une autre page d'un répertoire
    • Ajout d'un mécanisme pour vérifier si la ligne est associée à une région ou non. Si non associée, stockage dans une catégorie 'misc'
    • Mise en place via Colab du téléchargement de la la XSLT de Manon et du parser Saxon
    • Application de la transformation dans Colab et génération du fichier TEI

    Entre-séance

    21/06/2021

    • Modélisation de l'arbre TEI, voir #17 (comment 535202)
    • Création du nœud <text> et reconstitution des enregistrement dans le fichier TEI à partir du JSON créé depuis le PAGE XML
    • Création d'une sortie TEI pour chacun de nos fichiers de test

    Entre-séance

    • Réunion avec Floriane et Manon pour discuter de TEI Publisher et nous montrer une visualisation de nos fichiers sur la plateforme
    • Finition de la création de la sortie TEI avec la structure table
    • Test de déploiement sur TEI Publisher avec la structure table
    • Implémentation récursive bout-en-bout

    Reste à faire

    • Regrouper les lignes du paragraphe central
    • Regrouper le segments des autres colonnes qui vont avec une ligne "first_line" donnée
    • Résoudre les TODO
    • Vérifier qu'on a tout dans le bon ordre
    • Tester sur 1 ou 2 pages supplémentaires
    • Créer la sortie TEI (Voir la XSLT de Manon et Generator Lectaurep-TEI de Lucas)
      • modifier l'XSL de Manon pour corriger certains comportements
    • Faire l'affichage dans TEI Publisher
      • modifier la TEI résultant de l'XSL pour rendre compte de la structure logique
      • remplir le teiHeader
      • contrôler la validité du fichier (suppose d'avoir élaboré un schéma)
    • Gérer les exceptions
    • Contrôle automatique des dates dans les colonnes 2 et 6

    Aller plus loin dans TEI Publisher

    • Implémenter la recherche à facette
      • quelles facettes ?
    • afficher les images sources
    • ajouter l'alignement texte/image
    9 of 17 checklist items completed · Edited by Alix Chagué
    • Merge request
    • Branch

    Linked items ... 0

  • Activity

    • All activity
    • Comments only
    • History only
    • Newest first
    • Oldest first
    Loading Loading Loading Loading Loading Loading Loading Loading Loading Loading