Fine-tuning d'un modèle de segmentation en vue de la reconstitution de la structure logique

Segmentation sémantique des régions et des baselines des pages des répertoires de notaires

Objectifs

Annoter sémantiquement des images du random set sur lequel une première annotation des régions a été réalisée par un modèle entraîné par Alix Chagué. On assigne un label permettant de numéroter les colonnes et on annote les premières lignes de chaque enregistrement en colonne 5, dans le but d'entraîner un modèle de segmentation automatique. La segmentation automatique permet de reconstituer la structure logique du document, comme cela a été démontré dans l'expérience de transformation du Page XML en XML TEI. Voir issue 17.

Le modèle original avait été appliqué sur les documents eScriptorium 145 et 156. L'en-tête était annotée "header", et chaque colonne était annotée par "column_odd" ou "column_pair". C'est donc sur ces deux documents que l'annotation manuelle a été faite, pour un total de 200 images.

Protocole d'annotation manuelle

L'ontologie d'annotation a été établie lors de l'expérience de l'issue 17.

Ontologie - régions

On attribute une région à chaque colonne, l'en-tête, les écritures marginales, et les timbres.

Col_1
Col_2
Col_3
Col_4
Col_5
Col_6
Col_7
Header
Marginal
Stamp

Ontologie - baselines

On distingue les premières lignes de chaque enregistrement dans la colonne 5, la ligne indiquant la date dans la colonne 5, et les lignes de texte imprimé.

First_line
Main_date
Printed

Protocole pour une page avec les colonnes déjà segmentées :

Attribution des labels aux différentes colonnes
Attribution des labels Main_date aux lignes indiquant la date
Attribution des labels First_line pour chaque première ligne d'enregistrement
Linking de chaque baseline à sa région respective

Début de l'annotation le 8 juillet (sur compte eScriptorium Lectaurep)

Notes

En cas de problème, des sauvegardes locales des documents avant annotation sémantique ont été faites par Aurélia et moi.

Edited Jul 23, 2021 by Hugo Scheithauer

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information

Admin message