Fine-tuning d'un modèle de segmentation en vue de la reconstitution de la structure logique
Segmentation sémantique des régions et des baselines des pages des répertoires de notaires
Objectifs
Annoter sémantiquement des images du random set sur lequel une première annotation des régions a été réalisée par un modèle entraîné par Alix Chagué. On assigne un label permettant de numéroter les colonnes et on annote les premières lignes de chaque enregistrement en colonne 5, dans le but d'entraîner un modèle de segmentation automatique. La segmentation automatique permet de reconstituer la structure logique du document, comme cela a été démontré dans l'expérience de transformation du Page XML en XML TEI. Voir issue 17.
Le modèle original avait été appliqué sur les documents eScriptorium 145 et 156. L'en-tête était annotée "header", et chaque colonne était annotée par "column_odd" ou "column_pair". C'est donc sur ces deux documents que l'annotation manuelle a été faite, pour un total de 200 images.
Protocole d'annotation manuelle
L'ontologie d'annotation a été établie lors de l'expérience de l'issue 17.
Ontologie - régions
On attribute une région à chaque colonne, l'en-tête, les écritures marginales, et les timbres.
- Col_1
- Col_2
- Col_3
- Col_4
- Col_5
- Col_6
- Col_7
- Header
- Marginal
- Stamp
Ontologie - baselines
On distingue les premières lignes de chaque enregistrement dans la colonne 5, la ligne indiquant la date dans la colonne 5, et les lignes de texte imprimé.
- First_line
- Main_date
- Printed
Protocole pour une page avec les colonnes déjà segmentées :
- Attribution des labels aux différentes colonnes
- Attribution des labels Main_date aux lignes indiquant la date
- Attribution des labels First_line pour chaque première ligne d'enregistrement
- Linking de chaque baseline à sa région respective
Début de l'annotation le 8 juillet (sur compte eScriptorium Lectaurep)
Notes
En cas de problème, des sauvegardes locales des documents avant annotation sémantique ont été faites par Aurélia et moi.