Préparer des données d'entraînement pour un modèle de NER avec camemBERT
De l'export eScriptorium à l'annotation des entités
Pour entraîner, ou plutôt affiner dans notre cas, un modèle de NER avec camemBERT, il est nécessaire d'envisager une chaîne de traitement pour pour créer de la régularité dans les données issues des exports d'HTR.
L'objectif de cette expérience est de :
- Reconstituer les enregistrements des pages des répertoires de notaire à partir du PAGE XML (voir issue 17 du Gitlab Documentation)
- Mettre au point un "débruiteur" avec un système de règles. On cherche à reconstituer les espaces entre les mots lorsque ceux-ci ont été agglutinés par l'HTR (word segmentation).
- Normaliser les abréviations à l'aide d'un référentiel.
- Evaluer la qualité des transcriptions automatiques par lot avec KaMI et déterminer un set de "pages candidates" à l'annotation
Données utilisées pour l'expérience
On utilise les documents 145 et 156 (random set), dont les régions et les baselines ont été préalablement annotées sur eScriptorium, voir #2 (closed).
Ressources :
Edited by Hugo Scheithauer