Un modèle pour aider à annoter les en-têtes
contexte
Lors de l'entrainement du modèle générique (#8) la plupart des données d'entrainement n'incluaient pas la transcription des en-têtes imprimées, qui devraient pourtant être facilement transcrites puisqu'elles sont extrêmement constantes.
Comme il est long et pénible d'annoter manuellement ces en-têtes, il s'agirait de créer un petit modèle d'appoint pour transcrire ces en-têtes qui ont été laissées vides dans le set d'entrainement. Le modèle ne servirait pas à autre chose puisqu'à terme, l'objectif est que le modèle générique transcrive aussi bien les en-têtes imprimées que le contenu manuel.
comment utiliser ce modèle
En quelques mots :
- pour chacune des images du set d'entrainement faire passer le modèle d'entête
- puis grâce à la constance de la segmentation, simplement copier-coller la transcription des lignes d'en-tête de la version "en-têteur" vers la version normale, à l'aide du volet Text.
Dataset
On dispose de 44 images variées + 53 images issues de Marotte annotées à la main (seulement les en-têtes): 506