Un modèle pour aider à annoter les en-têtes

contexte

Lors de l'entrainement du modèle générique (#8) la plupart des données d'entrainement n'incluaient pas la transcription des en-têtes imprimées, qui devraient pourtant être facilement transcrites puisqu'elles sont extrêmement constantes.

Comme il est long et pénible d'annoter manuellement ces en-têtes, il s'agirait de créer un petit modèle d'appoint pour transcrire ces en-têtes qui ont été laissées vides dans le set d'entrainement. Le modèle ne servirait pas à autre chose puisqu'à terme, l'objectif est que le modèle générique transcrive aussi bien les en-têtes imprimées que le contenu manuel.

comment utiliser ce modèle

En quelques mots :

pour chacune des images du set d'entrainement faire passer le modèle d'entête
puis grâce à la constance de la segmentation, simplement copier-coller la transcription des lignes d'en-tête de la version "en-têteur" vers la version normale, à l'aide du volet Text.

Dataset

On dispose de 44 images variées + 53 images issues de Marotte annotées à la main (seulement les en-têtes): 506

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information

Admin message

Un modèle pour aider à annoter les en-têtes

contexte

comment utiliser ce modèle

Dataset