Foire aux Questions
Transcription
Quelle est la différence entre Transkribus et Kraken ?
Transkribus est un logiciel avec interface graphique (GUI) qui permet de segmenter une page, de la transcrire (à la main ou automatiquement) et de l'annoter avant de l'exporter dans plusieurs formats possibles. L'interface de Transkribus est open source, mais ce n'est pas le cas de son système d'entraînement pour la transcription automatique : les modèles de transcription ne sont donc accessible que par l'intermédiaire de Transkribus. En plus, à partir de janvier 2020, l'utilisation du logiciel sera limités par des services premium.
Kraken est un logiciel en ligne de commande (CLI) qui permet de segmenter une page, de la transcrire (d'abord à la main pour créer les données d'entraînement, sinon automatiquement) en exportant le résultat en texte brut ou au format XML ALTO. Kraken est entièrement open source et permet de conserver le modèle entraîné. Kraken est en train de se doter d'une interface graphique avec eScriptorium
Qu'est-ce qu'eScriptorium ?
eScriptorium est une interface web pour le traitement d'images contenant du texte, leur segmentation, leur transcription et leur annotation. Actuellement développé comme une couche graphique pour Kraken, cette interface a vise à être compatible avec plusieurs solutions de transcription automatique. eScriptorium est développée dans le cadre du projet SCRIPTA.
en PDF [FR]
| en video
https://www.escriptorium.uk/
n'a rien à voir avec le projet SCRIPTA et sa plate-forme eScriptorium.
Comment puis-je accéder au(x) modèle(s) Kraken entraîné(s) pour la transcription des répertoires ?
Tous les modèles sont publiés et documentés sur le projet Gitlab models
.
Comment puis-je accéder au(x) modèle(s) Transkribus entraîné(s) pour la transcription des répertoires ?
A moins d'avoir un compte Transkribus et d'avoir accès à la collection du projet LECTAUREP, ce n'est pas possible. Ce(s) modèle(s) ne peu(ven)t être utilisé(s) que dans Transkribus.
Segmentation
Qu'est-ce que la segmentation ?
La segmentation consiste à identifier sur l'image d'un texte les différents éléments de mise en page : paragraphes (ou zones de texte), lignes, mots et parfois aussi lettres. Elle se traduite en un ensemble de coordonnées qui peuvent être ceux d'une ligne de base (baseline) correspondant au niveau inférieur d'une ligne, ou bien ceux d'un rectangle contenant la ligne.
Comment préparer la segmentation ?
Durant la phase 1 de LECTAUREP, nous avons utilisé Transkribus pour la segmentation des tableaux.
Durant la phase 2, nous préférons utiliser un outils ouvert et libre : le segmenteur de Kraken couplé à d'éventuels scripts supplémentaires.
Ce segmenteur est en cours d'intégration dans eScriptorium, et déjà accessible pour la production de données d'entraînement ici.
en PDF [FR]
Quelles sont les règles pour créer les données d'entraînement pour la segmentation ?
Voici quelques éléments d'encadrement pour la segmentation des tableaux.
- la ligne de base doit rendre compte de la séparation des colonnes (une ligne de base n'est donc pas la ligne de base d'une ligne du tableau mais celle d'une cellule).
- autant que possible, on essaie de faire en sorte que l'épaisseur du pinceau corresponde à la hauteur de la ligne. Il faut cependant noter que l'espace de création de données d'entraînement ne permet pas de faire varier la taille du pinceau.
- on ne différencie pas les différents types de texte (pas d'annotation sémantique)
- on segmente tout le tableau et pas uniquement la colonne centrale contenant les lignes de texte.
Pour toutes questions supplémentaires :
Comment entraîner le segmenteur de Kraken ?
Voir le guide "Comment entraîner le segmenteur de Kraken"