Identifier les pages de titres, les titres et les sous-titres
Created by: alix-tz
Afin de reconstruire la structure logique des monographies, il manque encore de pouvoir identifier les différents niveaux logiques.
On peut s'inspirer de la solution utilisée pour corriger les headers :
- dans la mesure où il existe un nombre limité de sous-titres possibles dans les monographies, ceux-ci peuvent être corrigés et identifiés en tant que tels
- il ne faut cependant pas ignorer les titres et sous-titres des articles liminaires et finaux des volumes
On peut compléter cette solution en ajoutant la prise en compte de la table des matières (ToC), mais celle-ci doit être extraite et peut-être nettoyée de manière à être entièrement fiable. Il faudra en outre comparer les titres tels qu'ils sont mentionnés dans les ToC et tels qu'ils sont données dans les pages de titres.
A noter : il existe plusieurs types de ToC :
- la table des matières de chaque volume (généralement à la fin)
- la table des matières de toutes les séries publiées ou à paraître (généralement au début sur une seule page)
Dans un premier temps, il est préférable de travailler avec une ToC traitée de manière semi-automatique plutôt qu'entièrement automatique : les erreurs d'OCR sont parfois trop nombreuses sur ces parties à l'affichage dense et plus complexe.