Reconstituer les paragraphes et les blocs de texte
Created by: alix-tz
Cela inclut de résoudre des césures, comme c'était le cas dans la toute première version du script (xml2txt_v0.1.py), qui exportait un texte brut. Ici, on devrait pouvoir exporter un fichier TEI ne contenant que les niveaux <document>
, <figure>
et <p>
, avec éventuellement des éléments <title>
pour les titres et sous-titres identifiés. Où chaque <p>
contiendrait un paragraphe reconstitué.
Chaque <p>
devrait alors conserver une information sur la ou les pages sur lesquels il se trouve dans la structure logique. (à partir de l'attribut @pagenb_corr de chaque <pb>
).
Le problème principal de cette phase de traitement réside dans les blocs de texte semblables à des tableaux, pour lesquels il faudra sûrement intervenir manuellement dans un premier temps.
Il faudra par ailleurs réfléchir à la manière de rendre possible des corrections sur les fichiers entre chaque phase de transformation : autrement les logging sont inutiles car ils utilisent les id des <line>
/<lb>
, qui seraient perdus dans cette dernière transformation.