Faire un benchmark pour la reconnaissance d'entités nommées
- identifier quels sont les besoins en terme d'exploitation des données (qu'a-t-on besoin de détecter dans le texte ? etc.)
- lister les logiciels disponibles parmi ce que l'équipe ALMAnaCH a développé (prendre également en compte les expérimentations NLP s'il existe des chaines de traitement déjà définies) et parmi ce qu'il existe par ailleurs
- tester les performances de ces outils sur des données "propres" et des données en sortie directe d'HTR
- faire des préconisations sur les outils les mieux adaptés et la manière de les intégrer dans la chaine de traitement (branchement avec les outils mais aussi intégration de ces éléments dans les fichiers)
- rédiger un rapport rendant compte de ce benchmark et des choix logiciels et méthodologiques
Edited by Alix Chagué