NER4Archives issueshttps://gitlab.inria.fr/almanach/ner4archives/-/issues2021-09-03T10:48:49+02:00https://gitlab.inria.fr/almanach/ner4archives/-/issues/27Pourcentage d'alignement ou de non-alignement au niveau du label ?2021-09-03T10:48:49+02:00Lucas TerrielPourcentage d'alignement ou de non-alignement au niveau du label ?https://gitlab.inria.fr/almanach/ner4archives/-/issues/25Rajouter backup général d'Inception2021-09-01T14:36:51+02:00Lucas TerrielRajouter backup général d'Inception- layers
- tagset
- all project- layers
- tagset
- all projecthttps://gitlab.inria.fr/almanach/ner4archives/-/issues/24Readme principal à revoir2021-04-27T15:07:28+02:00Lucas TerrielReadme principal à revoirLucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/23Notebooks à revoir2021-04-29T14:00:38+02:00Lucas TerrielNotebooks à revoir- [ ] Pipeline entraînement spaCy
- [x] Pipeline extraction texte des IR EAD
- [ ] Conversion au format BIO
- [ ] Reprise du format BIO (?)
- [ ] BIO vers Spacy (?)- [ ] Pipeline entraînement spaCy
- [x] Pipeline extraction texte des IR EAD
- [ ] Conversion au format BIO
- [ ] Reprise du format BIO (?)
- [ ] BIO vers Spacy (?)Lucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/22Workflow la constitution du corpus NER IR EAD2021-09-01T14:37:13+02:00Lucas TerrielWorkflow la constitution du corpus NER IR EAD- [x] Choix de la plateforme d'annotation
- [x] Attribuer les rôles (annotateurs, correcteur, annotateur-expert ?, *project-creator*/*manager*)
- [x] Schéma d'annotation : modèle logique d'annotation (couches d'annotations, tagset), for...- [x] Choix de la plateforme d'annotation
- [x] Attribuer les rôles (annotateurs, correcteur, annotateur-expert ?, *project-creator*/*manager*)
- [x] Schéma d'annotation : modèle logique d'annotation (couches d'annotations, tagset), formats de sorties (BIO, TEI, annotations insérées et non imbriquées)
- [x] Guide d'annotation (*guidelines*) : "Ce qu'il faut annoter plutôt que comment annoter", mise en place durant pré-campagne par annotateur-expert puis MAJ par retours durant la campagne (phase de rodage)
- [x] Correction et Évaluation du corpus et métriques inter-annotateurs (k de Cohen, Kappa, F1-score)
- [x] Finalisation : publication
- [x] Partitionement des données : train/dev/test ou *cross-validation* ?https://gitlab.inria.fr/almanach/ner4archives/-/issues/21Ajouter le recommendeur externe spaCy pour Inception et le script de lancemen...2021-09-01T14:37:21+02:00Lucas TerrielAjouter le recommendeur externe spaCy pour Inception et le script de lancement associé- [ ] documentation
- [ ] script Bash de lancement
- [ ] Module spaCy classifier
- [ ] Module Entity-fishing API- [ ] documentation
- [ ] script Bash de lancement
- [ ] Module spaCy classifier
- [ ] Module Entity-fishing APILucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/20Rajouter les corpus ner FR au wiki2021-04-27T14:54:31+02:00Lucas TerrielRajouter les corpus ner FR au wikiLucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/19Extraction du texte des IR EAD2021-04-29T14:01:02+02:00Lucas TerrielExtraction du texte des IR EAD- [x] Réecrire la pipeline d'extraction de texte des Instruments de recherche EAD
- [x] Mettre à disposition les fichiers textes bruts- [x] Réecrire la pipeline d'extraction de texte des Instruments de recherche EAD
- [x] Mettre à disposition les fichiers textes brutsLucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/18A ajouter dans wiki Présentation générale2021-04-27T13:12:13+02:00Lucas TerrielA ajouter dans wiki Présentation générale*en cours :*
[Pourquoi sérialiser les données en un set d'entraînement et un set d'évaluation ? quelles stratégies ?]
[Quels métriques pour évaluer les modèles NER et NED ?]
[Quels stratégies pour l'annotation manuelle ?]*en cours :*
[Pourquoi sérialiser les données en un set d'entraînement et un set d'évaluation ? quelles stratégies ?]
[Quels métriques pour évaluer les modèles NER et NED ?]
[Quels stratégies pour l'annotation manuelle ?]https://gitlab.inria.fr/almanach/ner4archives/-/issues/17trouver une place pour outils annot manuelle2021-02-25T13:45:22+01:00Lucas Terrieltrouver une place pour outils annot manuelleDans la FAQ ?
### Outils d'annotation manuelle
- :computer:[TagTog](https://www.tagtog.net/)
- :computer: [INCEpTION](https://inception-project.github.io/)Dans la FAQ ?
### Outils d'annotation manuelle
- :computer:[TagTog](https://www.tagtog.net/)
- :computer: [INCEpTION](https://inception-project.github.io/)https://gitlab.inria.fr/almanach/ner4archives/-/issues/16Résoudre l'entrainement avec Wikipédia sur EF2021-04-27T13:12:34+02:00Lucas TerrielRésoudre l'entrainement avec Wikipédia sur EFCommande `$ ./gradlew train_wikipedia -Plang=fr`
Le dump fr XML de Wiképédia ne suffit pas.
- 1 : Dump KB (wikidata) et en en cours > réinitialiser les chemins dans les yaml correspondant > tenter de nouveau le process.
- 2 : vérifie...Commande `$ ./gradlew train_wikipedia -Plang=fr`
Le dump fr XML de Wiképédia ne suffit pas.
- 1 : Dump KB (wikidata) et en en cours > réinitialiser les chemins dans les yaml correspondant > tenter de nouveau le process.
- 2 : vérifier les chemins d'accès aux fichiers XML dans les yamlhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/15Résoudre EF sur le cluster CLEPS2021-04-27T13:12:18+02:00Lucas TerrielRésoudre EF sur le cluster CLEPSL'installation de EF fonctionne sur le noeud de connexion du cluster CLEPS; Lors d'une connexion en mode intéractif (CPU/GPU) EF ne trouve plus les dépendances Java.
- Piste initialisation de la variable d'environnement `$TMPDIR`
Voir...L'installation de EF fonctionne sur le noeud de connexion du cluster CLEPS; Lors d'une connexion en mode intéractif (CPU/GPU) EF ne trouve plus les dépendances Java.
- Piste initialisation de la variable d'environnement `$TMPDIR`
Voir [issue #21](https://gitlab.inria.fr/paris-cluster-2019/cleps/cleps-userguide/-/issues/21#note_442450)https://gitlab.inria.fr/almanach/ner4archives/-/issues/14Faire schéma d'étapes/workflow2021-02-02T12:40:50+01:00Lucas TerrielFaire schéma d'étapes/workflowÉtape 1 ) Enrichissement de Wikipédia/Wikidata
Étape 2) Nouveau dump de la base Wikipédia/Wikidata (via le module Grisp/Hadoop - [grisp](https://github.com/kermitt2/grisp))
Étape 3) entraînement et création du nouveau modèle de désambi...Étape 1 ) Enrichissement de Wikipédia/Wikidata
Étape 2) Nouveau dump de la base Wikipédia/Wikidata (via le module Grisp/Hadoop - [grisp](https://github.com/kermitt2/grisp))
Étape 3) entraînement et création du nouveau modèle de désambiguïsation via la commande `./gradlew train_wikipedia -Plang = fr`
Étape 4) Évaluation du nouveau modèle (entity-fishing)
Étape 5) annotation et évaluation du corpus des Archives nationales via le prototype edgehog ([hedgehog](https://github.com/lfoppiano/hedgehog)) relier à l'instance locale d'entity-fishing
Étape 6) suivant les résultats retour à l’Étape 1)Lucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/13Installer EF sur cluster cleps2021-01-21T11:57:51+01:00Lucas TerrielInstaller EF sur cluster cleps- Installer le JRE/JDK 8- Installer le JRE/JDK 8Lucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/12Faire fonctionner l'option d'évaluation d'EF sur un nouveau dataset2021-04-27T13:12:29+02:00Lucas TerrielFaire fonctionner l'option d'évaluation d'EF sur un nouveau datasetComment faire fonctionner `$ ./gradlew evaluation -Pcorpus=[dataset]`
voir avec Tanti ?Comment faire fonctionner `$ ./gradlew evaluation -Pcorpus=[dataset]`
voir avec Tanti ?Lucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/11Consigner les résultats des évaluations sur les dataset2021-04-27T13:12:39+02:00Lucas TerrielConsigner les résultats des évaluations sur les dataset- consigner le F1 score, recall et precision au fur et à mesure des expériences sur les golden set- consigner le F1 score, recall et precision au fur et à mesure des expériences sur les golden setLucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/10Arranger le notebook pipeline XML2texte2021-02-25T13:45:44+01:00Lucas TerrielArranger le notebook pipeline XML2texte- [x] Prendre la dernière version
- [x] A la fin de la constitution des golden set (TagTog et EF) et de leurs évaluation, vérifier si la récupération du texte à une incidence- [x] Prendre la dernière version
- [x] A la fin de la constitution des golden set (TagTog et EF) et de leurs évaluation, vérifier si la récupération du texte à une incidenceLucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/9Question de la sérialisation et du passage de contexte dans EF2021-04-27T13:12:43+02:00Lucas TerrielQuestion de la sérialisation et du passage de contexte dans EFA voir ...A voir ...Lucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/8Créer un golden set via TagTog2021-04-27T13:12:49+02:00Lucas TerrielCréer un golden set via TagTog- [ ] importer au format TSV versés dans `dataset/`
- [ ] Créer les IOB via la pipeline de conversion jupyter issue #3- [ ] importer au format TSV versés dans `dataset/`
- [ ] Créer les IOB via la pipeline de conversion jupyter issue #3Lucas TerrielLucas Terrielhttps://gitlab.inria.fr/almanach/ner4archives/-/issues/7Créer un gloden set via Entity-fishing2021-04-27T13:12:24+02:00Lucas TerrielCréer un gloden set via Entity-fishing- [x] utiliser la commande EF pour générer des données d'entrainement/évaluation pré-annotés XML à partir des 16 fichiers textes
- [ ] évaluer le temps de génération du corpus sur le cluster ~~cleps~~ traces6
- [x] verser le tout sur git...- [x] utiliser la commande EF pour générer des données d'entrainement/évaluation pré-annotés XML à partir des 16 fichiers textes
- [ ] évaluer le temps de génération du corpus sur le cluster ~~cleps~~ traces6
- [x] verser le tout sur gitlab dans `dataset/`Lucas TerrielLucas Terriel