Modèle Mixte 1 pour LECTAUREP
Expé : entraîner un modèle "générique" (ou mixte) à partir de l'ensemble des données transcrites disponibles, qu'elles aient été relues ou non (on a préalablement trié les sets inutilisables). Le but est d'obtenir un modèle très générique qui atteindrait environ 80% d'exactitude et qu'on pourra ensuite finetuné avec des sets de données "propres".
⚠ aucune de ces données n'est tirée du Random Set qui pourrait faire l'objet d'une expérience similaire !
Plusieurs questions :
- est-ce qu'on arrive à 80 % ? (Est-ce que la quantité semble compenser la qualité moindre ?)
en jouant avec le learning rate et l'architecture (VGSL specs) on arrive même à 90% remarque de Daniel : avec 50 000 lignes on devrait largement être dans ces ordres-là.
- est-ce qu'on observe un gain d'efficacité au moment du finetuning ?
dans l'accuracy report oui, mais peut-être pas dans la transcription elle-même.
- si on overfit ce modèle de base, est-donne-t-il de meilleur résultats ?
a priori non nécessaire.