Véracité des causes de non segmentation (et implications du -t ou -2)
Les causes de non segmentation varient grandement en fonction des paramètres utilisés, ce qui induit en erreur. Par exemple sur des données de LLC, ajouter un -t 0 (par défaut -t 100), conduit à considérer le V dans toute sa longueur et donc le UNSEG too few V/J passe de ~10^5 à ~10^3, les séquences passant en fait en « UNSEG only V/5' ». Cela amène d'ailleurs à se poser la question de la pertinence de -t 100 : il y a des séquences qui contiennent vraiment du V mais dont on pense qu'elles n'en ont pas à cause du -t 100.
Par ailleurs sur ces mêmes données, utiliser un -2 fait passer une très grosse partie des séquences de « UNSEG only V/5' » à « UNSEG only J/3' » pour une raison que je n'explique pas.
Les données en question : patient 1803 et 1806 (Lille).