P-value / E-value du segmenter (nb de k-mers)
merci Mikaël !
Comparaison entre multi+inc et multi+inc+e-val (1e-6) : http://rbx.vidjil.org/browser/?custom=1846&custom=2065& Il n'y a que 67 reads segmentés en moins
Sur le jeu de Patrick : http://rbx.vidjil.org/browser/?custom=2063&custom=1988&custom=2064&custom=1989& Les séquences qui disparaissent avec le 1e-6 s'alignent toutes de manière contigue sur le génome sur toute la longueur de la représentative, d'après Ensembl.
En faisant la même chose avec les séquences communes aux deux configs, on a quelques surprises. Il y a encore des alignements contigus sur le génome. La raison : des gènes J non recombinés. On a plein de J à droite et juste un V à gauche (par hasard). Ça passe haut la main la e-valeur (et c'est normal).
Donc il faut bien faire une e-valeur à droite et à gauche, mais pour être plus strict en fait (une e-valeur juste sur le nombre d'affectations dans la partie gauche (sans distinguer V et J) et même chose sur la partie droite ?).
La probabilité est calculée sur toute la longueur de la séquence (sauf les derniers nucléotides) mais on ne peut pas avoir de k-mers non plus au niveau de la jonction… Faut-il corriger cela ? (facile : en supposant que le nombre d'insertions est nul, dur : en ayant un modèle sur le nombre d'insertions, qui dépend du locus…)
J'ai lancé le jeu de données de Larisa en multi+inc et multi+inc+e-val → seule différence un clone TRG (le seul, le reste est du TRB) mis de côté par la e-value. Plutôt positif donc.
On va dire que cette tâche est terminée, merci !