Heuristique i.0 : être capable d'inférer des germlines "inconnus"
Suite à la discussion en janvier à Necker. On voudrait segmenter des séquences... à la découverte de ce qu'on ne connaît pas. But : 100% des reads ont une explication, TOO_SHORT, ou sinon on dit ce qu'il y a dedans.
-
Cas relativement simple : +V+V+V+V+V+V+V__________________________ À distinguer du cas TOO_FEW_J / trop court. Ici, c'est probablement autre chose, et on pourrait extraire une fenêtre centrée sur la fin du V
-
Et cas plus dur : idem... sans les +V. Bref, être capable de deviner le point de jonction... on se souvient de ce qui avait été fait avec David. On pourrait tout à fait rentrer cela dans le Vidjil actuel : avoir un CountSegmenter qui prédit un point de cassure... (Question subsidiaire : que donne CRAC si on lui donne un jeu de reads V(D)J ?)
Séquences de Prague, sur rbx, collegues/pragues/IGH-UNSEG.affects Il y a des trop petits... mais il y a aussi d'autres choses...
Si on infère des choses bizarres, il faudra mettre des checks sur la representative et/ou de gros warnings partout (on est pas sûr que la fenêtre est pertinente, qu'autour c'est pareil...)
b9994d1 et 196acbc Sur Pee (217, Rennes)
- -g -i : 48% (110s)
- après max12: 85%
- après sortLeftRight : 99.1% (42s, car pas de -i)
Attention, est-on sûr de ce qu'on trouve ? Les longueurs des représentatives ont l'air plutôt bonnes, mais il faudrait quelque chose pour en être plus sûr et vérifier qu'on ne clustérise pas des bouts de V.
http://rbx.vidjil.org/browser/?custom=1442&custom=1443&custom=1568&custom=1569& À gauche, multi+inc, à droite, multi+xxx.
Changements légers ce matin, marche avec -i, pas segmenté si < 5 kmers (DETECT_THRESHOLD) http://rbx.vidjil.org/browser/?custom=1442&custom=1585&custom=1443&custom=1586&
ok pour "xxx"... mais il faudrait pouvoir avoir des choses plus méchantes, en devinant des germlines (à la David ?)
12bcb3cc: MAX1U, -4. Modèle de proba à discuter ensemble, pour l'instant c'est trop méchant.