Gaps affines pour le align.cgi et le FineSegmenter
Par exemple sur ce patient : http://rbx.vidjil.org/browser/?patient=99&config=1 un alignement entre les deux clones majoritaires donne un alignement assez spécial : normalement on a une insertion de 6 au niveau de la jonction entre les deux séquences mais à la place on a des insertions éparses. Le coût d'extension semble trop élevé.
Ah ben non je suis bête, on n'a pas de gap affine… du coup il faudrait la gestion des gap affines : ça peut induire les biologistes en erreur sur les réelles différences entre deux séquences.
Sans les gars affines, on peut au moins mieux régler les paramètres Semi-Global de début et de fin (en fait il n'y en pas, zéro pour l'instant)
18616d4e et 2d59131c, reste à trouver les bons paramètres... tools/align peut servir à cela
un point à régler pour la qualité du FineSegmenter. Tout est en place, il ne reste qu'à trouver les bons paramètres...
Oui par exemple ici : http://rbx.vidjil.org/browser/index.html?patient=805&config=25 Le clone majoritaire en IGH et en IGH+ sont probablement les mêmes (sauf que l'un est coupé) mais l'alignement produit est très foireux (avec des gaps partout).
Cela peut aider à régler les paramètres :)
Vidjil Survey, Patrick : "Can you improve the aligment's tools. We observe some errors."
Vérifier ce que cela donne actuellement. Mettre en prod les gaps affines, tester sur des séquences. Re-déployer align.cgi.
Évoqué par Martin, et d'autres, vendredi dernier au CHR
Problème de Patrick sur des séquences de longueur différentes : les gap affines sont-ils mis ? A priori non ajouté dans lazy_msa, je teste
Dans LazyMSA remplacer
Cost dpCost = VDJ;
par
Cost dpCost = VDJaffine;
Permet de passer de cet alignement : ATGATCAGCCTGAGAGATAC ---------ATGA-TCA-GC à : ATGATCAGCCTGAGAGATAC ATGATCAG-----------C
Ping.
ping
j'ai l'impression qu'en affine on force à ce que les deux premières et dernières lettres soient alignées entre elles (cf. cgi-align2.should-get)
Pour tester plus facilement, on peut aussi utiliser, dans tools, ./align -c 9 ../../data/msa2.fa -i 0 -j 1
En tout cas celui qui a fait 2d59131c n'avait pas mis de tests à côté, c'est mal.
Et -m 6 -x est éclairant.
Déjà fc0297a, mais cela n'explique pas tout. La fin serait aussi à faire.
./align -c 9 ../../data/msa3.fa -i 0 -j 1 -x segmente-faute de temps en temps. Cela vient peut-être du debug que j'ai rajouté, mais en tout cas ce n'est pas normal.
Perso le align ne compile pas (pleins d'erreurs liées à docopt).
Quand on voit mieux les mutations, on voit mieux quand l'aligneur fait n'importe quoi...
Hum. En fait, il semblerait que le backtrack Gotoh n'ait tout simplement pas été implémenté. dp.backtrack() se ballade dans B, mais pas dans Bins / Bdel. C'est fâcheux.
En fait si, mais il y a autre chose.
8e8c46c. Corrige des choses, et plus de segfault. Mais il y a toujours la première lettre, je regarde.
e2a453c. Nettoyage et merge de l'ensemble bientôt.
Nov 2016: non, les gaps affines ne sont pas utilisés pour le FineSegmenter (mais bien pour l'alignement). Mais on n'en veut pas nécessairement : le FineSegmenter fait déjà les gaps de délétion à la fin.