Heuristique 1.9b : tester toutes les germlines, renvoyer la meilleure
Demandé par Aurélie
Une demande sur l'heuristique par un bio, cela ne se refuse pas. Au passage, on a
- perdu chimera.should_get. À voir.
- gagné les deux tests multi-*.should_get. Gniark, ils sont dans master maintenant, on ne pourra plus s'en débarasser aussi facilement...
- et c'est tout. Cela m'étonne, on devrait avoir d'autres tests type multi-*should_get. Les 3 séquences de bug d'aujourd'hui ?
Maintenant, une petite analyse de temps vdj/data/runs/14-08-Necker/UPNT715-MRD1-141209_S7_R1.fastq (300 MB)
== 2015.01
12s 1 système, -G germline/TRG
48s 14 systemes, -g germline -i
111s 14 systèmes, juste en enlevant le return, il teste effectivement les 14 systèmes jusqu’au bout
== maintenant 188s 14 systèmes, on prend le meilleur.
Mais j'ai du faire un truc de goret pour que cela passe (supprimer KmerSegmenter::~KmerSegmenter()), il doit y avoir des fuites de mémoire partout, cela devrait faire 111s.
Et l'analyse de résultats...
- on segmente un peu plus (c'est normal, avant si un germline était "détecté" mais pas segmenté, poubelle), Peut-être segmente-t-on trop ? On pourrait raffiner le score pour que si on hésite entre deux germlines, poubelle/
- quelques gros paquets ne sont pas au même endroit (ici, TRD + au lieu de TRD).
14-08-Necker/UPNT715-MRD1-141209_S7_R1.fastq
==> segmented 547992 reads (97.6%) /// 548383 reads (97.7%)
==> found 93060 40-windows in 547978 segments (97.6%) //// 104364 40-windows in 548372 segments (97.7%) inside 561433 sequences
2015.01 /// maintenant
TRG -> 153 -> 14
IGH -> 265 -> 5
TRD -> 520551 -> 37655
IGK -> 4 -> 3
TRA -> 45 -> 21
TRB -> 30 -> 12
IGL -> 11 -> 7
IGH+ -> 0 -> 0
VdJa -> 7892 -> 5491
TRD+ -> 12192 -> 497162
TRD+ -> 5339 -> 1686
TRD+ -> 1484 -> 6301
IGK+ -> 5 -> 5
IGK+ -> 21 -> 21
? -> 0 -> 0
SEG_+ -> 547485 -> 548142
SEG_- -> 507 -> 241
UNSEG too short -> 0 -> 0
UNSEG strand -> 10777 -> 11081
UNSEG too few (zero) -> 140 -> 143
UNSEG too few V -> 42 -> 43
UNSEG too few J -> 1752 -> 1769
UNSEG < delta_min -> 0 -> 0
UNSEG > delta_max -> 359 -> 7
UNSEG ambiguous -> 371 -> 7
= SEG, with window -> 547978 -> 548372
= SEG, but no window -> 14 -> 11
bon, j'ai du être vraiment trop crade, segment.cpp:260, KmerSegmenter kseg(seq, germline), créer cela dans la boucle et le renvoyer...
Mikaël, pourrais-tu voir à un moment si tu arrives à trouver le souci valgrind ? Il y a segment.cpp:245/246, j'ai commenté le delete, sinon cela ne passait plus... cela cache sûrement un truc crade que j'ai fait.
merci
Sur 0130-Jack/lisacellsb (le fichier a été copié sur bioinfo-inria) http://rbx.vidjil.org/browser/?custom=940&custom=941&
== Temps (sur rbx) 2015.01: 3'10 , maintenant : 4' . C'est plus que correct (et avant correction pb fuite mem) (au passage, 21 minutes sur bioinfo-inria avec -uU)
== Résultats on passe de 29.5% à 30%. Qui a le courage de regarder ? Le out/ est sur bioinfo-inria.
merci Mikaël !
Le temps est revenu à 3'50, ok