top par système : fuse.py
Suite à la réunion du CBP et la discussion dans le métro, ce serait bien de récupérer plus de séquences par systèmes.
- une solution serait d'avoir, dans fuse, un
--top-by-system
, par exemple à 30, qui laisse passer (en plus du top 100) les 30 tops par système à condition que le système apparaisse dans le top 100 normal. - mais cela demande aussi, dans le c++, de faire en sorte que ce top 30 soit segmenté. Pas ultra-prévu pour, à voir.
-
ou bien on en profite pour chambouler l'ensemble et lancer une partie du c++ (FineSegmenter, et bientôt CDR3/AA) après le fuse.non
Bref, ce n'est pas si facile. Aussi une crainte : que cela ramène des choses trop basses, de bruit comparables à d'autres clones qu'on affiche pas car caché par de plus gros clones.
À réfléchir ensemble, attendre retour du CBP de début février. (En attendant, solution simple est de relancer sur autre config,)
Demandé aussi par Rennes : top 100 + top 10 par système ?
Mais attention, certains systèmes où on n'a pas grand chose on va ramener des clones très faibles…
On mettra des gros warnings pour les trop faibles globaux
Voir le mail à McGill d'aujourd'hui... En RNA-Seq, ils ont (peut-être) du TR, mais caché par un Ig beaucoup plus gros :
reads clones
IGH -> 49714 100.0 5930 0.119
IGK -> 214250 100.0 8250 0.039
IGL -> 67030 100.0 4375 0.065
TRA -> 796 100.0 442 0.555
TRB -> 1158 100.0 586 0.506
TRD -> 61 100.0 43 0.705
TRG -> 126 100.0 80 0.635
Mais il y a toujours la question du bruit.
Évoqué lors du VW16
Ping : on est peut-être sur le point de modifier le fuse, penser aussi au top par système (ou au top 1000 + 100 par système)