La représentative couvre mal certains jeux de clones
Jeu de données IGH de Cristina http://rbx.vidjil.org/browser/index.html?patient=527&config=27 (voire les clones en fonction de clone length/GC content). Tous les reads font 250 bp, on a des représentatives autour de 50bp.
Même chose avec ce jeu de données (F. Paris-Pitié) : http://rbx.vidjil.org/browser/index.html?patient=510&config=26 (certains clones sont autour de 70bp alors que les reads font 300bp)
Dans les deux jeux de données, même raison : il s'agit d'une séquence normale, suivie d'une série de A de longueur variable, suivie d'une séquence quelconque. On avait déjà eu ça dans un jeu de données. Rennes ? Exemples en pièce jointe (clone.fa-4 c'est pour le patient 527 et clone.fa-18 c'est pour le patient 510).
Oui c'était bien Rennes (mail du 18/03/2015, 18h10).
La représentative couvre donc mal ces jeux, mais c'est normal. Ce qu'on aimerait c'est récupérer les reads du clone depuis Vidjil :)
(écrit il y a deux heures, grr producteev) On va bien sûr essayer d'améliorer cela, mais on aura toujours des séquences bizarres.
- un filtre côté c++ pour éjecter ces séquences
-
- côté browser les warnings
hmm… qu'entends-tu par « éjecter ces séquences » ? Si la séquence amont accroche (avec les seuils de e-valeur), a-t-on vraiment envie de la virer ?
Il se trouve d'ailleurs qu'au niveau du polyA, la qualité chute dans le FASTQ : c'est le séquenceur qui se tape un délire ?
Problème lorsqu'on a un fort taux d'erreur sur R2, même avec la nouvelle heuristique, il y a des cas qui se passent mal : http://rbx.vidjil.org/browser/index.html?sample_set_id=11808&config=26 http://rbx.vidjil.org/browser/index.html?sample_set_id=11812&config=35 (sur le 2è clone)