k-mers communs entre IGHV et IGHD
Mikaël, à propos d'IGH : "Une partie du problème vient du fait que deux gènes D ont des k-mers partagés avec des gènes V. Cela peut être vérifié facilement : ./vidjil -G germline/IGH -K germline/IGHD.fa Du coup cela décale la fenêtre vers la droite et on a une moins bonne spécificité."
La sotie en question :
J00234|IGHD2-15*01|Homo AGGATATTGTAGTGGTGGTAGCTGCTACTCC _ _ _ _ _ _ _ _+X+X _ _ _ _ _ _ _ _ _
X93616|IGHD3-22*01|Homo GTATTACTATGATAGTAGTGGTTATTACTAC _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+X _ _
- modifier notre graine d'IGH pour que cela n'arrive pas ?
- prendre en compte le répertoire D pour marquer certains k-mers de V et de J ambigus ? (Finalement, jusqu'à maintenant le rep D ne sert pas du tout pour le KmerSegmenter !)
- décaler la window pour compenser ?
J'avais oublié, mais ton merge de voodooj me l'a rappelé : le -t 100 solutionne cela : « Interestingly with -w 100, the number of foud windows is much larger because now the window is better centered around the junction. ». Par chance les k-mers partagés avec les gènes D ne sont pas dans les 100 derniers nucléotides des V.
la chance est avec nous :-)
La solution 2 "prendre en compte le répertoire D pour marquer certains k-mers de V et de J ambigus" me semble tout de même raisonnable et robuste.
On n'était pas si chanceux que cela, même avec le -t 100 :
../../vidjil -y 0 -s '#####-#####' -K -G ../../germline/IGH -u ../../data/common-D-V.fa +X+X+X+X+X+X+X+X+X+X _ _ _ _ _ _ _ _ _+X _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+x+x+x+x+x+x+x+x+x+x
en insérant aussi les D : +X+X+X+X+X+X+X+X+X+X _ _ _ _ _ _ _ _ _ ?+f+f+f+f+f+f _ _ _ _ _ _ _ _ _ _+x+x+x+x+x+x+x+x+x+x
ok, c'est une graine non-standard.