Séquences productives : frameshifts menant à des séquences non productives
Séparé de tâche CDR3, et séparé de codons stops (#2220 (closed)).
Florian:
- Le dernier point, c'est de savoir si vidjil doit chercher ou non les codons stop aussi en amont/aval. Certes, le CDR3 est fonctionnel, mais la séquence ne le sera peut-être pas. Soit il faut une double feature stop-cdr3 et stop-sequence, soit une seule qui prenne en compte les deux possibilités. Toutes les séquences que j'ai trouvées non conformes le sont à cause de ce point. En amont, ce serait relativement simple; en aval, je ne sais pas quelle est la limite avant qu'un codon stop soit handicapant lors de la traduction. (-> traité par #2220 (closed)).
Mathieu: 3Disons que, pour l'instant, on ne dit que si le CDR3 est productif, pas plus. Le problème pour s'étendre "plus loin" est tout le problème du calcul de la séquence représentative. On peut avoir des reads d'un clone qui sont productifs, d'autre non. Bref, on mettra une tâche pour cela, mais on verra ultérieurement, à une prochaine release. Merci de garder tes séquences discordantes quelque part, on en aura bientôt besoin.
Mentionné aujourd'hui par Aurélie et Stéphanie → regarder aussi STOP dans le V ou le J, regarder aussi pseudo-gène ?
Demander séquences à Aurélie ?
Sur l'exemple donné ensuite par Aurélie (mail 31/08, 09h40), la séquence non productive selon IMGT est :
IGHV4-3103 1/CAATCGGCCGTGG/6 IGHD2-1501 1/G/2 IGHJ5*02 373 nt, 12 803 reads (16.46%) AGTCGGGCCCAGGACTGGTGAAGCCTTCACAGACCCTGTCCCTCACCTGCATTGTCTCTGGTGGCTCCATCAGCAGTACTTCTTACTTCTGGACTTGGATCCGCCAACACCCCGGGAAGGACCTGGAGTGGATTGGCTACATCTATTACAGTGGGAGCACCTACTACAACCCGTCCCTCAAGAGTCGAGTCACCATGTCAATAGACACCTCTGCGAACCAGTTCTTCCTGCAGTTGAGCTCTGTGACTGCCGCGGACACGGCCGTGTATTACTGTGCGAGA GCAATCGGCCGTGGTTGTAGTGGTGGTATTTGTTACTC GAACTGGTTCGACCCCTGGGGCAGGGAACCCTGGTCACCGTCTCCTCAGGTAAG
La différence a lieu à la fin du CDR3 où Vidjil sort WFDPW et où IMGT sort WF#PL.
Il y a un autre clone, très semblable qui est vu productif par les deux :
IGHV4-3103 1/CAATCGGCCGTGG/6 IGHD2-1501 1/G/2 IGHJ5*02 369 nt, 16 457 reads (21.16%) GGAGTCGGGCCCAGGACTGGTGAAGCCTTCACAGACCCTGTCCCTCACCTGCATTGTCTCTGGTGGCTCCATCAGCAGTACTTCTTACTTCTGGACTTGGATCCGCCAACACCCCGGGAAGGACCTGGAGTGGATTGGCTACATCTATTACAGTGGGAGCACCTACTACAACCCGTCCCTCAAGAGTCGAGTCACCATGTCAATAGACACCTCTGCGAACCAGTTCTTCCTGCAGTTGAGCTCTGTGACTGCCGCGGACACGGCCGTGTATTACTGTGCGAGA GCAATCGGCCGTGGTTGTAGTGGTGGTATTTGTTACTC GAACTGGTTCGACCCCTGGGGCCAGGGAACCCTGGTCACCGTCTCCTC
La différence avec le précédent ? Un C en plus au milieu du J (après le CDR3). Il est donc assez logique que les deux séquences ne puissent pas être productives à la fois puisque ce qui les différencie est un indel après le CDR3 induisant un décalage de phase. IMGT prend bien compte cela, pas nous.
@nobody