Tests .should-vdj: format ?
On a pour l'instant ces deux formats : TRBV6-1 7/0/12 TRBD2 1/8/2 TRBJ2-7 TRDV202_14/TCCCGGCCT/0_TRDD301_3/CCACGGC/4_TRAJ2901__TRA+D ou bien : TRDD201_18//4_TRAJ29*01__TRA+D commentaire seq15
Il faut trouver un bon format qui conviennent à tous.
-
espace ou _ ? espace plus naturel, mais comment savoir où l'on s'arrête ? (surtout si commentaire derrière) '#' pour commentaires ?
-
On avait des tests uniquement sur le locus. Pour l'instant "__" + locus. Comment faire ? [TRG] ?
-
Accepter à la fois 4/ACT/0 et 4/3/0 ?
-
Accepter à la fois TRDD2 et TRDD201 ? Le '' dit qu'il y a un allèle ensuite ? Problème si pas l'allèle: à quoi fait référence la délétion ? -> *01 par convention (YF/AC ne savent pas vraiment, mais il faut bien qu'on décide quelque chose)
TRGV4 1/3/4 TRGJ2 -> TRGV4{soit rien, soit *..} 1/{soit 3, soit [ACGT]^3}/4 TRGJ2{soit rien, soit *..}
- Accepte-t-on à la fois TRGV4 et TRGV04 ? Cela devient lourd, proposition: se limiter à la nomenclature IMGT
Le moins que l'on puisse dire, c'est que ce n'est pas clair. Le format que j'ai donnée, c'est ce qur j'ai impossé comme transformation car popur rappel, toutes les annotations sanger sont faites a la main, avec du copié/collé des séquence et recherche sur IMGT. A terme, maintenant que des outils efficaces axistent, les annotatons vont peu à peu se conformer à l'outil utilisé (vidijl ou IMGT, si il y a un standard ...).
Mon avis, c'est qu'il peux être interressant de pouvoir switcher entre 4/AGG/3 et 4/3/3. c'est parfois plus parlant. -Les alleles sont interessantes a conservé. Nous ne les avions pas car apperment les technicienne du lab ne les notait pas ici. -Pour les alleles toujours, si encore certains étaient sureprésenté (genre 90% du temps) on pourrait se permettre de ne pas forcer son indication, mais je ne pense pas que ce soit le cas ... Donc il a son intérêt.
- Pour le 4 ou le 04, il faudrait voir comment c'est noté dans imgt pour faciliter l'utilisation par l'user des différents outils.
ok.
Allèles : il s'agit bien de donner la possibilité de soit les avoir, soit ne pas les avoir, en fonction de qui fait le fichier .should-vdj.fa et des pratiques des uns ou des autres.
9c7a029a On accepte ainsi 4/AGG/3 et 4/3/3, tout comme TRDD2 et TRDD2*01. make shouldvdj -> déjà 3 séquences sur les 15 de Florian passent, on est sur la bonne voie :-)
Florian, d'où viennent les nomenclatures telles que TRGJ1-1 et TRBD2-2 que tu utilises ? Dans IMGT, c'est TRGJ101 TRBD202 (ici c'est bien un allèle), à la différence de IGHV3-11 qui est bien un gène (si on veut l'allèle, c'est IGHV3-11*01) Peut-être vaudrait-il mieux se conforter à l'usage IMGT ?
Je viens de verifier les séquences et d'en corriger certaines (pour lesquelles vidjil avait effectivement raison) et d'autre dont la nomenclature pechaient. Il ne reste que trois erreurs, 2 dd2-DD3 non vu tel quel, et un cas difficile a arbitrer (enfin je prefererais avoir votre avis, cf fichier joint). Il y a dans le cas de vidjil à la fois des insertions/déletions et mutations. Mais en même temps ,il y a un fragment de 6 nt qui colle après ça ...
e54b4f7d : on peut mettre "TODO" sur un .should-vdj (on sait qu'il loupe, mais les tests passent) 4c1bd7be : mis sur les trois tests en question de Florian