Tests .should-vdj : couvrir tous les locus, séquences réelles
Suite à la discussion de vendredi dernier : Dans les tests .should-vdj, si j'enlève les séquences artificielles, il reste à la louche : TRA+D: 5 / IGK+: 3 / IGH+: 2 / TRD+: 1 / TRB+: 1
Évidemment, on a des séquences TRG comme IGH, et d'autres, qui servent à faire du test en .should_get, mais ce serait plus robuste d'avoir plusieurs séquences "réelles" par locus pour renforcer les tests .should_vdj.
Je viens de creer 5 fichiers contenants chacun 3 sequences tirées d'analyse de Necker. Il y a du TRB, TRB+, TRD, TRD+, TRG. Par contre, avant de pusher, je me demandais si j'avais bien compris ce matin. Je laisse ma nomenclature actuelle ?
PS : en faisant la comparaison manuellement, vidjil ne trouve pas toujours la bonne nomenclature (certains cas avec des VDDJ).
oui, mets-les tel quels (sans noms de patients...), on va déjà voir à quoi cela ressemble.
070e6116: des séquences fournies par Yann en février, segmentation reformalisée
merci Florian
Au fait, j'ai surement oublié de la préciser, mais dans le tas, il y a une ou deux séquences présentant un double segment D. Je crois que l'algo ne les voit pas tel quel, mais je ne sais pas si c'est des cas vraiment "particulier" ou communs. Le second induirait que l'option soit ajoutée par défaut dans germline.data.
Double segment D : on a une tâche "VDDJ". Cela intéresse aussi les gens de Lille, qui ont par exemple déjà eu TRDV1 9/22/0 TRDD2 4/6/0 TRDD3 2/15/1 TRDJ1 Bref, cela devrait être aussi mis dans les should_vdj.
Pour info, on n'a rien actuellement en IGK, IGK+ avec Intron IGL, TRA.
Je n'en ai pas en stock. Je vais me renseigner voir si ici ils en ont, mais il y a des absent aujourd'hui donc j'auras une réponse demain je pense.
@Florian: ok. Ne t'inquiète pas, on en a ici aussi... (et, de manière générale, tous les labos ne font pas tous les locus / réarrangements.)
Bref, si de ton côté tu peux mettre une autre petite dizaine de séquences de ce que tu as déjà, cela sera très utile !
Je viens de rajouter 17 sequences comme la dernière fois. Cela donne maintenant 32 sequences réelles de necker. Sur celles ci, ils y en a 6 qui ne passent pas. 2 sont des nouveaux double DD, 3 sont difficile a arbitrer, et la derniere, je pense qu'il s'agit d'une erreur du finesegmenter. Je met plsu de détails dans la tache "un cas particulier"
Ce qu'il manque surtout maintenant, c'est TRA et IGL.
Kostas va nous envoyer du TRA.