Comparer des e-valeurs venant de méthodes de segmentation différentes ?

Titre initial : Ne pas comparer des e-valeurs venant de méthodes de segmentation différentes :-)

Nous avons plusieures tâches ou bugs passés, actuels et futurs liés à la comparaison de bio-e-value entre SEG_METHOD_* ou germlines différentes :

VD/VDJ : #2652 (closed), #1878
xxx/*: #2596, hack 5bc753ee, #2651, hack 951facdc
ONE/* : #2653

Discussion avec @mikael-s il y a quelques jours : une p-valeur d'une séquence est la probabilité qu'elle sorte, étant donné un modèle. Mais là... on a des modèles différents, et aucune connaissance sur ces modèles. Comparer n'est donc pas pertinent.

Supposons une read honnête, V^20 D^30 J^5. Quoi que l'on pénalise, ce sera ici toujours plus beau en VD qu'en VJ. Et #1878 n'arrange pas.

Nous devons peut-être changer complètement de point de vue. Si le filtre de e-valeur est de 10^-6, et que VD et VJ passent ce filtre (1), je veux exactement avoir la réponse la plus complète : "la séquence est VJ" (voire V(D)J après Fine, (2)). Le fait que VD puisse être à 10^-100 et VJ à 10^-10 ne change rien au fait que la réponse complète soit vraie "avec une erreur d'au plus 10^-6" (et même 10^-10 ici). (Et... vous savez quoi ? On peut dire avec e-valeur quasi nulle que "il y a des séquences humaines dedans", mais cela n'ajouterait pas grand chose.)

(1) VD et VJ compatibles, comme VhDh et VhJh. S'ils ne sont pas compatibles, c'est une autre histoire, voir ci-dessous.

(2) On pourrait aussi avoir une Kmer-heuristique détectant V-D-J, #2654, mais pareil, rien ne dit que les e-valeurs soient comparables avec les autres.

Une proposition serait donc d'arrêter de choisir le locus avec la meilleure e-valeur, et d'avoir plutôt une situation évoquée dans le passée (mais jamais implémentée, ou peut-être en dur au tout début quand on a fait IGH+) avec un ordre partiel SEG_METHOD_ONE < xxx (MAX_12, MAX_1U) < IGH+ < IGH. Entre deux germlines passant le filtre de e-valeur et comparables dans l'ordre partiel, on prend la germline la plus complète. Entre deux non-comparables, on prend la meilleure e-value (3). (À voir en pratique. On définit des stage, 0 pour les complets, 1 pour les +, 2 pour xxx, 3 pour ONE... ? on utilise un after pour encoder la relation ?)

(3) Et encore... Si j'ai TRB et IGH qui passent tous deux à 10^-6, cela veut bien dire que, avec très forte probabilité, la séquence est ambiguë. Les mettre plutôt en AMBIGUOUS ?

Cette définition est encore un chouia ambiguë: si on a IGH+ 10^-30, IGH 10^-10, TRG 10^-10, que choisir ?
Et qu'est-ce que cela donne pour les TRD+ avec Dd2- ... ?

Cela peut sembler un retour en arrière par rapport à #1499 (closed)/ae1ac525 (printemps 2015)... mais non: nous sommes contents de nos calculs de e-valeurs (et bien plus sûrs qu'en 2015) pour dire si une recombinaison est signifiante ou pas. Each cell counts.

Edited Jul 15, 2018 by Mathieu Giraud

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information

Admin message

Comparer des e-valeurs venant de méthodes de segmentation différentes ?