Spécificité / P-value / E-value d'une recombinaison
Prend en compte nb de délétions, mutations V/J, N... Normalement cela devrait se voir dans les scores de FineSegmentation.
Détecter ces probabilités depuis nos jeux de données (mais cela suppose d'avoir des segmentations VDJ de référence...)
Lien avec génération aléatoire.
Faire cela dans notre coin ? Mettre quelqu'un dans la boucle ? (Laurent ?)
De manière empirique, pas nécessairement besoin de segmentations VDJ de réf. Ne peut-on pas le faire directement depuis les fenêtres ? On sait où est censé se terminer le V et commencer le J. Et donc on peut retrouver si on trouve une fenêtre à distance 0 ou 1.
Et si on va sur la génération aléatoire, le problème est la probabilité qu'on affecte à des délétions, insertions (et cela dépend des chaînes et des récepteurs, la dTd et la bouffeuse de nucléotides ne sont pas aussi actives partout). Ou alors on part de nos données, mais là pour le coup on a besoin de segmentations VDJ de références.
On en parle donc un jour avec Laurent. Voir quand.
On a donc maintenant une e-valeur d'une découpe left/right, mais la question reste toujours ouverte pour une recomb VDJ, à partir d'exemples, d'estimer les paramètres. On en avait aussi parlé avec Nikos.
(copié depuis tâche "Taille de fenêtre en multi-système") Si on a un V/J collé avec 0 zone de N, ce sera très limite même avec une fenêtre de taille 100 :-) On doit mettre un gros warning dessus, et permettre de revenir sur les reads.
Remonté, car l'heuristique peut regrouper des choses curieuses si la fenêtre n'est pas spécifique. (mais bon, contrôle par le coverage ?). Devient légèrement différent : quelle est la P/E-valeur d'une fenêtre ?
- compter les N (après Fine Segmenter)
- un bidule dans le FineSegmenter qui compte en plus les mutations de la fenêtre
- ... ou bien un truc magique à base de k-mers (y compris des D) ?
(Voir par exemple notable/0481)
euh... on maintenant a un warning si faible e-valeur ? toujours d'actualité ?
Cela a été fait très sérieusement par Thierry Mora et Aleksandra Walczak -> Quantifying lymphocyte receptor diversity http://arxiv.org/abs/1604.00487
Et il y a un article qui utilise cela pour calculer la p-value de clones identifiés au diag : http://www.nature.com.sci-hub.cc/bmt/journal/vaop/ncurrent/full/bmt2016148a.html « Reliability of immune receptor rearrangements as genetic markers for minimal residual disease monitoring »