vidjil issueshttps://gitlab.inria.fr/vidjil/vidjil/-/issues2023-04-03T12:34:58+02:00https://gitlab.inria.fr/vidjil/vidjil/-/issues/5131Algo: Limit or warn clustering of sequences of too different lengths2023-04-03T12:34:58+02:00Mathieu GiraudAlgo: Limit or warn clustering of sequences of too different lengths
Very interesting cases reported by @Anne.
Some clones merged sequences with very different lengths, two peaks (biological ? artefact ?).
"no-clonality" already allows to check that, but we need some mechanism to prevent that or at leas...
Very interesting cases reported by @Anne.
Some clones merged sequences with very different lengths, two peaks (biological ? artefact ?).
"no-clonality" already allows to check that, but we need some mechanism to prevent that or at least to warn the userhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1782Indice/index de clonalité, diversité, options et clustérisation2022-06-20T11:49:02+02:00Vidjil TeamIndice/index de clonalité, diversité, options et clustérisation> The diversity measures are computed before taking into account the '-r', '-y' and '-z' options
> and before any further clusterisation.
Pour les options, cela m'a l'air souhaitable.
Mais pour la clustérisation, à voir. Le problème est...> The diversity measures are computed before taking into account the '-r', '-y' and '-z' options
> and before any further clusterisation.
Pour les options, cela m'a l'air souhaitable.
Mais pour la clustérisation, à voir. Le problème est que keepInterstingWindows() a été appelé entre temps, bref ce n'est plus possible d'avoir les calculs exacts. Et justement, avec ces mesures on est intéressé par les petits clones.
***
@nobodyhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1567Splitter un clone / ré-analyser un sous-ensemble de reads2021-06-23T11:34:52+02:00Vidjil TeamSplitter un clone / ré-analyser un sous-ensemble de readsÉvoqué directement par Alice (et Matin il y a longtemps). Ma première réaction : non, l’algo ne marche pas comme cela !
Mais bon… si on est capable de récupérer les reads d’une fenêtre, on pourrait les ré-analyser avec d’autres paramètr...Évoqué directement par Alice (et Matin il y a longtemps). Ma première réaction : non, l’algo ne marche pas comme cela !
Mais bon… si on est capable de récupérer les reads d’une fenêtre, on pourrait les ré-analyser avec d’autres paramètres (par exemple un `-w 100` ou `200`, voire un `-w` égal à la taille du read, comme dans l'option `-!`),voire avec un autre programme... le browser n’y verrait que du feu, on pourrait avoir des windows de taille différente. Au final, ce serait un bouton « split to reads ».
On s’éloigne de la philosophie de l’algo, mais pourquoi pas ? D’ailleurs, si certains reads sont trouvés par d’autres méthodes (grep, séquences connues, xxx, autre heuristique, autre logiciel…), leur id va peut-être varier.
***
Marc: "Cela pourrait aussi être fait directement dans la première passe de Vidjil. On détecte mauvais coverage/..., et on applique d'autres paramètres"
***
Avec les données de la Pitié on a tendance à rassembler des choses qui ne devraient pas l'être. Il serait bien que la taille de la fenêtre s'adapte automatiquement aux données, sans avoir à relancer le jeu de données en tâtonnant pour savoir quelle taille de fenêtre est la mieux (une puissance de 10 ou pas ? ;) )
Exemple de jeu où on fait n'importe quoi avec la taille de fenêtre par défaut : http://rbx.vidjil.org/browser/?patient=914&config=26
***
Argh... je pensais à cette tâche justement en voyant votre échange de mail...
https://gitlab.inria.fr/vidjil/vidjil/-/issues/3904Clustériser sur la représentative et non pas sur la fenêtre2020-12-16T15:49:35+01:00Mathieu GiraudClustériser sur la représentative et non pas sur la fenêtreÉvoqué avec @mikael\-s ce midi.Évoqué avec @mikael\-s ce midi.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4300vidjil-algo: Improve documentation on clustering2020-05-26T12:14:23+02:00Mathieu Giraudvidjil-algo: Improve documentation on clusteringNow there is only a rather cryptic sentence in `vidjil-algo.md`.
See also #1332.Now there is only a rather cryptic sentence in `vidjil-algo.md`.
See also #1332.https://gitlab.inria.fr/vidjil/vidjil/-/issues/1322Mettre au point le clustering automatique2019-04-17T17:48:28+02:00Vidjil TeamMettre au point le clustering automatiqueLes clusters fonctionnent, comme par exemple avec la config TRG-cluster.
Il faut se replonger dans les distances et tutti quanti
***
Tests de la config TRG + Cluster sur Van Cel
***
Au programme du prochain Vidjil Day
***
Il faut le fair...Les clusters fonctionnent, comme par exemple avec la config TRG-cluster.
Il faut se replonger dans les distances et tutti quanti
***
Tests de la config TRG + Cluster sur Van Cel
***
Au programme du prochain Vidjil Day
***
Il faut le faire un jour.
Discussion métro : autant faire en .js plutôt qu'en C++
Pas vraiment de merge automatique (c'est toujours l'user), mais
- soit on visualise le graphe (hum, pas super facile)
- soit on visualise le graphe restreint à un clone (distance de tous les autres clones par rapport au clone sélectionné)
- ou on visualise le graphe en "paquets", 8-16 paquets principaux à des positions fixes
- ou même, sans visualisation, auto-sélection : on sélectionne un clone, il sélectionne ceux qui sont à une distance <= epsilon. Pratique, on n'a plus qu'à aligner, vérifier et merger
***
Voici un argument contre le clustering automatique : QC29 faits par plusieurs centres avec différents séquenceurs. Il y a des petites mutations reproductibles indépendamment du centre de séquençage. Du clustering les aurait regroupés, cachant ces sous-clones.
***
ping
***
#1323, #1324
***
@magiraud @mikael-s @DuezThonier FlorianThonier Florianhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/3897Cas particulier d'un clone retrouvé dans une analyse2019-04-04T18:03:31+02:00Thonier FlorianCas particulier d'un clone retrouvé dans une analyseDésolé pour le nom, il n'est pas très parlant.
@Patrick a remonté une information sur un clone qui avait un problème de dénomination, et qui pouvait l’intéressé car il apparaissait/disparaissait/réapparaissait: https://app.vidjil.org/?...Désolé pour le nom, il n'est pas très parlant.
@Patrick a remonté une information sur un clone qui avait un problème de dénomination, et qui pouvait l’intéressé car il apparaissait/disparaissait/réapparaissait: https://app.vidjil.org/?set=30814&config=25&clone=94
Le souci c'est que ce clone à une séquence consensus très courte, environ 50% de la longueur moyenne. Point positif, on lève bien une alerte.
J'ai voulu regarder de plus près ce clone. J'ai exploité la nouvelle fonction `get_reads` pour obtenir un fichier se concentrant sur ses reads.
En regardant de plus près, on voit que toutes les séquences ont une première partie commune, sur les 60nt en 5', mais complètement différentes sur le reste, avec énormément de stretch de A. (voici le [fichier extrait](/uploads/0c8581c5f6ecd879c49270bffee86876/seq_patrick.fastq)).
J'ai alors voulu jouer avec pour comprendre les affectations, rallonger les fenêtres, ...
```
>seq1
ATCGATTTTCTGCAGAGAGGCTGACAGTGCTCGGTAAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCACTCCGGAGAATCTCGTATGCCGTCTTCTGCTTGAAAAAAAAAAAAAAACAACAATAAAGAACATAAAACTATTCTGAATGTTAAAGAGACAAAAAAACAAATAATATAGAAGATAATATTACGAGGATACAGTAGAGTAATCTAGACATAGCAAAGTAAAACAGGACCAAGAAGGTTGGG
# 18 + VJ 1 18 23 251 seed TRB SEG_+ 1.972121e-08 5.559703e-16/1.972121e-08+B+B+B+B+B+B+B+B+B+B _ _ _ _ _ _ _ _+b+b+b+b+b+b+b+b _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
#>seq1 + VJ 1 18 23 251 w55/10 seed TRB SEG_+ 1.972121e-08 5.559703e-16/1.972121e-08
```
On peut donc voir que l'on n'a que quelques nt vus comme V et J, sur 251nt. Je pense donc qu'il s'agit d'un artefact.
Si j'essaye de rallonger la fenêtre, je n'ai pas le résultat escompté car il m'indique qu'il shift la fenêtre, probablement trop proche en 5'. Je me retrouve donc quoi qu'il arrive avec la même fenêtre.
Quoi qu'il en soit, je ne sais pas quoi faire de cette séquence. Je peux l'ajouter dans un test, mais que devrait-on y mettre ? On ne devrait pas la ressortir comme un clone avec si peu d'affectations de kmer ?
cc @magiraud @mikael\-s @Patrickhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1323fuse2018-11-20T12:10:23+01:00Vidjil Teamfuse
***
#1322
***
#1322https://gitlab.inria.fr/vidjil/vidjil/-/issues/3038dynprog : Avoir une fonction donnant le score maximum et/ou une distance2018-02-08T11:00:09+01:00Mathieu Girauddynprog : Avoir une fonction donnant le score maximum et/ou une distanceVoir bddb09364.
On devrait pouvoir appeler directement un `dp.distance()` ou un `dp.max_score()`.Voir bddb09364.
On devrait pouvoir appeler directement un `dp.distance()` ou un `dp.max_score()`.https://gitlab.inria.fr/vidjil/vidjil/-/issues/1324mise au point2017-02-01T19:20:19+01:00Vidjil Teammise au point
***
#1322
***
#1322https://gitlab.inria.fr/vidjil/vidjil/-/issues/1183vidjil.cpp: alléger le traitement de cluster-junctions.cpp2016-11-29T14:32:53+01:00Vidjil Teamvidjil.cpp: alléger le traitement de cluster-junctions.cppÉtat actuel : les clusters faits par cluster-jonctions sont balladés partout dans vidjil.cpp, et alourdissent le code. En particulier, 1 représentative est cherché pour le cluster.
État proposé : le module cluster_jonctions est indépend...État actuel : les clusters faits par cluster-jonctions sont balladés partout dans vidjil.cpp, et alourdissent le code. En particulier, 1 représentative est cherché pour le cluster.
État proposé : le module cluster_jonctions est indépendant, son seul boulot est d'écrire dans le vidjil.data (et sur stdout ou ailleurs) quelques merge de clones. Mais 1 représentative = 1 clone de base. Cela va alléger le code.
Pour plus tard : on pourra même déporter cluster-junctions.cpp... dans une commande / prog indépendant, avec l'évaluation des distances et le calcul de la matrice, et tout cela pourrait être fait *après* fuse.py.
Mikaël, ton avis ? Marc était déjà plutôt pour.
***
600ef3d~1..859aedf
bonus : une seule option -r au lieu de -r/-R
***
sur 14-04/084 en TRG, les fichiers vidjil.data sont identiques par rapport à la release 2014.09
***
@magiraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1166Sortir dans vidjil.data des "clusters", résultats du clustering auto/manuel2016-11-29T14:32:40+01:00Vidjil TeamSortir dans vidjil.data des "clusters", résultats du clustering auto/manuelCela permettrait de voir les clusters dans le browser, et de les corriger si besoin.
Dans fuse.py, on ferait l'union de tous les clusters ?
Mais attention nous dit @Mikaël Salson : on n'a pas bossé sur le clustering depuis longtemps...
...Cela permettrait de voir les clusters dans le browser, et de les corriger si besoin.
Dans fuse.py, on ferait l'union de tous les clusters ?
Mais attention nous dit @Mikaël Salson : on n'a pas bossé sur le clustering depuis longtemps...
en tout cas, ce serait l'occasion de s'y remettre, à voir.
***
-output "clusters" json
-dbscan ne se fait plus que sur les X premiers clones (1sec)
ca marche !
fuse.py : on peut faire l'union des clusters mais ça ne servira qu'a réduire (un peu) la taille du fichier data, pour le moment si on a un cluster [A,B] au diag et un cluster [B,C] au fu1 on finira avec un cluster [A,B,C] affiché dans le browser (qui sera enregistré au format [A,B,C] dans le fichier analysis).
***
@Duez