vidjil issueshttps://gitlab.inria.fr/vidjil/vidjil/-/issues2024-02-02T09:52:32+01:00https://gitlab.inria.fr/vidjil/vidjil/-/issues/5237Don't take into account upstream or downstream regions for the start/end posi...2024-02-02T09:52:32+01:00Mikaël SalsonDon't take into account upstream or downstream regions for the start/end positions of the geneWe use upstream of downstream sequences to improve the sensitivity for small genes, however they are added to the reference as a normal sequence. They should be differentiated in order to provide the correct start/end positions of the ge...We use upstream of downstream sequences to improve the sensitivity for small genes, however they are added to the reference as a normal sequence. They should be differentiated in order to provide the correct start/end positions of the gene (that don't have to take into account upstream or downstream sequence).
See an example of such an issue here #5235Algo 2024.04https://gitlab.inria.fr/vidjil/vidjil/-/issues/5031germlines/ et python32024-01-31T18:10:53+01:00Mathieu Giraudgermlines/ et python3Les scripts dans germline/ ne se lancent pas sur une machine récente, sans explicitement rajouter des python2 partout.
Voir aussi #2257.Les scripts dans germline/ ne se lancent pas sur une machine récente, sans explicitement rajouter des python2 partout.
Voir aussi #2257.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4665Nouvelles germlines, clustérisation S22 et fenêtre décalée : k-mer commun ent...2023-10-20T12:27:43+02:00Mathieu GiraudNouvelles germlines, clustérisation S22 et fenêtre décalée : k-mer commun entre V et DDepuis https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/885#note_441064.
L'extrait d'une read de S22 (c'est pareil pour 4 autres reads) :
```
>extract-from-lcl|FLN1FA002P88J7
AGAGCCGAGGACACGGCCGTGTATTACTGTGCGAGAGATCGACATTGTAGTGGTG...Depuis https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/885#note_441064.
L'extrait d'une read de S22 (c'est pareil pour 4 autres reads) :
```
>extract-from-lcl|FLN1FA002P88J7
AGAGCCGAGGACACGGCCGTGTATTACTGTGCGAGAGATCGACATTGTAGTGGTGGTAGTTGCCGAGGCCTCTGGGGCCAGGGAACCCTGGTCACCGTCTCCTCAG
```
`vidjil-algo -r 1`, les affects (la seule chose qui change est les germlines) :
```
dev 52 + VJ 1 38 72 106 (...)+H+H+H+H+H+H+H+H+H+H+H+H _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+V+V+V ? _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h _ _ _ _ _ _ _ _ _ _ _ _
!885 53 + VJ 1 60 72 106 (...)+H+H+H+H+H+H+H+H+H+H+H+H _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+V+V+V ?+H _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h _ _ _ _ _ _ _ _ _ _ _ _
```
Un `+H` (J) décale la fenêtre de 11bp, ce qui mène à un clone qui passe à 5 reads avec la nouvelle germline (avant ? 4 ?)
Avant de parler de la clustérisation, j'aimerais comprendre d'où vient ce k-mer et si l'un des deux affects est "le bon".https://gitlab.inria.fr/vidjil/vidjil/-/issues/2647Tester que les germlines ne contiennent bien que du Fasta2023-03-02T10:25:00+01:00Mathieu GiraudTester que les germlines ne contiennent bien que du FastaPour tenter d'éviter des soucis comme #2598 et #2646, ce serait opportun de tester si les séquences dans `germline/*/*.fa` n'ont que du Fasta (éventuellement gappé et/ou commenté).Pour tenter d'éviter des soucis comme #2598 et #2646, ce serait opportun de tester si les séquences dans `germline/*/*.fa` n'ont que du Fasta (éventuellement gappé et/ou commenté).https://gitlab.inria.fr/vidjil/vidjil/-/issues/5121Mise à jour des germlines sur serveur de prod2023-02-08T14:12:39+01:00Mikaël SalsonMise à jour des germlines sur serveur de prodDans #5120 je m'apperçois que les germlines ne sont pas à jour. Ils sont pris depuis le dossier du repo de docker et ils ne sont pas pris dans le dossier de vidjil-algo.
Autant ceux de vidjil-algo sont à jour, autant il n'y a pas de rai...Dans #5120 je m'apperçois que les germlines ne sont pas à jour. Ils sont pris depuis le dossier du repo de docker et ils ne sont pas pris dans le dossier de vidjil-algo.
Autant ceux de vidjil-algo sont à jour, autant il n'y a pas de raison pour que ceux du repo de docker soient à jour (ou en tout cas il faudrait faire un `make germline`) pour qu'ils le soient.
Utiliser les germlines du vidjil-algo a l'avantage de les avoir à jour mais l'inconvénient c'est qu'on peut moins facilement mettre à disposition des germlines demandées par les utilisateurs (situation qu'on a rencontrée).https://gitlab.inria.fr/vidjil/vidjil/-/issues/5120Erreur d'identification du V2023-02-08T13:07:16+01:00Anne de SeptenvilleErreur d'identification du VDans le cas de ce patient : https://app.vidjil.org/55797-2?
Pour le clone non productif, Vidjil donne un V3-7 alors que IMGT et IgBlast identifient tous les deux un V3-41 à 100%
Quand j'aligne la séquence avec celle du V3-7 je trouve...Dans le cas de ce patient : https://app.vidjil.org/55797-2?
Pour le clone non productif, Vidjil donne un V3-7 alors que IMGT et IgBlast identifient tous les deux un V3-41 à 100%
Quand j'aligne la séquence avec celle du V3-7 je trouve plein de différences...https://gitlab.inria.fr/vidjil/vidjil/-/issues/1695Identifiants des germlines dans germlines.js2022-06-20T15:30:34+02:00Vidjil TeamIdentifiants des germlines dans germlines.jsRemarqué par @Cyanael : les identifiants des *germlines* dans germlines.js ne sont pas systématiques : TRGV, TRGJ, IGK-INTRON, IGHD_upstream ...
En aval, cela impacte au moins model.js: exportFasta où on a du faire des règles spécifiq...Remarqué par @Cyanael : les identifiants des *germlines* dans germlines.js ne sont pas systématiques : TRGV, TRGJ, IGK-INTRON, IGHD_upstream ...
En aval, cela impacte au moins model.js: exportFasta où on a du faire des règles spécifiques.
Cela provient de `buildBrowserGermline.py` (et donc du nom des fichiers ?).
Ces identifiants ne sont pas propres, la seule référence devrait être les infos de `germline/homo-sapiens.g`
→ faudrait-il utiliser des clés TRG-5, TRG-3, IGK+-5, TRD-4 ?
→ ou même TRG / IGK+ en vrac ?
→ ou même... tout en vrac, dans une seule hashmap ? (A-t-on vraiment besoin des séquences séparées par germline ? La description des germlines est déjà faite par ailleurs)
https://gitlab.inria.fr/vidjil/vidjil/-/issues/4640Nouveau TRGJ1*02 et TRGJ2*012022-05-19T10:00:07+02:00Mathieu GiraudNouveau TRGJ1*02 et TRGJ2*01Pour mémoire, il y a six gènes dans TRGJ.
Nous connaissons bien `TRGJ1*02`, qui jusqu'à maintenant avait 3 nucléotides de moins en 5' que `TRGJ1*01`. Depuis [juillet 2018](http://www.imgt.org/IMGTgenedbdoc/dataupdates.html), il a rattrap...Pour mémoire, il y a six gènes dans TRGJ.
Nous connaissons bien `TRGJ1*02`, qui jusqu'à maintenant avait 3 nucléotides de moins en 5' que `TRGJ1*01`. Depuis [juillet 2018](http://www.imgt.org/IMGTgenedbdoc/dataupdates.html), il a rattrapé son grand frère:
```
!
M12960|TRGJ1*01 F|J-REGION|157..206 gaattattataagaaactctttggcagtggaacaacactggttgtcacag
M12957|TRGJ1*02 (old) (F)|J-REGION|23..69 ...ttattataagaaactctttggcagtggaacaacactTgttgtcacag
IMGT000011|TRGJ1*02 (new) F|J-REGION|118516..118565 gaattattataagaaactctttggcagtggaacaacactTgttgtcacag
M12961|TRGJ2*01 F|J-REGION|157..206 gaattattataagaaactctttggcagtggaacaacacttgttgtcacag
```
Il n'est désormais plus marqué `(F)`, et la différence avec `TRGJ1*01` devient encore plus subtile, après ~40 nt. Cela va changer à la marge l'annotation de certaines séquences.
Je serai curieux de connaître les raisons d'un tel changement.
cc @flothoni
[Update : 2022-05-19 : ajout de TRGJ2*01]https://gitlab.inria.fr/vidjil/vidjil/-/issues/2818Pouvoir effectuer des analyses de translocations sur des séquences arbitraires2022-04-07T11:38:16+02:00Ryan HerbertPouvoir effectuer des analyses de translocations sur des séquences arbitrairesDebré voudraient pouvoir saisir des séquences pour les passer comme des germlines au logiciel afin d'analyser les translocations.Debré voudraient pouvoir saisir des séquences pour les passer comme des germlines au logiciel afin d'analyser les translocations.https://gitlab.inria.fr/vidjil/vidjil/-/issues/1801CD et autres choses utiles pour l'immuno en RNA-Seq2021-11-19T11:06:55+01:00Vidjil TeamCD et autres choses utiles pour l'immuno en RNA-Seq(splité depuis "Classes des Ig en RNA-Seq" #2261 ?)
On ne va pas devenir un outil générique de mapping...
... néanmoins, est-ce que cela ne vaudrait pas le coup de détecter qui pourraient arriver en RNA-Seq ? (voire en capture, cela dé...(splité depuis "Classes des Ig en RNA-Seq" #2261 ?)
On ne va pas devenir un outil générique de mapping...
... néanmoins, est-ce que cela ne vaudrait pas le coup de détecter qui pourraient arriver en RNA-Seq ? (voire en capture, cela dépend du protocole)
Par exemple au moins les CD3, CD4, CD8, CD19, CD45RA/CD45RO... ou d'autres...
***
Cela est fortement tentant d'avoir une méthode de segmentation qui fait... uniquement du mapping sur des gènes connus #1724. Hum, c'est interdit par la doxa de Vidjil (recombinaisons)... mais l'intérêt serait toujours de suivre des populations et des ratios (par exemple, un pseudo-germline avec tous les CDx, et les ratios seraient intéressants).
https://gitlab.inria.fr/vidjil/vidjil/-/issues/2072Recherche des recombinaisons DDH2021-09-08T17:15:26+02:00Mikaël SalsonRecherche des recombinaisons DDHMail de @flothoni du 01/12 : le germlines.data actuel ne recherche pas de D dans le cas d'une recombinaison DJ. C'est effectivement le cas :
```
"recombinations": [ {
"5": ["IGHD_upstream.fa"],
"3": ["IGHJ...Mail de @flothoni du 01/12 : le germlines.data actuel ne recherche pas de D dans le cas d'une recombinaison DJ. C'est effectivement le cas :
```
"recombinations": [ {
"5": ["IGHD_upstream.fa"],
"3": ["IGHJ.fa"]
}],
```
Est-on d'accord qu'on voudrait le rajouter ? Ou alors seulement si l'option `-d` (recherche de D multiples) est passée ? Mais dans ce cas c'est difficile car impose d'avoir un germline qui dépend d'une option.
@magiraudThonier FlorianThonier Florianhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1328Que devrait indiquer le menu "analysis" tout comme les #visu.axis_select pour...2021-07-09T18:28:38+02:00Vidjil TeamQue devrait indiquer le menu "analysis" tout comme les #visu.axis_select pour des systèmes bizarres ?Quand on sélectionne TRD+, cela peut faire bizarre de voir les menus & co raconter "gene V" / "gene J". On pourrait avoir "gene V+D2" et "gene J+D3". En fait cela dépend des données : s'il y a beaucoup de V (plus le D2) cela passe, sinon...Quand on sélectionne TRD+, cela peut faire bizarre de voir les menus & co raconter "gene V" / "gene J". On pourrait avoir "gene V+D2" et "gene J+D3". En fait cela dépend des données : s'il y a beaucoup de V (plus le D2) cela passe, sinon cela fait bizarre.
Mais je ne vois pas de bonne solution, cela dépend de chaque germline bizzare (et afficher "5'" ne serait pas clair pour tout le monde). Bref, proposition : ne rien changer pour l'instant...
***
@nobodyhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1017model.js, select germline: warning si système pas connu2021-06-24T15:49:10+02:00Vidjil Teammodel.js, select germline: warning si système pas connuEt faut-il un endroit unique (c++/browser/fuse) où sont décrits les germlines (voir autres tâches "germline") ?
***
@DuezEt faut-il un endroit unique (c++/browser/fuse) où sont décrits les germlines (voir autres tâches "germline") ?
***
@Duezhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4620Sous-espèces et germlines (quasi-)dupliquées2021-04-08T16:09:54+02:00Mathieu GiraudSous-espèces et germlines (quasi-)dupliquéesVu à l'occasion de https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910:
> @mikael-s
> > Est-ce que ces différentes sous-espèces ont bien des noms de gènes différents ? Autrement dit est-ce que, par exemple, on ne va ...Vu à l'occasion de https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910:
> @mikael-s
> > Est-ce que ces différentes sous-espèces ont bien des noms de gènes différents ? Autrement dit est-ce que, par exemple, on ne va pas se retrouver avec deux IGHV1\*01 chez *Sus scrofa* ?
> @flothoni
> > On a pire que ça: on a plusieurs fois les mêmes entrées pour un même combo segment/allèle/sous-espèce.
> (...)
mais au final
> > On voit que le problème ne concerne donc que les fichiers des classes et pas les germlines directement. Cependant, les séquences ne sont pas les mêmes lorsqu'il y a des duplications...
Qu'en est-il pour Mus Musculus et les autres déjà présentes ?
Que faire s'il y a vraiment une ambiguïté ?https://gitlab.inria.fr/vidjil/vidjil/-/issues/4631Follow-up from "Resolve "Avoir les données germline du cochon (Sus Scrofa)""2021-04-06T15:06:29+02:00Thonier FlorianFollow-up from "Resolve "Avoir les données germline du cochon (Sus Scrofa)""The following discussion from !839 should be addressed:
- [ ] @mikael-s started a [discussion](https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910): (+5 comments)
> Est-ce que ces différentes sous-espèces ont bien d...The following discussion from !839 should be addressed:
- [ ] @mikael-s started a [discussion](https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910): (+5 comments)
> Est-ce que ces différentes sous-espèces ont bien des noms de gènes différents ? Autrement dit est-ce que, par exemple, on ne va pas se retrouver avec deux IGHV1*01 chez *Sus scrofa* ?
```
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|CH1|3..296|294 nt|1| | | | |294+72=366| | |
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|H|297..332|36 nt|1| | | | |36+0=36| | |
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|CH2|333..659|327 nt|1| | | | |327+51=378| | |
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|CH3-CHS|660..986|327 nt|1| | | | |327+66=393| | |
```
>Ces 4 séquences correspondent en fait à une même séquence d'identifiant M81770 mais ce sont des régions différentes de la séquence (comme l'indiquent les positions : 3 à 296, puis 297 à 332 puis 333 à 659, et enfin 660 à 986). Bref il faudrait certainement clarifier cela, mais ça n'a pas l'air si grave qu'elles aient le même nom… puisque c'est la même séquence.https://gitlab.inria.fr/vidjil/vidjil/-/issues/3654Pseudo-gènes non in-frame et tests algos2021-02-17T07:59:02+01:00Mathieu GiraudPseudo-gènes non in-frame et tests algosAprès !372, mettre à jour les tests algos.
Il y a significativement plus de germlines (https://gitlab.inria.fr/vidjil/vidjil/issues/3515#note_138454), d'où pas mal de petits tests à changer (une dizaine de should-get). À voir si cela ne...Après !372, mettre à jour les tests algos.
Il y a significativement plus de germlines (https://gitlab.inria.fr/vidjil/vidjil/issues/3515#note_138454), d'où pas mal de petits tests à changer (une dizaine de should-get). À voir si cela ne perturbe pas l'ensemble. A priori 8 should-vdj changent, c'est surtout là-dessus qu'on verra si c'est acceptable.
Une alternative serait de faire #3515 en créant `IGHV.fa` et `IGHV-outframe.fa`, et de ne faire les tests que sur `IGHV.fa`. Mais ce ne serait pas élégant, et si les outframe ne sont pas beaucoup testés, ils ne seront pas beaucoup maintenus.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4662Up/down-streams: étendre bien plus, vers 200bp ?2021-01-23T08:19:58+01:00Mathieu GiraudUp/down-streams: étendre bien plus, vers 200bp ?
Suite à #4655, à faire pour une prochaine release, en estimant bien ce que cela implique sur les tests comme sur la performance.
Voir en particulier les tables de load dans #4655.
Suite à #4655, à faire pour une prochaine release, en estimant bien ce que cela implique sur les tests comme sur la performance.
Voir en particulier les tables de load dans #4655.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4659Vérification d'overlap : le faire aussi sur non up/down (bref les V) + refact...2021-01-20T21:09:19+01:00Mathieu GiraudVérification d'overlap : le faire aussi sur non up/down (bref les V) + refactor split-germlinesC'est plus complexe que les choses dans !891 , mais c'est l'occasion de refactorer `split-germlines.py` pour que le même mécanisme sorte les germlines "normales" que les down/up. Sera fait plus tard.C'est plus complexe que les choses dans !891 , mais c'est l'occasion de refactorer `split-germlines.py` pour que le même mécanisme sorte les germlines "normales" que les down/up. Sera fait plus tard.Mathieu GiraudMathieu Giraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4657Examiner les warnings sur les germlines2021-01-20T19:14:12+01:00Mathieu GiraudExaminer les warnings sur les germlinesÉvoqué en audio: un test sur la sortie de `check_imgt_ncbi_consistency()`Évoqué en audio: un test sur la sortie de `check_imgt_ncbi_consistency()`https://gitlab.inria.fr/vidjil/vidjil/-/issues/3192Avoir un axe "germlines dans l'ordre du locus"2021-01-20T12:27:01+01:00Mathieu GiraudAvoir un axe "germlines dans l'ordre du locus"Avoir un axe qui trie les gènes dans l'ordre de leurs positions sur le chromosome.
Voir aussi #1629 et #3009.
Cela pourrait par exemple aider à être plus conscient des changements de V #1726.Avoir un axe qui trie les gènes dans l'ordre de leurs positions sur le chromosome.
Voir aussi #1629 et #3009.
Cela pourrait par exemple aider à être plus conscient des changements de V #1726.