vidjil issueshttps://gitlab.inria.fr/vidjil/vidjil/-/issues2024-02-02T09:52:32+01:00https://gitlab.inria.fr/vidjil/vidjil/-/issues/5237Don't take into account upstream or downstream regions for the start/end posi...2024-02-02T09:52:32+01:00Mikaël SalsonDon't take into account upstream or downstream regions for the start/end positions of the geneWe use upstream of downstream sequences to improve the sensitivity for small genes, however they are added to the reference as a normal sequence. They should be differentiated in order to provide the correct start/end positions of the ge...We use upstream of downstream sequences to improve the sensitivity for small genes, however they are added to the reference as a normal sequence. They should be differentiated in order to provide the correct start/end positions of the gene (that don't have to take into account upstream or downstream sequence).
See an example of such an issue here #5235Algo 2024.04https://gitlab.inria.fr/vidjil/vidjil/-/issues/5121Mise à jour des germlines sur serveur de prod2023-02-08T14:12:39+01:00Mikaël SalsonMise à jour des germlines sur serveur de prodDans #5120 je m'apperçois que les germlines ne sont pas à jour. Ils sont pris depuis le dossier du repo de docker et ils ne sont pas pris dans le dossier de vidjil-algo.
Autant ceux de vidjil-algo sont à jour, autant il n'y a pas de rai...Dans #5120 je m'apperçois que les germlines ne sont pas à jour. Ils sont pris depuis le dossier du repo de docker et ils ne sont pas pris dans le dossier de vidjil-algo.
Autant ceux de vidjil-algo sont à jour, autant il n'y a pas de raison pour que ceux du repo de docker soient à jour (ou en tout cas il faudrait faire un `make germline`) pour qu'ils le soient.
Utiliser les germlines du vidjil-algo a l'avantage de les avoir à jour mais l'inconvénient c'est qu'on peut moins facilement mettre à disposition des germlines demandées par les utilisateurs (situation qu'on a rencontrée).https://gitlab.inria.fr/vidjil/vidjil/-/issues/5120Erreur d'identification du V2023-02-08T13:07:16+01:00Anne de SeptenvilleErreur d'identification du VDans le cas de ce patient : https://app.vidjil.org/55797-2?
Pour le clone non productif, Vidjil donne un V3-7 alors que IMGT et IgBlast identifient tous les deux un V3-41 à 100%
Quand j'aligne la séquence avec celle du V3-7 je trouve...Dans le cas de ce patient : https://app.vidjil.org/55797-2?
Pour le clone non productif, Vidjil donne un V3-7 alors que IMGT et IgBlast identifient tous les deux un V3-41 à 100%
Quand j'aligne la séquence avec celle du V3-7 je trouve plein de différences...https://gitlab.inria.fr/vidjil/vidjil/-/issues/5031germlines/ et python32024-01-31T18:10:53+01:00Mathieu Giraudgermlines/ et python3Les scripts dans germline/ ne se lancent pas sur une machine récente, sans explicitement rajouter des python2 partout.
Voir aussi #2257.Les scripts dans germline/ ne se lancent pas sur une machine récente, sans explicitement rajouter des python2 partout.
Voir aussi #2257.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4879Licence et germlines2021-10-29T17:24:56+02:00Mathieu GiraudLicence et germlinesDepuis #4824:
> voire pour les germlines #2639.
Mettre aussi dans license.md un paragraphe clair pour l'utilisation de germlines non-libres.Depuis #4824:
> voire pour les germlines #2639.
Mettre aussi dans license.md un paragraphe clair pour l'utilisation de germlines non-libres.Web 2021.11Mathieu GiraudMathieu Giraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4845Refactorer {germline,vidjil}.cpp, -V/(-D)/-J devrait créer un json .g et le p...2022-01-10T09:13:01+01:00Mathieu GiraudRefactorer {germline,vidjil}.cpp, -V/(-D)/-J devrait créer un json .g et le passer à Germline(...)Vu en faisant !1004.
Nous avons pour les germlines plusieurs moyens d'initialisation
- l'un par `Germline(... json json_recom ...);` (tout le `.g` passe par là)
- les autres par des constructeurs prenant directement en compte les -V/-D...Vu en faisant !1004.
Nous avons pour les germlines plusieurs moyens d'initialisation
- l'un par `Germline(... json json_recom ...);` (tout le `.g` passe par là)
- les autres par des constructeurs prenant directement en compte les -V/-D/-J et autres (historique, -V/-D/-J...)
Les deux appellent à un moment `init(...)` qui fait des choses. Au final il y a des doublons... et peut-être des micros-différences qui font que faire -V/-D/-J en ligne de commande n'est pas exactement équivalent à -g.
Probablement retirer la deuxième option, et, comme dans !1004, passer tout par la première option en reconstruisant un json depuis vidjil.cpp ? Cela permettrait de rapprocher les deux modes, faciliterait #4844, et probablement simplifierait l'ensemble.Algo 2022.01Mathieu GiraudMathieu Giraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4759Installation binaire : rendre cela possible et/ou supprimer2021-04-19T20:14:30+02:00Mathieu GiraudInstallation binaire : rendre cela possible et/ou supprimer
Est-ce qu'une seule personne sur la planète a déjà utilisé les binaires distribués sur www.vidjil.org/releases ?
Peut-être dans l'équipe de dev, mais sinon j'en doute : on ne fournit *aucune* instruction pour l'installation, en particu...
Est-ce qu'une seule personne sur la planète a déjà utilisé les binaires distribués sur www.vidjil.org/releases ?
Peut-être dans l'équipe de dev, mais sinon j'en doute : on ne fournit *aucune* instruction pour l'installation, en particulier pour... récupérer les germlines, qui nécessitent d'avoir `germline/Makefile`
- Supprimer ces binaires ? Cela simplifierait nos process !
- Faire mieux, avec Debian ou autre ? #3226 Bof... personne ne s'est jamais plaint qu'il n'arrivait pas à installer from source...Algo 2021.04https://gitlab.inria.fr/vidjil/vidjil/-/issues/4665Nouvelles germlines, clustérisation S22 et fenêtre décalée : k-mer commun ent...2023-10-20T12:27:43+02:00Mathieu GiraudNouvelles germlines, clustérisation S22 et fenêtre décalée : k-mer commun entre V et DDepuis https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/885#note_441064.
L'extrait d'une read de S22 (c'est pareil pour 4 autres reads) :
```
>extract-from-lcl|FLN1FA002P88J7
AGAGCCGAGGACACGGCCGTGTATTACTGTGCGAGAGATCGACATTGTAGTGGTG...Depuis https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/885#note_441064.
L'extrait d'une read de S22 (c'est pareil pour 4 autres reads) :
```
>extract-from-lcl|FLN1FA002P88J7
AGAGCCGAGGACACGGCCGTGTATTACTGTGCGAGAGATCGACATTGTAGTGGTGGTAGTTGCCGAGGCCTCTGGGGCCAGGGAACCCTGGTCACCGTCTCCTCAG
```
`vidjil-algo -r 1`, les affects (la seule chose qui change est les germlines) :
```
dev 52 + VJ 1 38 72 106 (...)+H+H+H+H+H+H+H+H+H+H+H+H _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+V+V+V ? _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h _ _ _ _ _ _ _ _ _ _ _ _
!885 53 + VJ 1 60 72 106 (...)+H+H+H+H+H+H+H+H+H+H+H+H _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+V+V+V ?+H _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h+h _ _ _ _ _ _ _ _ _ _ _ _
```
Un `+H` (J) décale la fenêtre de 11bp, ce qui mène à un clone qui passe à 5 reads avec la nouvelle germline (avant ? 4 ?)
Avant de parler de la clustérisation, j'aimerais comprendre d'où vient ce k-mer et si l'un des deux affects est "le bon".https://gitlab.inria.fr/vidjil/vidjil/-/issues/4662Up/down-streams: étendre bien plus, vers 200bp ?2021-01-23T08:19:58+01:00Mathieu GiraudUp/down-streams: étendre bien plus, vers 200bp ?
Suite à #4655, à faire pour une prochaine release, en estimant bien ce que cela implique sur les tests comme sur la performance.
Voir en particulier les tables de load dans #4655.
Suite à #4655, à faire pour une prochaine release, en estimant bien ce que cela implique sur les tests comme sur la performance.
Voir en particulier les tables de load dans #4655.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4659Vérification d'overlap : le faire aussi sur non up/down (bref les V) + refact...2021-01-20T21:09:19+01:00Mathieu GiraudVérification d'overlap : le faire aussi sur non up/down (bref les V) + refactor split-germlinesC'est plus complexe que les choses dans !891 , mais c'est l'occasion de refactorer `split-germlines.py` pour que le même mécanisme sorte les germlines "normales" que les down/up. Sera fait plus tard.C'est plus complexe que les choses dans !891 , mais c'est l'occasion de refactorer `split-germlines.py` pour que le même mécanisme sorte les germlines "normales" que les down/up. Sera fait plus tard.Mathieu GiraudMathieu Giraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4658Les germlines J+down ne sont pas gappées2021-01-20T21:09:19+01:00Mathieu GiraudLes germlines J+down ne sont pas gappées
Est-ce volontaire ou un bug qui pourrait avoir des conséquences sur les calculs de ~"bio-productivity" ?
En tout cas on pourrait peut-être le changer en inversant les deux blocs:
```
for key in key_downstream:
downstream_data[key][...
Est-ce volontaire ou un bug qui pourrait avoir des conséquences sur les calculs de ~"bio-productivity" ?
En tout cas on pourrait peut-être le changer en inversant les deux blocs:
```
for key in key_downstream:
downstream_data[key][-1][1]['seq'] += l
(...)
if '>' not in l and current_files and feature == FEATURE_J_REGION:
l = gap_j(l)
```https://gitlab.inria.fr/vidjil/vidjil/-/issues/4657Examiner les warnings sur les germlines2021-01-20T19:14:12+01:00Mathieu GiraudExaminer les warnings sur les germlinesÉvoqué en audio: un test sur la sortie de `check_imgt_ncbi_consistency()`Évoqué en audio: un test sur la sortie de `check_imgt_ncbi_consistency()`https://gitlab.inria.fr/vidjil/vidjil/-/issues/4656split-germlines.py : indiquer dans le header une référence à la séquence up/down2021-04-08T07:50:06+02:00Mathieu Giraudsplit-germlines.py : indiquer dans le header une référence à la séquence up/down
```
>J00256|IGHJ1*01|Homo sapiens|F|J-REGION|723..774|52 nt|1| | | | |52+0=52| | |
.................gctgaatacttccagcactggggccagggcaccctggtcaccgtctcctcag
GAGTCTGCTGTCTGGGGATAGCGGGGAGCCAGGTGTACTGGGCCAGGCAAGGGCTTTGGCTTCAGACTTG
```
Nous dev...
```
>J00256|IGHJ1*01|Homo sapiens|F|J-REGION|723..774|52 nt|1| | | | |52+0=52| | |
.................gctgaatacttccagcactggggccagggcaccctggtcaccgtctcctcag
GAGTCTGCTGTCTGGGGATAGCGGGGAGCCAGGTGTACTGGGCCAGGCAAGGGCTTTGGCTTCAGACTTG
```
Nous devrions afficher dans le header que nous avons complété la séquence.Mathieu GiraudMathieu Giraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4655Que prendre pour les up/downstream ?2021-03-24T14:34:30+01:00Mathieu GiraudQue prendre pour les up/downstream ?J'étais tenté de réouvrir #3133, mais non, une autre issue.
Bloque !885.
Depuis !885:
> 200 d'upstream (!606) c'était peut-être un peu bourrin…
Mais que prendre alors ?
- Revenir à 40bp ? à autre chose ?
- Vu #4647, retravailler à ...J'étais tenté de réouvrir #3133, mais non, une autre issue.
Bloque !885.
Depuis !885:
> 200 d'upstream (!606) c'était peut-être un peu bourrin…
Mais que prendre alors ?
- Revenir à 40bp ? à autre chose ?
- Vu #4647, retravailler à la suite de !606 pour qu'il n'y ait pas de conflits sur l'ensemble des gènes ? Peut-être pas facile
- ... ou déjà juste *tester* si on a d'autres conflits sur l'ensemble des gènes, et ajouter des exceptions statiques ?https://gitlab.inria.fr/vidjil/vidjil/-/issues/4647Nouvelles germlines ne détectent pas IGHD7-27/J1, collision up/down avec IGHJ1P2021-03-30T11:03:27+02:00Mathieu GiraudNouvelles germlines ne détectent pas IGHD7-27/J1, collision up/down avec IGHJ1PSur !885, on ne détecte plus le colinéaire `should-get-tests/colinear-D7-27--J1.should` #2232 (et #1664).
On a aussi deux `.should-vdj.fa` sur D7-27 qui plantent, mais non liés à J1.
Cependant, la très courte séquence `D7-27` (11 bp) n'...Sur !885, on ne détecte plus le colinéaire `should-get-tests/colinear-D7-27--J1.should` #2232 (et #1664).
On a aussi deux `.should-vdj.fa` sur D7-27 qui plantent, mais non liés à J1.
Cependant, la très courte séquence `D7-27` (11 bp) n'a pas changé, au contraire de... notre upstream !606
```
>J00256|IGHD7-27*01|Homo sapiens|F|D-REGION|621..631|11 nt|1| | | | |11+0=11| | |
-TACCAGCCGCAGGGTTTTGGCTGAGCTGAGAACCACTGTG
+GTGTTTTGGGGCTAACAGCGGAAGGGAGAGCACTGGCAAAGGTGCTGGGGGCCCCTGGACCCGACCCGCC
+CTGGAGACCGCAGCCACATCAGCCCCCAGCCCCACAGGCCCCCTACCAGCCGCAGGGTTTTGGCTGAGCT
+GAGAACCACTGTG
ctaactgggga
```
Est-ce que cela signifie que la séquence `data/D7-27--J1.fa` a un soucis ? Autre chose ?https://gitlab.inria.fr/vidjil/vidjil/-/issues/4640Nouveau TRGJ1*02 et TRGJ2*012022-05-19T10:00:07+02:00Mathieu GiraudNouveau TRGJ1*02 et TRGJ2*01Pour mémoire, il y a six gènes dans TRGJ.
Nous connaissons bien `TRGJ1*02`, qui jusqu'à maintenant avait 3 nucléotides de moins en 5' que `TRGJ1*01`. Depuis [juillet 2018](http://www.imgt.org/IMGTgenedbdoc/dataupdates.html), il a rattrap...Pour mémoire, il y a six gènes dans TRGJ.
Nous connaissons bien `TRGJ1*02`, qui jusqu'à maintenant avait 3 nucléotides de moins en 5' que `TRGJ1*01`. Depuis [juillet 2018](http://www.imgt.org/IMGTgenedbdoc/dataupdates.html), il a rattrapé son grand frère:
```
!
M12960|TRGJ1*01 F|J-REGION|157..206 gaattattataagaaactctttggcagtggaacaacactggttgtcacag
M12957|TRGJ1*02 (old) (F)|J-REGION|23..69 ...ttattataagaaactctttggcagtggaacaacactTgttgtcacag
IMGT000011|TRGJ1*02 (new) F|J-REGION|118516..118565 gaattattataagaaactctttggcagtggaacaacactTgttgtcacag
M12961|TRGJ2*01 F|J-REGION|157..206 gaattattataagaaactctttggcagtggaacaacacttgttgtcacag
```
Il n'est désormais plus marqué `(F)`, et la différence avec `TRGJ1*01` devient encore plus subtile, après ~40 nt. Cela va changer à la marge l'annotation de certaines séquences.
Je serai curieux de connaître les raisons d'un tel changement.
cc @flothoni
[Update : 2022-05-19 : ajout de TRGJ2*01]https://gitlab.inria.fr/vidjil/vidjil/-/issues/4639Pseudogènes IMGT non assignés à des sous-groupes2021-01-13T19:33:50+01:00Mathieu GiraudPseudogènes IMGT non assignés à des sous-groupesDepuis [Lefranc, 2001](https://www.imgt.org/PDF/ECI/18_100-116_2001.pdf) :
> Pseudogenes which could not be assigned to subgroups with functional genes are designated by a Roman numeral between parentheses, corresponding to the clans, f...Depuis [Lefranc, 2001](https://www.imgt.org/PDF/ECI/18_100-116_2001.pdf) :
> Pseudogenes which could not be assigned to subgroups with functional genes are designated by a Roman numeral between parentheses, corresponding to the clans, followed by ahyphen and a number for the localization from 3) to 5) in the locus. All these pseudogenes have truncations.
>
> - clan I: IGHV1, IGHV5 and IGHV7 subgroup genes
> - clan II: IGHV2, IGHV4 and IGHV6 subgroup genes, and pseudogenes IGHV(II)
> - clan III: IGHV3 subgroup genes, and pseudogenes IGHV(III)
> - clan IV: one pseudogene IGHV(IV)-44
Certains de ces pseudo-gènes devaient être référencés depuis longtemps, mais je n'en trouve pas de trace dans `germline-59` (2018). (À l'époque, avions-nous quelque chose qui enlève les pseudo-gènes ?)
Après !839, nous avons 68 de ces gènes.
Doivent-ils avoir un traitement particulier ?
cc @flothonihttps://gitlab.inria.fr/vidjil/vidjil/-/issues/4631Follow-up from "Resolve "Avoir les données germline du cochon (Sus Scrofa)""2021-04-06T15:06:29+02:00Thonier FlorianFollow-up from "Resolve "Avoir les données germline du cochon (Sus Scrofa)""The following discussion from !839 should be addressed:
- [ ] @mikael-s started a [discussion](https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910): (+5 comments)
> Est-ce que ces différentes sous-espèces ont bien d...The following discussion from !839 should be addressed:
- [ ] @mikael-s started a [discussion](https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910): (+5 comments)
> Est-ce que ces différentes sous-espèces ont bien des noms de gènes différents ? Autrement dit est-ce que, par exemple, on ne va pas se retrouver avec deux IGHV1*01 chez *Sus scrofa* ?
```
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|CH1|3..296|294 nt|1| | | | |294+72=366| | |
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|H|297..332|36 nt|1| | | | |36+0=36| | |
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|CH2|333..659|327 nt|1| | | | |327+51=378| | |
IGHC=G1.fa:>M81770|IGHG1*02|Sus scrofa_Minnesota miniature swine|F|CH3-CHS|660..986|327 nt|1| | | | |327+66=393| | |
```
>Ces 4 séquences correspondent en fait à une même séquence d'identifiant M81770 mais ce sont des régions différentes de la séquence (comme l'indiquent les positions : 3 à 296, puis 297 à 332 puis 333 à 659, et enfin 660 à 986). Bref il faudrait certainement clarifier cela, mais ça n'a pas l'air si grave qu'elles aient le même nom… puisque c'est la même séquence.https://gitlab.inria.fr/vidjil/vidjil/-/issues/4624Séquences avec du V-INTRON ou avant2021-01-05T10:53:04+01:00Mathieu GiraudSéquences avec du V-INTRON ou avantDiscussion ensemble à partir de #4621, @mikael-s et @flothoni : a-t-on déjà V-INTRON ?
- http://www.imgt.org/download/LIGM-DB/ftable_doc.html (on n'a que les V-REGION)
- https://mixcr.readthedocs.io/en/master/geneFeatures.html#v-gene-st...Discussion ensemble à partir de #4621, @mikael-s et @flothoni : a-t-on déjà V-INTRON ?
- http://www.imgt.org/download/LIGM-DB/ftable_doc.html (on n'a que les V-REGION)
- https://mixcr.readthedocs.io/en/master/geneFeatures.html#v-gene-structure
- Voir aussi http://www.imgt.org/FAQ/#question57 IGKV1-39*02
Avoir pour certains cas des ~"bio-germlines" plus grandes, avec up ?
Problèmes pouvant arriver:
- génomique, calcul productivité ?
- ARN (sans le V-INTRON), bon alignement ?https://gitlab.inria.fr/vidjil/vidjil/-/issues/4620Sous-espèces et germlines (quasi-)dupliquées2021-04-08T16:09:54+02:00Mathieu GiraudSous-espèces et germlines (quasi-)dupliquéesVu à l'occasion de https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910:
> @mikael-s
> > Est-ce que ces différentes sous-espèces ont bien des noms de gènes différents ? Autrement dit est-ce que, par exemple, on ne va ...Vu à l'occasion de https://gitlab.inria.fr/vidjil/vidjil/-/merge_requests/839#note_428910:
> @mikael-s
> > Est-ce que ces différentes sous-espèces ont bien des noms de gènes différents ? Autrement dit est-ce que, par exemple, on ne va pas se retrouver avec deux IGHV1\*01 chez *Sus scrofa* ?
> @flothoni
> > On a pire que ça: on a plusieurs fois les mêmes entrées pour un même combo segment/allèle/sous-espèce.
> (...)
mais au final
> > On voit que le problème ne concerne donc que les fichiers des classes et pas les germlines directement. Cependant, les séquences ne sont pas les mêmes lorsqu'il y a des duplications...
Qu'en est-il pour Mus Musculus et les autres déjà présentes ?
Que faire s'il y a vraiment une ambiguïté ?