vidjil issueshttps://gitlab.inria.fr/vidjil/vidjil/-/issues2017-12-19T09:46:45+01:00https://gitlab.inria.fr/vidjil/vidjil/-/issues/1985Requêtes incessantes à scheduler_task et scheduler_worker2017-12-19T09:46:45+01:00Vidjil TeamRequêtes incessantes à scheduler_task et scheduler_workerIl s'agit initialement d'un mail envoyé à Marc, mais un autre problème avait surgi et on avait mis ça de côté :
Sur le serveur de prod, le process mysql est régulièrement au dessus de 10-20% de CPU.
J'ai loggé les requêtes et il y a pl...Il s'agit initialement d'un mail envoyé à Marc, mais un autre problème avait surgi et on avait mis ça de côté :
Sur le serveur de prod, le process mysql est régulièrement au dessus de 10-20% de CPU.
J'ai loggé les requêtes et il y a plusieurs requêtes par seconde ayant un lien avec les workers et les schedulers alors qu'aucun process n'est queued ou assigned.
Il s'agit de requête du genre :
SELECT scheduler_task.id, scheduler_task.application_name, scheduler_task.task_name, scheduler_task.group_name, scheduler_task.status, scheduler_task.function_name, scheduler_task.uuid, scheduler_task.args, scheduler_task.vars, scheduler_task.enabled, scheduler_task.start_time, scheduler_task.next_run_time, scheduler_task.stop_time, scheduler_task.repeats, scheduler_task.retry_failed, scheduler_task.period, scheduler_task.prevent_drift, scheduler_task.timeout, scheduler_task.sync_output, scheduler_task.times_run, scheduler_task.times_failed, scheduler_task.last_run_time, scheduler_task.assigned_worker_name FROM scheduler_task WHERE ((scheduler_task.assigned_worker_name = 'rbx.vidjil.org#26682') AND (scheduler_task.status = 'ASSIGNED')) ORDER BY scheduler_task.next_run_time LIMIT 1 OFFSET 0
et
SELECT scheduler_worker.id, scheduler_worker.worker_name, scheduler_worker.first_heartbeat, scheduler_worker.last_heartbeat, scheduler_worker.status, scheduler_worker.is_ticker, scheduler_worker.group_names, scheduler_worker.worker_stats FROM scheduler_worker WHERE (scheduler_worker.worker_name = 'rbx.vidjil.org#9626')
Les (anciennes) requêtes sont loggées dans /var/log/mysql/mysql_general.log. J'ai désactivé le log pour ne pas saturer le disque. Pour réactiver, il faut aller dans /etc/mysql/my.cnf, chercher general, décommenter les deux lignes en lien avec general_log et redémarrer le serveur mysql.
***
Dev et test ont maintenant un Heartbeat de 10 secondes, rbx un Heartbeat de 3 secondes (inchangé), la charge de la bdd semble être réduite.
***
On est effectivement passés à environ 3,1 requêtes par seconde, ce qui semble cohérent.
D'après les valeurs que tu donnes, en l'espace de 30 secondes on va avoir 3 heartbeats de chaque worker de dev et de test (soit au total 3 heartbeats * 3 workers * 2 serveurs = 18 heartbeats) et on va en avoir 10 pour rbx ( * 3 workers, soit 30 heartbeats). On arrive à 48 heartbeats en 30 secondes, soit environ 1,6 par seconde. Chaque heartbeat semble générer 2 requêtes, ce qui donne 3,2 requêtes par seconde. On tombe pas loin de ce que j'ai mesuré.
On pourrait diminuer encore du côté de dev et test, mais au final ça ne changerait pas grand chose puisque maintenant c'est rbx qui fait le plus de heartbeats.
***
@Duezhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/2755Documenter l'utilisation de Docker2017-12-13T09:31:43+01:00Mathieu GiraudDocumenter l'utilisation de Docker`doc/server.org` pourrait contenir des infos sur l'installation Docker.
Il faudra d'ailleurs un jour qu'on fasse une journée tutorial Docker pour tous, puis qu'on communique sur cette installation.`doc/server.org` pourrait contenir des infos sur l'installation Docker.
Il faudra d'ailleurs un jour qu'on fasse une journée tutorial Docker pour tous, puis qu'on communique sur cette installation.Ryan HerbertRyan Herberthttps://gitlab.inria.fr/vidjil/vidjil/-/issues/2669Normalisation : renommer les variables A et B2017-12-08T10:03:35+01:00Mikaël SalsonNormalisation : renommer les variables A et BSuggéré par @RyanHerb : renommer les variables `model.normalization.A` et `model.normalization.B` utilisées pour la normalisation pour quelque chose de plus parlant.Suggéré par @RyanHerb : renommer les variables `model.normalization.A` et `model.normalization.B` utilisées pour la normalisation pour quelque chose de plus parlant.https://gitlab.inria.fr/vidjil/vidjil/-/issues/973Automatiser création pseudo-germlines, en particulier Dd2-Dd3, get-germline i...2017-12-04T14:55:59+01:00Vidjil TeamAutomatiser création pseudo-germlines, en particulier Dd2-Dd3, get-germline incompletJe ne sais pas pourquoi la deadline est aujourd'hui.
Le but serait déjà d'avoir les fichiers suivants, une séquence par fichier :
- TRDD2.fa
- TRDD3.fa
- IGKKDE.fa
- IGKINTRON.fa
Pour la combinaison (TRDV + TRDD2), cela devrait s...Je ne sais pas pourquoi la deadline est aujourd'hui.
Le but serait déjà d'avoir les fichiers suivants, une séquence par fichier :
- TRDD2.fa
- TRDD3.fa
- IGKKDE.fa
- IGKINTRON.fa
Pour la combinaison (TRDV + TRDD2), cela devrait se faire directement par germlines.data / parser C++.
***
0818249 : Dd2 et Dd3
Il reste KDE et INTRON, on les récupère où ?
***
C'est Aurélie qui nous les avait envoyé. On les met sur vidjil.org ?
***
Ok, vidjil.org/germline (donc pour l'instant sur bioinfo...).
Avant de le fixer dans le marbre (peut-être en le rentrant en dur dans le git vidjil, dans germline), on refera des tests voir si les séquences sont bonnes / trop courtes / trop longues.
***
J'attends donc juste que vdj/web soit déployé sur bioinfo pour le mettre dans le script :)
***
Bon, je les ai mis à la main sur rbx.
0ad7c6b
***
à faire plus tard : vérifier les séquences, les mettre directement dans le git vidjil
***
c'est bon actuellement
***
@magiraud @mikael-shttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1006vidjil.cpp: CMD_GERMLINES: permettre de spécifier les germlines depuis la lig...2017-12-04T14:55:59+01:00Vidjil Teamvidjil.cpp: CMD_GERMLINES: permettre de spécifier les germlines depuis la ligne de commande (et de tous les prendre si besoin)autant le faire tout de suite via germlines.txt
***
Peut se faire simplement, en acceptant plusieurs -V / -J sur la ligne de commande
***
@magiraudautant le faire tout de suite via germlines.txt
***
Peut se faire simplement, en acceptant plusieurs -V / -J sur la ligne de commande
***
@magiraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1673Valeur de -m par défaut pas très claire2017-12-04T14:55:59+01:00Vidjil TeamValeur de -m par défaut pas très claireDoc: "Note that it is even possible to set `-m -10`
(meaning that V and J could overlap 10 bp). This is the default for VJ recombinations."
En fait c'est le cas... sauf en cas de `-g germline`, ou c'est 0 pour tous.
On retrouve l...Doc: "Note that it is even possible to set `-m -10`
(meaning that V and J could overlap 10 bp). This is the default for VJ recombinations."
En fait c'est le cas... sauf en cas de `-g germline`, ou c'est 0 pour tous.
On retrouve la même ambiguité que ce qu'on avait pour les fenêtres.
Solution : si on a envie de conserver des réglages différents, les mettre dans "parameters" de germline.data.
***
@magiraud @mikael-sAlgo 2017.07https://gitlab.inria.fr/vidjil/vidjil/-/issues/1687Classes des Ig en RNA-Seq2017-12-04T14:55:59+01:00Vidjil TeamClasses des Ig en RNA-SeqOn ne va pas devenir un outil générique de mapping...
... néanmoins, est-ce que cela ne vaudrait pas le coup de détecter qui pourraient arriver en RNA-Seq ? (voire en capture, cela dépend du protocole)
Par exemple au moins les CD3, CD4...On ne va pas devenir un outil générique de mapping...
... néanmoins, est-ce que cela ne vaudrait pas le coup de détecter qui pourraient arriver en RNA-Seq ? (voire en capture, cela dépend du protocole)
Par exemple au moins les CD3, CD4, CD8, CD19, CD45RA/CD45RO... ou d'autres...
***
Et les régions constantes pour détecter la classe d'Ig
https://en.wikipedia.org/wiki/Immunoglobulin_class_switching
***
Sarah, 26 oct. 2015 :
> Je voudrais savoir s’il est possible de connaitre la chaine lourde utilisée (IgM ou autre) à partir des analyses faites sur vidjil ?
***
Dans IMGT/GENE-DB, on a :
1 4 IGHA1
3 11 IGHA2
4 18 IGHE
4 18 IGHG1
6 28 IGHG2
19 130 IGHG3
4 15 IGHG4
1 6 IGHGP
3 18 IGHM
Lecture: IGHM, 3 alleles / C-GENE-UNIT, (IGHM*01, *02, *03), mais au total 18 exons (selon les classes, CH1-4, H1-2, M1-2, entre 35 et 400 nt).
***
Attention ! IGHD*01 et IGHD*02 sont des chaînes lourdes constantes IgD, au contraire des gènes habituels IGHD1-1*01 & co.
***
Class switching : mentionné par Cristina Jiminez lors de son talk ESLHO
***
ping
***
Classes : Sarah est extrêmement intéressée.
La pseudo-germline IgJC (mail du 30 octobre, et branche ighc, rebasée à l'instant) lui convient parfaitement ("cela évitera de refaire à Rennes 150 PCRs" :-). Bref, mettre la détection des classes avant notre audio du 25 février.
***
(autres choses que les classes: bougé dans nouvelle tâche)
***
Config 37, avec /home/vidjil/custom-germlines/germlines-classes.data
+ branche ighc (pas utilisée pour l'instant, juste pour vérifier que tout passe, sauf à la marge -2/-4). Lancé sur une dizaine de fichiers de Sarah, on lui fera coucou lundi.
***
@nobody @magiraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/2133Germlines de souris et de rat2017-12-04T14:55:54+01:00Mathieu GiraudGermlines de souris et de ratMettre tous les locus, et créer un fichier `germline/mus-musculus.g` et `germline/rattus-norvegicus.g`
@mikael-sMettre tous les locus, et créer un fichier `germline/mus-musculus.g` et `germline/rattus-norvegicus.g`
@mikael-sAlgo 2017.03Mikaël SalsonMikaël Salsonhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/2134Permettre de ne lancer que certains germlines d'un fichier .germlines2017-12-04T14:55:54+01:00Mikaël SalsonPermettre de ne lancer que certains germlines d'un fichier .germlinesActuellement on a la possibilité de préciser soit un fichier `.germlines` dont tous les locus spécifiés seront analysés (sauf les incomplets si on n'a pas l'option `-i`), soit l'ensemble des fichiers « V » et l'ensemble des fichiers « J ...Actuellement on a la possibilité de préciser soit un fichier `.germlines` dont tous les locus spécifiés seront analysés (sauf les incomplets si on n'a pas l'option `-i`), soit l'ensemble des fichiers « V » et l'ensemble des fichiers « J » (et éventuellement D) sur la ligne de commande. Dans ce dernier cas, il s'agit d'un germline « custom » qui n'est donc pas assimilé à un germline reconnu et n'a pas d'espèces.
Il serait pratique de ne pouvoir sélectionner que quelques germlines au sein d'un fichier `.germlines`. Par exemple si je veux analyser les kappa avec les incomplets je pourrais faire `-g germline/homo-sapiens.germlines -? IGK,IGK+` (où le `?` est à remplacer par une lettre adéquate). Si je voulais préciser les fichiers V et J sur la ligne de commande, je perdrais la possibilité de séparer les complets des « inhabituels »
@magiraudAlgo 2017.03https://gitlab.inria.fr/vidjil/vidjil/-/issues/1605Germline 'xxx': on aimerait aussi avoir le FineSegmenter2017-12-04T14:55:54+01:00Vidjil TeamGermline 'xxx': on aimerait aussi avoir le FineSegmentermettre dans labels de kmerstore.h un lien vers un objet Germline
***
et ce n'est pas si évident: certaines affectations viennent de plusieurs Germline : d (TRD+) et k (IGK+).
Il faudrait pouvoir mettre plusieurs Germline et/ou changer G...mettre dans labels de kmerstore.h un lien vers un objet Germline
***
et ce n'est pas si évident: certaines affectations viennent de plusieurs Germline : d (TRD+) et k (IGK+).
Il faudrait pouvoir mettre plusieurs Germline et/ou changer Germline
***
2015.12 sera une belle release :-)
***
17e9c09
Voir tout de même la remarque dans le commit : si une même affectation vient de plusieurs germlines, seule une germline est renvoyée/utilisée. Bref, on risque de ne pas détecter des 'xxx' avec Intron.
***
@nobodyhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1634TRB incomplet2017-12-04T14:55:54+01:00Vidjil TeamTRB incomplet- une entrée TRB+ dans germlines.data (regarde par exemple IGH+)
- un ou deux tests dans tests/should-vdj-tests/ sous la forme d'un fichier *.should-vdj.fa (il peut y avoir plusieurs séquences dans le même fichier)
***
Cela a l'a...- une entrée TRB+ dans germlines.data (regarde par exemple IGH+)
- un ou deux tests dans tests/should-vdj-tests/ sous la forme d'un fichier *.should-vdj.fa (il peut y avoir plusieurs séquences dans le même fichier)
***
Cela a l'air bon, il manque plus qu'à mettre le test en should-vdj au lieu de should-get
***
j’attends de récupérer des séquences tests additionnels avant.
***
Florian, ce serait bien de boucler ce point, quitte à ne prendre que la séquence que tu as maintenant.
D'ici fin juillet on fera la release 2015.07, et normalement il faut un certain temps de "freeze" avant qu'on le fasse.
merci !
***
j'ai modifié le should-get en should-vdj en attendant d'voir le jeu de séquences plus important de Necker que Patrick doit me fournir prochainement.
***
merci !
a35c301: rajouté des "_", sinon il n y'avait que la première chaine qui était testée + le N détaillé + l'info sur le locus
python should-vdj-to-tap.py should-vdj-tests/trb+.bd2-bj2-3.should-vdj.fa
# Teste uniquement le locus (-2q), et aussi le reverse (-r)
python should-vdj-to-tap.py -2q -r should-vdj-tests/trb+.bd2-bj2-3.should-vdj.fa
***
Vielle tâche bien faite, je ferme
***
@flothonihttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1012germline/germlines.data: trouver un format utile, l'utiliser un peu partout2017-12-04T14:55:54+01:00Vidjil Teamgermline/germlines.data: trouver un format utile, l'utiliser un peu partoutPour l'instant, la définition de PSEUDO est dans pipeline.py.
Ce n'est pas générique, on devrait pouvoir lancer vidjil avec un -G KDE.
Où mettre cette liste ?
***
b7b1d34, branche "germline": draft très préliminaire, germline/germlines...Pour l'instant, la définition de PSEUDO est dans pipeline.py.
Ce n'est pas générique, on devrait pouvoir lancer vidjil avec un -G KDE.
Où mettre cette liste ?
***
b7b1d34, branche "germline": draft très préliminaire, germline/germlines.txt
***
En discuter ensemble fin août
***
mis dans master
***
@nobodyhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1236germlines.js: mise à jour des séquences2017-12-04T14:55:54+01:00Vidjil Teamgermlines.js: mise à jour des séquencesMarc, tu as un script quelque part qui crée le .js ? Il faudrait le relancer... (et le mettre dans le git, à côté de split-from-imgt.py). Note qu'il y a maintenant des fichiers isolés (type TRDD2-01.fa, et il y aura aussi KDE.fa), certai...Marc, tu as un script quelque part qui crée le .js ? Il faudrait le relancer... (et le mettre dans le git, à côté de split-from-imgt.py). Note qu'il y a maintenant des fichiers isolés (type TRDD2-01.fa, et il y aura aussi KDE.fa), certaines séquences peuvent être en double.
Ou bien, à terme, faire que le javascript accède directement aux séquences dans les fichiers fasta dans germline (et dans ce cas, plus besoin de js/germline.js vu que le reste est dans germline.data)
***
>>faire que le javascript accède directement aux séquences dans les fichiers fasta dans germline
On peut parser n'importe quel fichier texte en javascript sauf les fichiers locaux (toujours la même restriction le javascript n'a pas a accéder aux fichiers de l'utilisateur) donc faisable mais il faut abandonner le offline
***
donc pour l'instant le germline.js est une bonne solution (pas parfaite, mais bon)
***
séquences a jour ainsi que le script déplacé dans /germline
>> 41b25020ac88a0
>> 948fead4f8d6fec
***
e4d33ac : script rajouté dans get-germline
***
@Duezhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1553Changer le germline d'un clone2017-12-04T14:55:54+01:00Vidjil TeamChanger le germline d'un cloneCela permettrait de répondre à plusieurs questions :
- bouger des clones mal affectés, en récupérer (xxx > IGH+)
- et ignorer vraiment des clones dont on ne veut pas (un locus > xxx)
1) Si c'est dans le .analysis, est-ce que l'info pa...Cela permettrait de répondre à plusieurs questions :
- bouger des clones mal affectés, en récupérer (xxx > IGH+)
- et ignorer vraiment des clones dont on ne veut pas (un locus > xxx)
1) Si c'est dans le .analysis, est-ce que l'info passe bien ?
2) Quelle procédure pour changer ? (réfléchir aussi au changement de V / de J, peut-être dans le info)
***
pour 2), le germline apparait maintenant dans getInfoHtml, ce serait le bon endroit pour avoir un bouton pour éditer
***
Marc : « en soit c'est facile, mais ça change toutes les stats et il faudrait la sauvegarder ou rejouer le changement »
***
Marc : « il crée la liste des gènes en fonction des gènes réellement utilisés. C'est fait à chaque fois qu'on change de germline. Il faudrait relancer la fonction qui calcule cela quand on change le germline d'un clone. »
***
Dépend de « changer les gènes V/D/J d'un clone » : https://www.producteev.com/workspace/t/555b3f53b1fa09245f000000
***
Vu ensemble : ok, bien, n'afficher les listes déroulantes que lorsqu'on clique sur un bouton "edit" dans la barre de titre "segmentation"
***
fait.
***
voir les changments de stats induits
***
Parfait, merci !
***
e105a41: Je viens de faire en sorte que le bouton ne soit visible que lorsqu'on est en mode développement (faire Ctrl-A). J'ai en effet besoin de mettre à jour le browser sur rbx et d'utiliser master.
***
Oups... tu as commité des choses aujourd'hui dans "florian", mais sans récupérer avant ce que j'avais mis dans "master" hier... cela sent le conflit lorsque tu vas devoir merger...
***
Euh... en fait non, ton dernier commit 9b1ea5b est bien une reprise de ce qui est dans master... mais c'est bizarre, ce n'est pas un commit de merge. On en discutera demain.
***
... en tout cas c'est très joli comme cela !
***
@flothonihttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1235germlines.data: l'utiliser dans le browser2017-12-04T14:55:54+01:00Vidjil Teamgermlines.data: l'utiliser dans le browserEn particulier générer les axes V/J qu'il faut, et prendre l'ordre du fichier pour ordonner les germlines (l'ordre alphabétique ne marche pas, TRA, TRB, TRG, TRD, hihihi)
Et supprimer icon de js/germline.js (la color, tu pourrais aussi ...En particulier générer les axes V/J qu'il faut, et prendre l'ordre du fichier pour ordonner les germlines (l'ordre alphabétique ne marche pas, TRA, TRB, TRG, TRD, hihihi)
Et supprimer icon de js/germline.js (la color, tu pourrais aussi la mettre dans germline.data...)
***
from >> 56b44b5769782a80d
to >> 3c485fbb4a5c31
les germlines/custom germlines sont construit en live en utilisant germlines.data
***
Génial, cela fonctionne parfaitement
***
@Duezhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1517stats : segmenté ou avec window ?2017-12-04T14:55:54+01:00Vidjil Teamstats : segmenté ou avec window ?reads av. len clones av. rds
IGH -> 185469 125.9 31516 5.6
Mais 5.6 = (quelque chose de plus petit que 185469) / 31516.
La faible différence vient des reads segmentées mais sans window.
Jusqu'à maintenan...reads av. len clones av. rds
IGH -> 185469 125.9 31516 5.6
Mais 5.6 = (quelque chose de plus petit que 185469) / 31516.
La faible différence vient des reads segmentées mais sans window.
Jusqu'à maintenant, on insiste sur les reads "segmentées", mais bon, pour l'utilisateur c'est les reads avec window qui sont intéressante.
" = SEG, no window " devrait devenir "UNSEG_NO_WINDOW", c'est une cause parmi d'autre de non-analyse.
Bref, dans core/windowExtractor.cpp, j'ai très envie de déplacer la ligne "seg->segmented_germline->stats_reads.insert(read_length);"
juste en-dessous. Et de changer d'autres trucs à coté.
Ce serait donc l'occasion d'afficher dans le browser plutôt le nombre de reads "avec window". Et peut-être mettre "analyzed" au lieu de "segmented", cela fait longtemps que cela me trotte dans la tête.
***
C'est acté, on change.
***
77113c1
***
@magiraud @mikael-shttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1549Utiliser pour de vrai les séquences upstream/downstream2017-12-04T14:55:54+01:00Vidjil TeamUtiliser pour de vrai les séquences upstream/downstreamIl y a des données d'Alice avec un D5-J5 qui a 12 délétions → il en reste 8.
Il faut mettre à jour les germlines (sur Vidjil-data), et mettre à jour les tests et le germline.cpp qui utilise certaines séquences.
***
Fait pour DH-JH (9e16...Il y a des données d'Alice avec un D5-J5 qui a 12 délétions → il en reste 8.
Il faut mettre à jour les germlines (sur Vidjil-data), et mettre à jour les tests et le germline.cpp qui utilise certaines séquences.
***
Fait pour DH-JH (9e16fee5). Met-on les J downstream pour tout le monde ?
***
fait pour plusieurs germlines...
***
@magiraud @mikael-shttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1230FineSegmenter : refuser de segmenter si cela n'est pas joli2017-12-04T14:55:54+01:00Vidjil TeamFineSegmenter : refuser de segmenter si cela n'est pas joliMaintenant qu'on peut considérer plusieurs germlines, attention à ne pas autoriser n'importe quelle segmentation
Le KmerSegmenter est déjà bien stringeant. (et donc, quand "-c clones", le "bon" germline est passé au FineSegmenter)
Le F...Maintenant qu'on peut considérer plusieurs germlines, attention à ne pas autoriser n'importe quelle segmentation
Le KmerSegmenter est déjà bien stringeant. (et donc, quand "-c clones", le "bon" germline est passé au FineSegmenter)
Le FineSegmenter, lui, accepte trop facilement de segmenter quelque chose qui n'a rien à voir, et cela se voit sur le "-c segment" (il va segmenter en TRG alors qu'il devrait attendre l'IGH qui est derrière).
Replonger dans les scores / positions de dynprog...
***
Priorité remontée.
Voir en particulier les données du 27 novembre (Cas IGH)
***
Necker 23 décembre (patient 94).
Peut-être faire remonter aussi, pour la representative de chaque clone, le score de Kmer/FineSegmentation, et mettre un warning dans la liste des clones aux clones bizarres
***
Évoqué aussi par Yann le 10 février, pour une séquence dont le D ne faisait... qu'un nucléotide !
***
D: 4da08e2, au moins 5 bases au premier passage (cela pourrait être amélioré, certes, là c'est score-indépendant)
***
Échange de mails avec Marine : une fin de V avec seulement 10 nucléotides.
***
a710c4a
Pour l'instant, c'est juste une vérification qu'il y a au moins 10 matches. A améliorer avec un vrai calcul de p-valeur/e-valeur.
***
#1231, #1232
***
@magiraud @mikael-shttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1998Branche improve_representative2017-12-04T14:55:54+01:00Vidjil TeamBranche improve_representativeOuah, joli boulot, je n'avais pas vu tout cela ! Pas testé, j'ai par contre feuilleté le code.
- Qualité : ce serait bien qu'on ajoute encore des tests (y compris pour les cas de trim de N à l'extérieur). Est-ce qu'il y a aussi des séq...Ouah, joli boulot, je n'avais pas vu tout cela ! Pas testé, j'ai par contre feuilleté le code.
- Qualité : ce serait bien qu'on ajoute encore des tests (y compris pour les cas de trim de N à l'extérieur). Est-ce qu'il y a aussi des séquences réelles où maintenant c'est beacuoup mieux ?
- Vitesse : J'imagine qu'on est toujours globalement linéaire...
Enfin, en rebasant sur "sans-aho" ("improve_representative-sans-aho"), il ne manque que 5f724a6 : est-ce que cela peut se faire tout de même sans aho (et donc potentiellement mergeable cette semaine pour 2016.09 ?)
***
– Qualité : Pour les tests, oui c'est prévu. Les jeux problématiques de la Pitié sont des exemples où cela fonctionne nettement mieux (on passe d'une représentative d'une centaine de bases, à 400nt. Il reste quelques cas où la séquence représentative reste trop courte. Pour qu'elle soit de bonne longueur il faut *diminuer* le nombre de séquences auditionnées (passer de 2000 à 1000 voire 200) ce qui permet d'avoir une proportion plus importante de séquence de bonne qualité. Le problème est que si le clone possède 2000 reads, toutes les séquences seront auditionnées alors qu'il en existe certaines qui sont de mauvaise qualité et qui vont ajouter du bruit.
– Vitesse, pas testé mais c'était prévu aussi. Ça doit rester dans le même ordre de grandeur normalement.
Le 5f724a6 : non cela ne peut pas se faire sans. Pour le coup on sortirait de longues représentatives, mais pas forcément significatives.
***
Hmm... curieux, cela ne passe pas sur mon système décadent :
In file included from germline.cpp:2:
In file included from ./germline.h:8:
./kmerstore.h:384:10: error: no viable overloaded '='
seed = IKmerStore<T>::seed;
~~~~ ^ ~~~~~~~~~~~~~~~~~~~
(En attendant cela passe sur rbx, je regarde fonctionnellement)
***
Avant la release, j'aimerais bien faire passer tout ça sur Jenkins (solution crade, mettre la branche sans-aho temporairement dans la conf du job Jenkins).
Ça compile pour moi avec g++4.9, g++5 et g++6 mais effectivement clang ne passe pas… Je ne comprends pas ce sont juste deux string…
***
Ça devrait être bon pour clang maintenant.
***
Merci, cher magicien.
Je me suis amusé avec data/ambiguous_representative.fa. Cela marche bien pour l'extension (pas de N à l'extérieur, s'arrête au bon endroit). Par contre le premier N passe en A, c'est un effet de bord des k-mers ?
***
> Avant la release, j'aimerais bien faire passer tout ça sur Jenkins
Oui. Ne t'embête pas avec Jenkins : Ce soir, je fais une séance de black git et je remets tout cela sur dev.
***
ambiguous_representative.fa: intéressant. Il y avait ce problème-là mais du coup je suis passé à un index pour chaque graîne (j'étais réticent au début, mais ça ne doit pas changer grand chose en terme de temps de calcul, un peu en espace mais on est sur de petites donnée). Je regarde à quoi c'est dû.
***
Tu m'autorises à tricher ? C'est à cause de la faible complexité de la séquence, on a deux fois la même graîne (--A--T--A--A--C--C--C--T--T--T) qui matche dans la séquence 2 et du coup lors du match « inattendu » cela couvre la position censée contenir le N.
Modifier une position permet d'augmenter la complexité et d'éviter le hit. J'ai commité un truc, tu en fais ce que tu veux.
***
Bien sûr, tricherie acceptée ! Merci.
***
(j'avais du d'ailleurs m'y reprendre à plusieurs fois avant de trouver des "noisy sequences" qui n'étendaient pas d'un nucléotide la représentative)
***
@magiraud @mikael-shttps://gitlab.inria.fr/vidjil/vidjil/-/issues/1237germlines.data et offline2017-12-04T14:55:54+01:00Vidjil Teamgermlines.data et offlinegermlines.data est récupéré par germline_builder.js via AJAX... et donc, ne marche que sur serveur, et pas en offline.
Comment faire ? Est-ce que germlines.data pourrait être directement chargé comme du .js source (comme pour les séquen...germlines.data est récupéré par germline_builder.js via AJAX... et donc, ne marche que sur serveur, et pas en offline.
Comment faire ? Est-ce que germlines.data pourrait être directement chargé comme du .js source (comme pour les séquences ?)
***
D'un autre côté, veut-on pouvoir garder la possibilité d'avoir des germlines.data différents par fichier ? Non, on a bien un seul germlines.data, les adaptations éventuelles sont les germlines "custom" dans les .vidjil.
***
j'ai fait quelques modifs, le germline en javascript est construit d'abord avec les données de germlines.data et si elles sont incompletes ou manquantes le germline est construit/complété avec les genes du fichier .vidjil donc meme sans germlines.data on a un truc regardable (manque juste les "shortcut" et "color")
***
ok, on en discute demain
***
-> mettre en .js
***
@Duez