vidjil issues

Alignement après add germline genes : l'affichage n'est pas correct

2023-01-25T09:40:58+01:00

Quand on aligne après avoir fait « add germline genes », l'affichage n'est pas correct. Il y a bien des tirets ajoutés dans la séquence du clone mais pas dans les gènes ce qui fait qu'ils apparaissent au début. Pour autant le CGI renvoie bien des tirets pour toutes les séquences. cc @duez

Fenêtre info ne s'ouvre pas sur d'anciens samples (avec un custom)

2020-11-06T10:59:26+01:00

Ici https://app.vidjil.org/browser/?custom=2909 la fenêtre info ne s'ouvre pas avec l'erreur : ``` TypeError: this.diversity[key][time].toFixed is not a function ```

Configuration trop stringeante sur la recherche du D

2022-05-12T11:42:47+02:00

Exemple : http://rbx.vidjil.org/browser/index.html?patient=3837&config=2 On prend le gros clone et les petits clones autour. La moitié a un D trouvé, pas l'autre moitié. Le D fait 22bp il n'est pas trouvé dès qu'il y a une erreur/mutation. *** Alors il y a bien un problème mais il n'a rien à voir. Voir « Le résultat de la segmentation change selon le contexte » #2003 *** Notons que toutes les séquences ici ont normalement le même "multiplier" de E-value (nb de clones analysés). ... et effectivement, il y a bien un problème (de calcul de p-valeur) : cela semble gros qu'une seule mutation sur 22pb fasse tout louper. *** Surtout qu'il y a une séquence avec une mutation dans le D, où le D est bien trouvé... *** Seuil de e-valeur pour le D : .05 J'imagine qu'il y a une raison pour cette faible valeur, mais les D sont courts et atteindre de très faibles e-valeur est compliqué (à l'inverse de ce qu'on a avec le kmer segmenteur). Pourquoi le seuil est-il à 0,05 ? *** @magiraud @mikael-s

Véracité des causes de non segmentation (et implications du -t ou -2)

2016-12-06T10:22:13+01:00

Les causes de non segmentation varient grandement en fonction des paramètres utilisés, ce qui induit en erreur. Par exemple sur des données de LLC, ajouter un -t 0 (par défaut -t 100), conduit à considérer le V dans toute sa longueur et donc le UNSEG too few V/J passe de ~10^5 à ~10^3, les séquences passant en fait en « UNSEG only V/5' ». Cela amène d'ailleurs à se poser la question de la pertinence de -t 100 : il y a des séquences qui contiennent vraiment du V mais dont on pense qu'elles n'en ont pas à cause du -t 100. Par ailleurs sur ces mêmes données, utiliser un -2 fait passer une très grosse partie des séquences de « UNSEG only V/5' » à « UNSEG only J/3' » pour une raison que je n'explique pas. Les données en question : patient 1803 et 1806 (Lille). *** @magiraud @mikael-s

evalues > 1

2019-09-16T16:58:45+02:00

Des e-valeurs > 1 sont sorties pas Vidjil. Exemple ici : http://rbx.vidjil.org/browser/?patient=1634&config=25 prendre le premier clone de la liste avec un warning. La e-valeur vaut 480061. *** Vu aussi par Tatiana, e-value >1 sample 3703 *** Je n'arrive pas à retrouver un exemple : le bug sur le 1634 est confirmé ? *** Je ne vois plus les e-valeurs. Elles ne sont plus affichées ? *** @magiraud @mikael-s

Notifications zombies

2021-11-16T16:05:37+01:00

J'ai parfois des notifications qui refont surface (en l'occurrence là j'ai le workshop et la successful maintenance). Dès que je fais une action j'en ai une ou les deux qui s'en vont. Pas de problème particulier au niveau réseau ou JS… *** Il se pourrait qu'il s'agisse du méchanisme de cache (un dépassement de quota qui entraine l'écrasement des données d'un autre utilisateur?) *** @RyanHerb

Surveiller périodiquement les erreurs / tickets sur le serveur + nettoyer

2024-01-19T18:42:33+01:00

Je viens de faire une passe sur les tickets de juin 2015. J'ai supprimé tous les tickets qui me semblent être résolus (ou au moins pour lesquels il y a un message d'erreur maintenant plus explicite, qui sera en log.error()) et donc qui apparaitront dans le log et non pas en erreur serveur. On devrait le faire peut-être plus systématiquement :-) *** Fait aussi manuellement pour mai, et pour 15-30 avril. -> depuis le 15 avril, il reste moins de 10 tickets sans explication En passant, je suis tombé sur *beaucoup* d'erreurs venant directement de nos tests (moi y compris). Quand on n'est pas propre et qu'on provoque des erreurs sur le serveur (hum...)... on doit ensuite effacer sa forfaiture dans les erreurs :-) Pour les trucs plus vieux, j'ai tout simplement... supprimé. Rien ne sert d'avoir des tickets si on ne les regarde pas, et cela gène la "vue par exception" si on a des vieux trucs qui n'arrivent pas. *** Pas beaucoup d'erreurs en oct/nov 2015. Juste "patients.py: can't compare datetime.date to NoneType" qui revient de temps en temps. *** Ormis les erreurs de taille de fichier, ou d'indispo de BDD, les erreurs qui semblent revenir sont: Une (ou des) délétion(s) de patients qui n'existent pas (=> mettre un controle) can't compare datetime.date to NoneType *** merci Ryan d'avoir regardé cela ! *** De rien. Je n'ai pas encore nettoyé les tickets car je ne savais pas si quelqu'un voudrait faire une passe dessus :) *** @magiraud @RyanHerb @mikael-s @Duez

Coverage plus que douteux sur certains jeux de données

2021-04-08T19:03:56+02:00

Sur les 20 premiers clones de Stanford S22, avec -w 60, près de la moitié ont un coverage <= 65%. Et plusieurs sont à <= 55%. *** Et avec -w 100, ce n'est pas vraiment mieux. N'est-ce que des hypermutations somatiques, ou est-ce plus grave ? *** Titre changé : cela ne concerne pas que S22. Autre exemple de jeux de données avec des coverages très douteux : http://rbx.vidjil.org/browser/index.html?patient=786&config=26 *** @magiraud @mikael-s

La représentative couvre mal certains jeux de clones

2023-10-18T13:07:37+02:00

Jeu de données IGH de Cristina http://rbx.vidjil.org/browser/index.html?patient=527&config=27 (voire les clones en fonction de clone length/GC content). Tous les reads font 250 bp, on a des représentatives autour de 50bp. Même chose avec ce jeu de données (F. ~"Paris-Pitié") : http://rbx.vidjil.org/browser/index.html?patient=510&config=26 (certains clones sont autour de 70bp alors que les reads font 300bp) *** Dans les deux jeux de données, même raison : il s'agit d'une séquence normale, suivie d'une série de A de longueur variable, suivie d'une séquence quelconque. On avait déjà eu ça dans un jeu de données. Rennes ? Exemples en pièce jointe (clone.fa-4 c'est pour le patient 527 et clone.fa-18 c'est pour le patient 510). *** Oui c'était bien Rennes (mail du 18/03/2015, 18h10). *** La représentative couvre donc mal ces jeux, mais c'est normal. Ce qu'on aimerait c'est récupérer les reads du clone depuis Vidjil :) *** (écrit il y a deux heures, grr producteev) On va bien sûr essayer d'améliorer cela, mais on aura toujours des séquences bizarres. - un filtre côté c++ pour éjecter ces séquences - + côté browser les warnings *** hmm… qu'entends-tu par « éjecter ces séquences » ? Si la séquence amont accroche (avec les seuils de e-valeur), a-t-on vraiment envie de la virer ? *** Il se trouve d'ailleurs qu'au niveau du polyA, la qualité chute dans le FASTQ : c'est le séquenceur qui se tape un délire ? *** Problème lorsqu'on a un fort taux d'erreur sur R2, même avec la nouvelle heuristique, il y a des cas qui se passent mal : http://rbx.vidjil.org/browser/index.html?sample_set_id=11808&config=26 http://rbx.vidjil.org/browser/index.html?sample_set_id=11812&config=35 (sur le 2è clone) *** @magiraud @mikael-s

Message d'alerte : revoir la CSS

2021-02-05T20:02:50+01:00

Le message d'alerte n'est pas affiché quand il est trop long (car caché). On n'a vraiment pas envie d'être embêté par ce genre de problème quand on affiche un message d'alerte.

Tooltips riches dans la webapp : implémentation

2019-01-10T15:21:23+01:00

Description un peu complète et lien vers la doc. Si la tooltip apparaît plus rapidement qu'un "title" c'est mieux aussi. Exemple, sans bibliothèque JS (à part JQuery) : https://codepen.io/jamilhijjawi/pen/lIwbK *** Remarque de Marc durant la rando : on crée beaucoup de contenu dynamiquement, bref cela impose de relancer le .js (soit sur tout, soit sur l'objet nouvellement créé). Solution purement CSS dans features/tooltip (ce qu'avait fait François), simplification/re-travail en cours. *** @magiraud @mikael-s

Changer germline/genes : voir changements de stats induits

2017-05-22T15:25:49+02:00

(mis sur tâche à part, autant segmenter les tâches) *** Quelles sont les stats qui varient ? le nombres de locus, les pourcentages, la evalue ? Lesquels sont automatiques ou lesquelles faut-ils traitées ? *** Le plus visible sont les infos à haut à gauche : total 764 757 reads segmented 634 014 reads (82.90%) selected locus 634 014 reads (82.90%) <--- cela peut changer On les voit aussi quand on sélectionne des clones, en bas à droite (8 clones, 4534 reads, X.X%) et quand on fait export fasta ou bien export report. Mais normalement toutes ces choses prennent leurs infos au même endroit ? regarde en particulier : - model.js:update_selected_system - clone.js:getPrintableSize et les autres fonctions appelées (On ne change pas la evalue, c'est donné en amont par le C++) *** ok Je trouve les infos du log auss ia changer. C'est une seul variable texte, générée directement par vidjil. Question d'approche : Pour modifier ses valeurs, il vaut mieux parser ça dans un objet, changer la/les valeurs, recalculer la répartition/stats, et resortir le résultat sous forme de string ? *** Changement fait, mais pas encore les tests (je galère encore un peu). *** @flothoni

Charger / Sauver les .analysis dans des vues autres que Patient

2016-11-29T14:40:09+01:00

Que ce soit avec la tâche "Run / SampleSet / Tags", ou même, dès maintenant, avec le "Compare Patients", on souhaite visualiser voire sauvegarder les .analysis. C'est une demande explicite de XXX ("Peut-on sauver les analyses dans Compare Patients ?"). Cas d'usage : dans une vue "Run", on identifie une contamination, qu'on targue, et on veut retrouver ce tag dans les différents Patients (et, pour un des patients, c'est le "main clone", pour les autres, "contamination") Ce n'est pas facile - que se passe-t-il si un clone est en rouge dans le patient A, mais pas en B / C ? On voit la ligne rouge A-B-C, mais faut-il sauver du rouge dans B-C ? - pire, si autre couleur dans B-C, warning à faire (Cela ne doit pas nous bloquer pour faire Run/SampleSet/Tags...) *** XXX c'est Jona Van der Straeten (mail du 23/11) *** @nobody

Identifiants des germlines dans germlines.js

2022-06-20T15:30:34+02:00

Remarqué par @Cyanael : les identifiants des *germlines* dans germlines.js ne sont pas systématiques : TRGV, TRGJ, IGK-INTRON, IGHD_upstream ... En aval, cela impacte au moins model.js: exportFasta où on a du faire des règles spécifiques. Cela provient de `buildBrowserGermline.py` (et donc du nom des fichiers ?). Ces identifiants ne sont pas propres, la seule référence devrait être les infos de `germline/homo-sapiens.g` → faudrait-il utiliser des clés TRG-5, TRG-3, IGK+-5, TRD-4 ? → ou même TRG / IGK+ en vrac ? → ou même... tout en vrac, dans une seule hashmap ? (A-t-on vraiment besoin des séquences séparées par germline ? La description des germlines est déjà faite par ailleurs)

Afficher séparément les tubes de PCR différents, même quand ils concernent le...

2019-01-09T17:16:15+01:00

Demande de Yann: quand on fait Vg1-9 et Vg10, on aimerait voir les % par rapport au tube de PCR. La même question se pose pour quasiment tous les locus, en fonction des tubes utilisés. - afficher cela comme deux locus différents ? (dans ce cas, on ne voit plus de grid avec tout le TRG) - est-ce que le browser est bien robuste au changement de germlines.data ? (difficulté avec germlines.js) ? - avoir un germlines.data différent par utilisateur / par patient ? ou stocker cela dans le .vidjil ? - ou bien déjà avoir plusieurs germlines.data (un comme actuel, un Lille, un tubes BIOMED-2, ...) ? à réfléchir *** @nobody

Mise en cache des requêtes, séparation requêtes affichage / droits

2019-12-06T15:30:39+01:00

Optimiser les requêtes c'est bien, mais plus simplement est-ce que les mettre en cache ne suffirait pas à obtenir un gros gain de performance ? cf. http://web2py.com/books/default/chapter/29/06/the-database-abstraction-layer#Caching-selects *** Intéressant. à voir comment on combine cela avec des modifs de la DB : un flag provenant du .js qui dit si l'utilisateur a modifié des choses ? et peut-on utiliser `cacheable=True` indépendamment de cache, et est-ce que cela va plus vite ? Sur la liste des patients, on ne se sert des Row que comme affichage, pas comme modif. *** ping *** @Duez @RyanHerb @mikael-s

Voir les séquences manquantes par rapport à un fichier d'intérêt

2020-12-11T12:55:06+01:00

Voir les séquences manquantes par rapport à un fichier d'intérêt

Nommer des séquences d'intérêt (super utile pour pool de patients, pour stand...

2021-11-19T11:06:57+01:00

Nommer des séquences d'intérêt (super utile pour pool de patients, pour standards, pour clones connus)

Uploader un fichier FASTA avec des séquences d'intérêt, les nommer, identifie...

2020-12-11T12:55:06+01:00

Plutôt que d'avoir un fichier .analysis contenant des fenêtres à mettre en valeur, on pourrait avoir des séquences complètes à mettre en valeur. À l'interface de chercher si elle trouve des fenêtres connues dans les séquences d'intérêt. Ça éviterait de devoir rentrer les fenêtres dans les fichiers .analysis (qui peuvent changer avec des modifs dans l'algo) et ça permet de traîter directement les séquences d'intérêt que nous donnent nos amis bios. *** scénario : on a un fichier fasta donnant des clones connus pour des patients, pour des standards, et on veut le visualiser rapidement voir déjà vdj/progs/utils/generate-analysis.py fait par Mikaël (ece856d) il faudrait faire cela directement dans l'interface, et voir les séquences manquantes par rapport au fichier fourni *** être aussi capable d'afficher complètement cette séquence dans l'aligneur *** ces séquences doivent passer au fuse.py, malgré le top *** À discuter ensemble. Solution 1: - server : transformer le .fa en fichier de labels - c++ : prend ce fichier (-l, existe déjà), marque les séquences ("top: 0" marcherait out-of-the box, mais crade, disons "label") - fuse.py : traite spécialement les clones "label" Solution 2: - server: transformer ce fichier en .analysis (certains - pas de modif c++ - fuse.py : prend un .analysis en plus, et tient compte de ce qu'il y a dedans La solution 1 est la plus simple, mais la 2 permettrait de renforcer le rôle central d'un fichier ".analysis" (et on pourrait presque avoir un fuse.py qui fusionnerait deux .analysis). Dans les deux cas : - browser : afficher les séquences manquantes *** Il y avait une tâche doublon "Conserver les séquences d'intérêt dans le fuse" : - Soit avoir un tag dans le fichier clntab ou data disant qu'on veut conserver la séquence - Soit avoir un fichier FASTA contenant les séquences d'intérêt à conserver *** Les deux solutions demandent de toute façon de lancer le c++ sur le .fa pour récupérer les fenêtres. Autant le faire comme pour les autres fichiers. Solution mixte proposée : - server : pouvoir rentrer un fichier .fa spécial (soit faire une boite dédiée à cela, soit rajouter un champ aux fichiers .fasta pour qu'ils soient tous soit "reads" soit "known clones") - c++ : lancé sur le .fa spécial, avec -y all -z all + un flag faisant qu'il prend le nom des fichiers fasta comme "name" dans le .vidjil (et sort "top: 0", ou, mieux, un nouveau flag ?) - c++ : lancé sur les n fichiers de reads, comme d'habitude - fuse : prend tous ces .vidjil (mais différencie les "known clones" des "reads") - browser :devra aussi indiquer les manquantes *** remarque de Mikaël : il peut y avoir des N dans séquences données. Bref, la prédiction de fenêtre ne sera peut-être pas la bonne méthode, plutôt une recherche a posteriori comme dans vdj/progs/utils/generate-analysis.py À rediscuter encore. *** évoqué aussi hier avec Rennes... Alice a des séquences identifiées comme à enlever, on ne veut pas le faire manuellement... Déjà si cela taggait automatiquement, ce serait bon. N'est-ce pas proche de charger un fichier .analysis ? *** Rando 2016: Marc voit comment faire cela simplement en transformant (côté client ? serveur ?) le fichier FASTA en fichier .analysis. *** Limite : si la séquence d'intérêt n'est pas dans le top 100 on ne la verra pas (cf. mail de Jona 21/09/2016) *** #1008, #1009 *** @Duez

Supprimer le calcul de matrice de similarité dans l'algo

2020-05-26T10:45:33+02:00

Mikaël : Dans 830ad222 on est passé de max_clones (en général 100) comparés à sort_clones.size() qui, me semble-t-il, contient la liste de tous les clones. Mathieu : Oui, exactement. La raison de 830ad222 était que certains utilisateurs lancent -z 10000 (ou plus), et cela faisait vraiment exploser la taille. Notons que, avant, on avait toujours 100 clones, même quand il y en avait moins... Mikaël: (…) D'ailleurs a priori le calcul fait dans Vidjil n'est plus utile. On pourrait le virer. Mathieu: Je l’ai tout de suite remis à 20. C’est probablement de la faiblesse (au lieu de l’enlever), mais cela ira pour l’instant. *** -> si pas de regret, on le supprime à la release qui suivra 2016.10 *** @magiraud @mikael-s