Uploader un fichier FASTA avec des séquences d'intérêt, les nommer, identifier les manquantes

Plutôt que d'avoir un fichier .analysis contenant des fenêtres à mettre en valeur, on pourrait avoir des séquences complètes à mettre en valeur. À l'interface de chercher si elle trouve des fenêtres connues dans les séquences d'intérêt. Ça éviterait de devoir rentrer les fenêtres dans les fichiers .analysis (qui peuvent changer avec des modifs dans l'algo) et ça permet de traîter directement les séquences d'intérêt que nous donnent nos amis bios.

scénario : on a un fichier fasta donnant des clones connus pour des patients, pour des standards, et on veut le visualiser rapidement

voir déjà vdj/progs/utils/generate-analysis.py fait par Mikaël (ece856d)

il faudrait faire cela directement dans l'interface, et voir les séquences manquantes par rapport au fichier fourni

être aussi capable d'afficher complètement cette séquence dans l'aligneur

ces séquences doivent passer au fuse.py, malgré le top

À discuter ensemble.

Solution 1:

server : transformer le .fa en fichier de labels
c++ : prend ce fichier (-l, existe déjà), marque les séquences ("top: 0" marcherait out-of-the box, mais crade, disons "label")
fuse.py : traite spécialement les clones "label"

Solution 2:

server: transformer ce fichier en .analysis (certains
pas de modif c++
fuse.py : prend un .analysis en plus, et tient compte de ce qu'il y a dedans

La solution 1 est la plus simple, mais la 2 permettrait de renforcer le rôle central d'un fichier ".analysis" (et on pourrait presque avoir un fuse.py qui fusionnerait deux .analysis).

Dans les deux cas :

browser : afficher les séquences manquantes

Il y avait une tâche doublon "Conserver les séquences d'intérêt dans le fuse" :

Soit avoir un tag dans le fichier clntab ou data disant qu'on veut conserver la séquence
Soit avoir un fichier FASTA contenant les séquences d'intérêt à conserver

Les deux solutions demandent de toute façon de lancer le c++ sur le .fa pour récupérer les fenêtres. Autant le faire comme pour les autres fichiers.

Solution mixte proposée :

server : pouvoir rentrer un fichier .fa spécial (soit faire une boite dédiée à cela, soit rajouter un champ aux fichiers .fasta pour qu'ils soient tous soit "reads" soit "known clones")
c++ : lancé sur le .fa spécial, avec -y all -z all + un flag faisant qu'il prend le nom des fichiers fasta comme "name" dans le .vidjil (et sort "top: 0", ou, mieux, un nouveau flag ?)
c++ : lancé sur les n fichiers de reads, comme d'habitude
fuse : prend tous ces .vidjil (mais différencie les "known clones" des "reads")
browser :devra aussi indiquer les manquantes

remarque de Mikaël : il peut y avoir des N dans séquences données. Bref, la prédiction de fenêtre ne sera peut-être pas la bonne méthode, plutôt une recherche a posteriori comme dans vdj/progs/utils/generate-analysis.py

À rediscuter encore.

évoqué aussi hier avec Rennes... Alice a des séquences identifiées comme à enlever, on ne veut pas le faire manuellement...

Déjà si cela taggait automatiquement, ce serait bon. N'est-ce pas proche de charger un fichier .analysis ?

Rando 2016: Marc voit comment faire cela simplement en transformant (côté client ? serveur ?) le fichier FASTA en fichier .analysis.

Limite : si la séquence d'intérêt n'est pas dans le top 100 on ne la verra pas (cf. mail de Jona 21/09/2016)

#1008, #1009

@duez

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information