Afficher certaines séquences particulières, même en-dessous du -t
Lorsque des séquences d'intérêt sont en dessous du -t 100 de fuse.py on veut qu'elles finissent malgré tout dans le fichier final. Quelle solution retenir ?
- Les passer explicitement en paramètre du fuse.py ? Pas très simple pour notre serveur de faire ça
- Avoir un champ dans le fichier .vidjil qui dise au fuse.py « prends-moi » ? Les champs correspondants aux clones sont assez descriptifs. Là on ajouterait un champ purement « computationnel ». Ça polluerait un peu le fuse…
Le champ dans le .vidjil
pourrrait être un "label", qui ne serait pas forcément oui/non mais pourrait ajouter de la sémantique (comme on faisait il y a longtemps avec l'option "-l"). C'est donc descriptif. (On a déjà "name", qu'on utilise pas comme cela.)
Dans un premier temps, fuse.py pourrait tout simplement garder les séquences avec label. Dans un deuxième, fuse pourrait avoir des paramètres pour spécifiquement garder/ignorer certains labels.
Au fait, dans #1007, un vieux commentaire disait :
"un flag faisant qu'il prend le nom des fichiers fasta comme "name" dans le
.vidjil
(et sorttop: 0
, ou, mieux, un nouveau flag ?)"
On peut effectivement déjà forcer avec top: 0
. Utiliser "name" ne me semble pas une bonne idée maintenant.
Forcer le top : bof, on perd l'info. Je pense que la situation était différente dans l'autre tâche puisqu'il n' s'agit pas de séquences appartenant réellement au jeu de données. Ce qui n'est pas notre cas ici.
nouvelle option --label
(édité, ancienneemnt -W
) + d332792f : on a le label