Pouvoir calculer des distributions
Celles-ci doivent être compatibles avec stats
. Le calcul se fait depuis fuse.py
.
Ajout de 2 options:
- -d; calcul les distributions et les incluts dans le fichier vidjil sous l'entrée
distributions
- -D; génère un fichier json avec uniquement les distributions, compatible directement avec stats (lorsqu'il pourra ouvrir un fichier fournit par l'utilisateur)
Voici la liste actuelle, pour l'instant croisée pour faire toutes les combinaisons possibles. Il faudra, vu la taille et le temps de calcul, probablement évincer celles qui n'ont que peu d'intérêts.
LIST_AXES = ["germline",
"seg5", "seg4", "seg3",
"lenSeqConsensus", "lenSeqAverage", "GCContent", "coverage",
"rearangment", "complete",
"lenSeq",
"seg5_delRight", "seg3_delLeft", "seg4_delRight", "seg3_delLeft",
"insert_53", "insert_54", "insert_43",
"lenCDR3",
"productive",
#"junction_start", "junction_stop",
# "evalue", l'arrondir ?
# "top", # "name"
#"seg5_stop", "seg3_start", "seg4_stop", "seg4_start",
# nbSamples,
# "cdr3_stop", "cdr3_start",
]
Testé sur un ensemble de 30 fichiers --all
(env 30k clones en moyenne):
- génère un fichier de 2,3Go
- Dure 35 minutes
- chaque ajout dans la liste des axes multiplie par 2 le nombre de sortie calculées.
Edited by Thonier Florian