vidjil.cpp: smaller -y export
Juste un essai pour #4036 / #4250 :
{
"_average_read_length": [
333.6000061035156
],
"germline": "IGH",
"id": "AAAAAAGCAAAACTGGGGCCCCAGCGGGCGGGTATGGGACGTCTGGGGGC",
"reads": [
5
],
"seg_stat": {
"3": 5
},
"top": 16601
},
Pas de surprises, sur ./vidjil-algo -g germline/homo-sapiens.g -y all -z 0 demo/LIL-L3-0.fastq.gz
(le .gz fait 308 M) :
-
.vidjil
, dev: 29M -
.vidjil
, cette MR, mais on garde les séquences et pasaverage_read_length
: 7,2M -
.vidjil
, cette MR: 4,5M (ping #4334 (closed) qui devient non négligeable) -
Est-ce que les champs présents avec cette MR suffisent vraiment à faire le server-fuse pour calculer les distributions actuelles
-d lenSeqAverage
? @flothoni ? -
Les tests ne vont pas passer car on perd beaucoup d'informations avec ce
-y
allégé. Et un-y all
traditionnel est toujours intéressant dans certains cas...- Par compatibilité, garder le
-y
actuel, et faire un-Y
(ou autre,-W
?) et on ferait plutôt-Y all -z 100
en prod... ? - Ou bien finalement non, on allège le
-y
actuel, et on met une option type--output-more-details
?
- Par compatibilité, garder le
-
Effet collatéral: on sort moins de données, y compris dans le AIRR.
-
Mais si
sequence
n'est plus obligatoire, #4317 ? -
Pourrait-on même ne pas lancer cpp-representative ?