vidjil.cpp: smaller -y export (!724) · Merge requests · vidjil / vidjil

Mathieu Giraud requested to merge feature-a/4036-light-y-export into dev Jun 11, 2020

Juste un essai pour #4036 / #4250 :

    {
      "_average_read_length": [
        333.6000061035156
      ],
      "germline": "IGH",
      "id": "AAAAAAGCAAAACTGGGGCCCCAGCGGGCGGGTATGGGACGTCTGGGGGC",
      "reads": [
        5
      ],
      "seg_stat": {
        "3": 5
      },
      "top": 16601
    },

Pas de surprises, sur ./vidjil-algo -g germline/homo-sapiens.g -y all -z 0 demo/LIL-L3-0.fastq.gz (le .gz fait 308 M) :

.vidjil, dev: 29M
.vidjil, cette MR, mais on garde les séquences et pas average_read_length: 7,2M
.vidjil, cette MR: 4,5M (ping #4334 (closed) qui devient non négligeable)
Est-ce que les champs présents avec cette MR suffisent vraiment à faire le server-fuse pour calculer les distributions actuelles -d lenSeqAverage ? @flothoni ?
Les tests ne vont pas passer car on perd beaucoup d'informations avec ce -y allégé. Et un -y all traditionnel est toujours intéressant dans certains cas...
- Par compatibilité, garder le -y actuel, et faire un -Y (ou autre, -W ?) et on ferait plutôt -Y all -z 100 en prod... ?
- Ou bien finalement non, on allège le -y actuel, et on met une option type --output-more-details ?
Effet collatéral: on sort moins de données, y compris dans le AIRR.
Mais si sequence n'est plus obligatoire, #4317 ?
Pourrait-on même ne pas lancer cpp-representative ?

Edited Apr 06, 2021 by Mathieu Giraud

vidjil.cpp: smaller -y export

Merge request reports