Skip to content
GitLab
  • Menu
Projects Groups Snippets
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in
  • vidjil vidjil
  • Project information
    • Project information
    • Activity
    • Labels
    • Members
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 1,700
    • Issues 1,700
    • List
    • Boards
    • Service Desk
    • Milestones
  • Merge requests 97
    • Merge requests 97
  • CI/CD
    • CI/CD
    • Pipelines
    • Jobs
    • Schedules
  • Deployments
    • Deployments
    • Environments
    • Releases
  • Packages & Registries
    • Packages & Registries
    • Container Registry
  • Monitor
    • Monitor
    • Incidents
  • Analytics
    • Analytics
    • Value stream
    • CI/CD
    • Repository
  • Snippets
    • Snippets
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
Collapse sidebar
  • vidjil
  • vidjilvidjil
  • Issues
  • #3389
Closed
Open
Created Jul 17, 2018 by Mathieu Giraud@magiraudOwner

Séquences stockées dans `seqs_by_window` : champs, compression ?

Une réflexion parallèle à #2120 (closed)/#3387 (closed) : l'espace mémoire au cours de la phase 1 provient quasi totalement de map<junction, BinReadStorage > seqs_by_window. Vu ce qu'il y a dans le BinReadStorage, il est probable que cela soit dominé par les list<Sequence> *bins. Dans une Sequence, il y a :

typedef struct read_t
{
  string label_full;
  string label;
  string sequence; // Sequence: original string representation
  string quality;
  int*   seq;      // Sequence: seq representation
  size_t    marked_pos; // Some marked position in the sequence
} Sequence;

Est-ce que tout cela est vraiment conservé et utile ?

  • La quality double la taille (mais elle est utile pour la representative, c'est cela ?)
  • label_full et label pourraient être supprimés (mais bon, quasi-négligeable ?), sauf quand on veut -a ou -u
  • Est-ce que cela aurait un intérêt de stocker sequence et quality de manière compressée ?

cc @boreec

Edited Jul 17, 2018 by Mathieu Giraud
To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information
Assignee
Assign to
Time tracking