Séquences stockées dans `seqs_by_window` : champs, compression ?
Une réflexion parallèle à #2120 (closed)/#3387 (closed) : l'espace mémoire au cours de la phase 1 provient quasi totalement de
map<junction, BinReadStorage > seqs_by_window
. Vu ce qu'il y a dans le BinReadStorage
, il est probable que cela soit dominé par les list<Sequence> *bins
. Dans une Sequence
, il y a :
typedef struct read_t
{
string label_full;
string label;
string sequence; // Sequence: original string representation
string quality;
int* seq; // Sequence: seq representation
size_t marked_pos; // Some marked position in the sequence
} Sequence;
Est-ce que tout cela est vraiment conservé et utile ?
- La
quality
double la taille (mais elle est utile pour la representative, c'est cela ?) -
label_full
etlabel
pourraient être supprimés (mais bon, quasi-négligeable ?), sauf quand on veut-a
ou-u
- Est-ce que cela aurait un intérêt de stocker
sequence
etquality
de manière compressée ?
cc @boreec
Edited by Mathieu Giraud