Génération du JSON : l'espace mémoire augmente de 50% à la fin de Vidjil
Voici en pièce jointe un graphique montrant la consommation mémoire de Vidjil sur un jeu de données. Le jeu de données n'est pas choisi au hasard, c'est celui qui a provoqué le plus grand pic de consommation mémoire sur vda depuis le début. Le jeu a cependant été restreint au premier million de séquences. Le problème n'est ni dû à l'étape de KmerSegmentation (croissance régulière de la consommation mémoire, mais faible, due au stockage de nouvelles fenêtres) ni à celle de FineSegmentation (stabilité de l'utilisation mémoire), mais après :
- comparaison des fenêtres entre elles ?
- création du JSON ?
- …
Ce jeu de données se caractérise par une très grande proportion de fenêtres différentes (393 000 fenêtres pour 491 000 reads segmentés ou, pour le jeu complet 1,5M de fenêtres pour 1,9M de reads). Le jeu de données avec 1M de reads est sur le cloud (data/vidjil_bug/issue-2120.fastq.gz
)