Le coverage et average_read_length semble plus bas avec la nouvelle version de l'aglo

J'ai observé ce qui semble être une régression depuis la nouvelle version de l'algo sur le set suivant: https://app.vidjil.org/?set=28385&config=25

Lors du lancement de cette analyse par le nouvel algo sur le serveur (vidjil-algo 2018.07.2), nous observons qu'il y a beaucoup de clones dans le top qui sont non segmentés, ou plutôt pour lesquels la longueur moyenne est très courte (<100 nt) et donc l'assignation ne montre aucun segments.

D'un autre côté, j'ai voulu tester en local en changeant quelques paramètres. J'ai lancé ça sur une ancienne version de l'algo que j'avais sur mon pc : "vidjil-algo dev 6eb6527f (2018-07-11)"

Dans ce cas, il n'y a pas de problème. les clones font une taille largement supérieurs à 100nt et sont donc correctement segmentés.

En regardant quelques chiffres, on se rend compte que le nombre de clones segment passe de 50k à 60k (sur 61k). En regardant plus près dans le jeu de données, il semblerait que lors du nouvelle algo, on clusterise de nombreuses séquences variant par des stretch de A. Du coup, lors du calcul du coverage,

Je n'ai pas encore isolé la raison de cette erreur. J'ai pas mal galéré hier avec une autre erreur.

algo	version	arguments
multi+inc+xxx	vidjil-algo 2018.07.2	-c clones -3 -z 100 -r 1 -g germline/homo-sapiens.g -e 1 -2 -d -w 50
next algo	vidjil-algo 2018.07.2	next -c clones -3 -z 100 -r 1 -g germline/homo-sapiens.g -e 1 -2 -d -w 50
local	"vidjil-algo dev 6eb6527f (2018-07-11)"	-g germline/homo-sapiens.g

Premièrement, algo et algo next renvoient à la même release.

Le souci que j'ai, c'est que je n'arrive pas a reproduire à coup sûr ce comportement sur mon pc local. J'ai testé avec diverse versions de l'algo (plus anciennes), et un coup ça marche, un coup non. JE continue mes recherches pour comprendre.

J'ai déposé le fichier sur un nouveau patient pour faire des tests : patient 28538

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information