BinReadStorage : Pertinence de 30 bins, tests ?
Extrait depuis #3393 (closed).
Au passage, voir e977c03c :
We increase the number of bins to make sure that the better quality reads will be in a different bin than medium quality reads.
b9c934b4 juste pour voir (mais peut-être que les tests ne couvrent pas les cas souhaités avec suffisament de reads pour remplir les bins). Il se trouve donc que les tests passent sur b9c934b4. Est-ce que cela ne vaudrait pas le coup d'expliciter dans un test un cas difficile pour être pleinement convaincu de cette valeur 30 ?
J'en suis complètement convaincu qu'elle est pertinente. De là à savoir faire un test simple, c'est autre chose. Voici plusieurs jeux de données où cela a permis d'avoir une séquence consensus convenable (où on gagne une à deux centaines de nucléotides) :
http://rbx.vidjil.org/browser/index.html?sample_set_id=10040&config=35
http://rbx.vidjil.org/browser/index.html?sample_set_id=11812&config=35
http://rbx.vidjil.org/browser/index.html?sample_set_id=7520&config=35
http://rbx.vidjil.org/browser/index.html?sample_set_id=7575&config=26
Ce n'était pas la seule raison de l'amélioration, cela faisait plus largement partie de ddd48c77, mais c'était bien un élément nécessaire. Pour autant ce n'est pas pleinement satisfaisant car il reste des consensus trop courtes voire des cas où ça ne change rien : http://rbx.vidjil.org/browser/index.html?sample_set_id=11808&config=35
Voir mes mails du 2016/10/04 14h44 et du 2016/12/02 16h14