SampleReads : échantillon aléatoire des reads.
@Anne m'a parlé de problèmes de séquences consensus qui ne représentent pas vraiment l'ensemble des reads du clone.
C'est dû à notre manière de conserver les reads : quand il y en a trop on n'en conserve qu'un échantillon composé des reads les plus longs et de meilleure qualité. Dans certains cas cela peut entraîner un biais, comme favoriser les séquences qui possèdent des insertions.
On pourrait essayer de ne conserver qu'un échantillon aléatoire des reads qui, selon la statistique, devrait être représentatif de l'ensemble des reads. Si les reads ainsi conservés sont de mauvaise qualité ou trop courts… hé bien on n'aurait pas fait mieux avec l'échantillon complet.
@Anne n'hésite pas à nous pointer vers un ou deux exemples pour qu'on puisse tester si cela changerait effectivement quelque chose.