Evaluer un fastq en amont des preprocess et analyse
Je suis tombé aujourd'hui sur des fichiers fastq comportant des erreurs :
@NB501924:75:HT525AFXY:1:11101:16318:8143 1:N:0:ATTGAGGA
+
Ni pear ni vidjil ne sont capable de prendre ces fichiers en l'état (#1723).
On pourrait imaginer l'appel d'un script qui se charge de vérifier que le format ou le contenu est correct et exploitable. Dans certain cas, il pourrait aussi corriger certaines erreurs comme celle-ci (attention dans le cas d'un merge d’ailleurs à bien prendre en compte aussi l'équivalent R2/R3).
De plus, il faudrait dans ce cas rendre disponible un rapport depuis l'interface, qui indique que tout est bon pour passer à la suite de l'analyse, ou indiquer que non et l'indiquer clairement à l'utilisateur.
Je sais qu'il existe des scripts permettant de vérifier la conformité du formatage des fasta/fastq. Je ne sais pas si il existe un script tout fait permettant de vérifier ce type d'erreurs, et d'autres qui nous viendrait en tête.
A chaud:
- vérifier le format,
- vérifier des erreurs d'entrées,
- vérifier le nombre de lignes R1vsR2,
- vérifier les séquences vides,
- vérifier la présence de N ou autres caractères non souhaités
- ...