Utilisation des séquences "cibles"
Problème de Patrick :
comparer le nombre de read d’un patient (pour une cible) à la moyenne des reads de cette cible sur l’ensemble des patients (ou sur une cohorte définie, par exemple 200 patients de notre site). Ceci nous permettra d’avoir des critères d’acceptation du run.
Pour ce faire, il faut faire une recherche de cette cible sur l’ensemble des samples sélectionnées:
- Premier point : il faut déjà pouvoir spécifier la cible.
- Pouvons-nous nous contenter de le faire sur la liste des clones disponible dans les fichiers vidjil ? Nous pourrions alors passer à côté d'une séquence qui ne correspond pas à un clone du top 100, mais qui pourrait avoir son intérêt quand même.
- Rechercher sur le fichier source de séquençage ? Certainement plus long d'un point de vue informatique, mais cela reste-t-il de l'ordre du raisonnable ?
- Faudra-t-il utiliser des séquences dégénérées ?
Autre solution: passer par cloneDB. Serait-ce plus simple d'un point de vue technique ? Cela permettrai-t-il la même granulométrie dans la recherche pour l'inclusion des divers échantillons ?
@Patrick : Aurais-tu un exemple de cible que tu cherches , les samples associés, et ce que tu as (ou t'attends) a retrouver stp ?