Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in
vidjil
vidjil
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 1,712
    • Issues 1,712
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge Requests 87
    • Merge Requests 87
  • CI / CD
    • CI / CD
    • Pipelines
    • Jobs
    • Schedules
  • Operations
    • Operations
    • Incidents
    • Environments
  • Packages & Registries
    • Packages & Registries
    • Container Registry
  • Analytics
    • Analytics
    • CI / CD
    • Repository
    • Value Stream
  • Snippets
    • Snippets
  • Members
    • Members
  • Collapse sidebar
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
  • vidjil
  • vidjilvidjil
  • Issues
  • #1490

Closed
Open
Opened Nov 29, 2016 by Vidjil Team@vidjilteamMaintainer

P-value / E-value du segmenter (nb de k-mers)

merci Mikaël !


Comparaison entre multi+inc et multi+inc+e-val (1e-6) : http://rbx.vidjil.org/browser/?custom=1846&custom=2065& Il n'y a que 67 reads segmentés en moins


Sur le jeu de Patrick : http://rbx.vidjil.org/browser/?custom=2063&custom=1988&custom=2064&custom=1989& Les séquences qui disparaissent avec le 1e-6 s'alignent toutes de manière contigue sur le génome sur toute la longueur de la représentative, d'après Ensembl.

En faisant la même chose avec les séquences communes aux deux configs, on a quelques surprises. Il y a encore des alignements contigus sur le génome. La raison : des gènes J non recombinés. On a plein de J à droite et juste un V à gauche (par hasard). Ça passe haut la main la e-valeur (et c'est normal).

Donc il faut bien faire une e-valeur à droite et à gauche, mais pour être plus strict en fait (une e-valeur juste sur le nombre d'affectations dans la partie gauche (sans distinguer V et J) et même chose sur la partie droite ?).


La probabilité est calculée sur toute la longueur de la séquence (sauf les derniers nucléotides) mais on ne peut pas avoir de k-mers non plus au niveau de la jonction… Faut-il corriger cela ? (facile : en supposant que le nombre d'insertions est nul, dur : en ayant un modèle sur le nombre d'insertions, qui dépend du locus…)


J'ai lancé le jeu de données de Larisa en multi+inc et multi+inc+e-val → seule différence un clone TRG (le seul, le reste est du TRB) mis de côté par la e-value. Plutôt positif donc.


On va dire que cette tâche est terminée, merci !


@magiraud @mikael-s

To upload designs, you'll need to enable LFS and have an admin enable hashed storage. More information
Assignee
Assign to
None
Milestone
None
Assign milestone
Time tracking
None
Due date
None
Reference: vidjil/vidjil#1490