Skip to content

GitLab

  • Projects
  • Groups
  • Snippets
  • Help
    • Loading...
  • Help
    • Help
    • Support
    • Community forum
    • Submit feedback
    • Contribute to GitLab
  • Sign in
vidjil
vidjil
  • Project overview
    • Project overview
    • Details
    • Activity
    • Releases
  • Repository
    • Repository
    • Files
    • Commits
    • Branches
    • Tags
    • Contributors
    • Graph
    • Compare
  • Issues 1,696
    • Issues 1,696
    • List
    • Boards
    • Labels
    • Service Desk
    • Milestones
  • Merge Requests 89
    • Merge Requests 89
  • CI / CD
    • CI / CD
    • Pipelines
    • Jobs
    • Schedules
  • Operations
    • Operations
    • Incidents
    • Environments
  • Packages & Registries
    • Packages & Registries
    • Container Registry
  • Analytics
    • Analytics
    • CI / CD
    • Repository
    • Value Stream
  • Snippets
    • Snippets
  • Members
    • Members
  • Collapse sidebar
  • Activity
  • Graph
  • Create a new issue
  • Jobs
  • Commits
  • Issue Boards
  • vidjil
  • vidjilvidjil
  • Issues
  • #3218

Closed
Open
Opened May 15, 2018 by Mathieu Giraud@magiraudOwner

Supprimer les k-mers non significatifs ?

(Juste une réflexion peut-être non pertinente, à voir uniquement si le temps du filtrage reste significatif après #3217 (closed).)

Sur IGHV (347 gènes), en prenant des k-mers de taille 5:

  • 1031 k-mers différents, dont
  • 36 k-mers qui apparaissent dans >= 300 des gènes.
  • environ 500 k-mers qui apparaissent dans >= 50 des gènes

Cela fait beaucoup de k-mers qui apparaissent très souvent (et qui vont "charger" l'automate, le match ne serait-il pas en O(zn), où z est le nombre moyen d'affectations par k-mer) ?

On verra quand on aura le temps exact du filtrage (sans suppression) pour #3190 (closed) et après #3217 (closed), mais est-ce que ces 36 kmers apparaissant trop souvent apportent vraiment du signal dans le filtrage ? (Ils peuvent certes amener un signal négatif, on pourrait à la limite stocker cette info.)

cc @mikael-s @boreec

Edited May 15, 2018 by Mathieu Giraud
To upload designs, you'll need to enable LFS and have admin enable hashed storage. More information
Assignee
Assign to
None
Milestone
None
Assign milestone
Time tracking
None
Due date
None
Reference: vidjil/vidjil#3218