vidjil issueshttps://gitlab.inria.fr/vidjil/vidjil/-/issues2022-02-18T17:57:06+01:00https://gitlab.inria.fr/vidjil/vidjil/-/issues/4949Nommer correctement le Pielou's evenness index2022-02-18T17:57:06+01:00Mathieu GiraudNommer correctement le Pielou's evenness indexVu à l'occasion de !1120.
Je pense que nous ne nommons pas correctement notre indice d'équitabilité, et que ce n'est pas que du ~bikeshedding,
mais peut-être un [effet Matilda](https://en.wikipedia.org/wiki/Matilda_effect).
[Evelyn Chr...Vu à l'occasion de !1120.
Je pense que nous ne nommons pas correctement notre indice d'équitabilité, et que ce n'est pas que du ~bikeshedding,
mais peut-être un [effet Matilda](https://en.wikipedia.org/wiki/Matilda_effect).
[Evelyn Chrystalla Pielou](https://en.wikipedia.org/wiki/E._C._Pielou) a publié en 1966:
- Pielou, E. The measurement of diversity in different types of biological collections, https://doi.org/10.1016/0022-5193(66)90013-0
Le calcul que nous utilisons est le $`J'`$.
La dénomination "Pielou's evenness" est attestée dans plusieurs papiers
- https://doi.org/10.2307/1934984 1975
- Jost, The Relation between Evenness and Diversity, https://doi.org/10.3390/d2020207
- https://doi.org/10.1016/S1470-160X(03)00005-0
- https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4439415/
- https://en.wikipedia.org/wiki/Species_evenness
- http://scikit-bio.org/docs/0.4.1/generated/generated/skbio.diversity.alpha.pielou_e.html
Mais on trouve aussi des formulations de type "Shannon's equitability/evenness, also known as Pielou's evenness" (ou parfois même pas de mentions de Pielou), en particulier dans des posts parfois plus faciles à trouver que des articles:
- https://www.nhm.uio.no/english/research/infrastructure/past/help/diversity.html
- https://www.davidzeleny.net/anadat-r/doku.php/en:div-ind
- https://ag.arizona.edu/classes/rnr555/lecnotes/23.html
- https://cran.r-project.org/web/packages/tabula/vignettes/diversity.html
- https://www.biotecharticles.com/Biology-Article/Indices-of-Species-Diversity-Part-II-687.html (probablement deux paragraphes différents pour la même chose)
De notre côté, ces calculs ont été introduits il y a 6 ans par e93eac3f2e5,
avec `" E = " << index_E_equitability << endl // Shannon's equitability`, mais ce nom n'était pas justifié.
Une formule correcte m'a l'air d'être "Pielou's evenness (also known as Shannon's equitability)"Mathieu GiraudMathieu Giraudhttps://gitlab.inria.fr/vidjil/vidjil/-/issues/3954Graines différentes pour V et J2020-03-26T12:45:56+01:00Mathieu GiraudGraines différentes pour V et JSpécialise #1169.
Pensé depuis le début avec ~"cpp-aho".
@mikael-s : "on stocke déjà un `index_load` différent" et "en IGK, 30kbp pour V et 300bp pour J, 100 fois moins !"
Voir aussi #1364.Spécialise #1169.
Pensé depuis le début avec ~"cpp-aho".
@mikael-s : "on stocke déjà un `index_load` différent" et "en IGK, 30kbp pour V et 300bp pour J, 100 fois moins !"
Voir aussi #1364.https://gitlab.inria.fr/vidjil/vidjil/-/issues/3830Calculer l'index de Morisita2020-08-07T17:21:38+02:00Thonier FlorianCalculer l'index de MorisitaJe pense que l'on peux le calculer assez facilement maintenant que nous conservons l'information des vidjil windows.
CEt index semble utile au immuno Lille, à Barcelonne et à Essen (Esteban).
Si il est facile de la calculer au moment d...Je pense que l'on peux le calculer assez facilement maintenant que nous conservons l'information des vidjil windows.
CEt index semble utile au immuno Lille, à Barcelonne et à Essen (Esteban).
Si il est facile de la calculer au moment du fuse, il faut cependant trouver comment l'afficher.
Tableu avec coloration en fct de la valeur (simili-heatmap)https://gitlab.inria.fr/vidjil/vidjil/-/issues/3812Document diversity measures2019-03-18T17:27:31+01:00Mathieu GiraudDocument diversity measuresEsteban asks whether diversity measures are documented
http://www.vidjil.org/doc/vidjil-algo/#diversity-measures is too succint !Esteban asks whether diversity measures are documented
http://www.vidjil.org/doc/vidjil-algo/#diversity-measures is too succint !https://gitlab.inria.fr/vidjil/vidjil/-/issues/3404Aho : segmentation en xxx au lieu de IGH VDJ2018-07-19T19:50:01+02:00Mikaël SalsonAho : segmentation en xxx au lieu de IGH VDJMais le plus drôle c'est que le unexpected qui est sorti est du… IGHV+/IGHJ+ !
C'est sur la séquence : should-vdj-tests/7038-long-deletions.should-vdj.fa
On a des e-valeurs plus basses à la fois pour le V et pour le J en `xxx` (10^-89 ...Mais le plus drôle c'est que le unexpected qui est sorti est du… IGHV+/IGHJ+ !
C'est sur la séquence : should-vdj-tests/7038-long-deletions.should-vdj.fa
On a des e-valeurs plus basses à la fois pour le V et pour le J en `xxx` (10^-89 et 10^-32 contre 10^84 et 10^-23). C'est douteux.
Voici les affectations :
IGH
```
seed IGH SEG_+ 1.099395e-23 9.613435e-84/1.099395e-23 _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _+H _ _ _ _ _ _+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H _ _ _ _ _ _+H _ _ _ _ _ _+H _ _ _ _ _ _+H+H+H+H+H+H+H+H+H+H+H _+H _ _ _ _ _ _ _ _+h+h+h+h+h+h+h+h _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _
```
xxx
```
seed unexpected SEG_+ 3.237259e-32 1.203927e-89/3.237259e-32 _ _-L+B _ _ _ _ _-B _ _ _ _ _ _ _-L _ _ _ _ _ _ _ _ _+H _ _ _ _ _ _+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H+H _ _ _ _ _ _+H _ _ _ _ _ _+H _ _ _ _ _+L+H+H+H+H+H+H+H+H+H+H+H _+H _ _ _ _ _ _ _ _+h+h+h+h+h+h+h+h _ _ _+L _ _ _ _ _ _ _ _ _ _ _ _
```https://gitlab.inria.fr/vidjil/vidjil/-/issues/3225Filtrage par automate : prendre les N meilleures séquences et leurs « voisines »2018-10-10T15:37:05+02:00Mikaël SalsonFiltrage par automate : prendre les N meilleures séquences et leurs « voisines »En général je pense que #3217 avec N = 1 donnera de bons résultats (en gérant les ex-aequo). Mais on aura probablement des situations où la vraie séquence est en fait en 2è ou 3è position mais juste avec quelqes k-mers de moins.
On pour...En général je pense que #3217 avec N = 1 donnera de bons résultats (en gérant les ex-aequo). Mais on aura probablement des situations où la vraie séquence est en fait en 2è ou 3è position mais juste avec quelqes k-mers de moins.
On pourrait dire qu'on prend N = 5 pour prendre une marge de sécurité pour ces cas-là. Mais c'est dommage de prendre 5 gènes dans le cas où le premier est largement devant en termes de nombres de k-mers trouvés.
On pourrait plutôt se dire qu'on prend les N meilleures séquences et leurs voisines proches en termes de nombres de k-mers trouvés, si elles existent. Toute la question est comment définir que le nombre d'occurrences est suffisamment proche ?
S'il est à 0, on a un ex aequo et on considère déjà qu'on doit le prendre.
Si on a 1 k-mer de moins, on sent bien que ce n'est pas très significatif et qu'on devrait prendre ce gène en considération aussi.
Si on a une erreur de séquençage qui nous éloigne du vrai gène et qui nous rapproche, à tort, d'un autre gène, cela peut nous faire perdre k k-mers.
Mais la distance permise dépend aussi de la longueur du gène : il est normal de tolérer une distance plus grande pour des gènes plus grands.
Faut-il avoir des calculs de probabilités ?Algo 2018.09