Dependency length et autres traits structuraux
Ca pourrait être intéressant de précalculer certains traits structuraux, comme la longueur pour une arête (avec valeur négative quand le dépendant est à droite), et de pouvoir clusteriser ensuite sur e.length
.
Dans le même genre, je pense à l'arité (N.arity
) pour un nœud, çad le nombre d'arètes sortantes.
On pourrait aussi vouloir clustériser sur le nombre d'arêtes d'un certain type :
e: N-[re"comp.*"]->X
- cluster sur
N.e.arity
(pas sur que ce soit la meilleure façon d'encoder la requête)
Sinon, moi, j'ai mon petit dada : le flux. Donc j'aimerais pouvoir aussi clustériser sur le flux en un point de la chaîne : N.fluxsize
me donnerait le nombre d'arêtes concomitantes avec N
. Et comme précédemment je pourrais m'intéresser qu'à certains types d'arêtes e
et clustériser sur N.e.fluxsize
.
Encore une info qui peut être intéressante : tout arbre de dépendance induit une structure constituants. A chaque noeud N
, on peut associer sa projection et notamment la taille de sa projection (N.span
). Ca serait par exemple intéressant d'interroger sur les tailles des sujets.
On peut imaginer d'autres traits comme N.leftspan
et N.rightspan
Ou encore N.depth
pour la hauteur de l'arbre (pas sur que ce soit intéressant.
Tu proposes également de classer par les résultats par longueur de phrase, mais ça serait bien du coup de pouvoir clustériser par sentence.length
ou root.span
.