Format CONLLU
Conversion des données deep-sequoia au formal CONLLU
Pour éviter de maintenir deux "formats" dans les outils, je propose d'utiliser le format CONLLU pour le corpus deep-sequoia.
Relations secondaires
Dans Sequoia 8.0, toutes les relations sont en colonnes 7 et 8. Par exemple :
8 effets effet N NC def=y|g=m|n=p|s=c 5|4|6|9|10 S:obj.p|D:dep.de|D:suj:suj|D:suj:suj|D:suj:obj _ _
Les données actuelles vérifient le principe suivant: tout token est dépendant d'exactement une relation S:…
ou d'une relation sans préfixe.
On peut donc passer en représentation CONLLU sans perdre d'information :
- la relation
S:…
ou sans préfixe reste en colonne 7 et 8 - les autres relations vont en colone 9:
8 effets effet N NC def=y|g=m|n=p|s=c 5 S:obj.p 4:D:dep.de|6:D:suj:suj|9:D:suj:suj|10:D:suj:obj _
Metadonnées
Pour avoir un format CONLLU, il faudrait faire les changements :
- sentid sur token 1 -->
# sentid =
en metadonnée -
# sentence-text:
--># text =
Questions ouvertes
- il faut remplacer les ":" des "suj:obj" de Sequoia par autre chose car le symbole
:
est utilisé (au moins dans UD) pour raffiner les relations (nsubj:pass
est un raffinement densubj
). Dans les donnée pour Depling, les deux parties sont séparées par "__" (double underscore). On peut faire pareil ici. - est-ce qu'on garde les relations intermédiaires
I:…
? Je serai pour les enlever, car :
- elles sont inutiles dans les deux projections surf et deep
- elles ne sont pas dans le guide d'annotation et donc difficile à vérifier, corriger…
- si on supprime des
I:…
, le préfixeD:
devient redondant avec le fait que les relations sont secondaires, on pourrait l'enlever et avoir :
8 effets effet N NC def=y|g=m|n=p|s=c 5 S:obj.p 4:dep.de|6:suj__suj|9:suj__suj|10:suj__obj _