Mentions légales du service

Skip to content
Snippets Groups Projects
Commit 1e03edd7 authored by GUYET Thomas's avatar GUYET Thomas
Browse files

ajout article PFIA

parent 59fca912
Branches
No related tags found
No related merge requests found
%% -*- TeX -*- -*- FR -*-
\documentclass[french]{pfia}
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
%\usepackage[french]{babel}
\usepackage{url}
\usepackage{graphicx}
\newcommand{\citep}[1]{\cite{#1}}
\newcommand{\fup}[1]{$^{#1}$}
\newcommand{\og}{«~}
\newcommand{\fg}{\xspace}
\include{macros}
\title{\textbf{Analyse d'une enquête sur la sémantique \\des motifs séquentiels avec négation}}
\author{Thomas Guyet\fup{1}\\[6pt]
\fup{1} Inria -- Centre de Lyon, Équipe \href{https://team.inria.fr/aistrosight/}{AIstroSight}}
\date{thomas.guyet@inria.fr}
\begin{document}
\maketitle
% ------------------------------------------
% RÉSUMÉS ET MOTS-CLÉS
% ------------------------------------------
\begin{resume}
Un motif séquentiel avec négation prend la forme d'un motif séquentiel pour lequel le symbol de négation peut être utilisé devant certains des itemsets. Dans ce cas, l'itemset qui suit doit être absent dans la séquence pour que le motif apparaisse dans la séquence. Des travaux récents ont montrés que différentes sémantiques pouvaient être attribuées à ces formes de motif.
Ces travaux ont ainsi mis en évidence que les algorithmes d'extraction de ces motifs n'extrayaient pas les mêmes ensembles de motifs et ils soulèvent la question de l'interprétabilité des résultats.
%
Dans ce travail, nous nous sommes posé la question de savoir si certaines sémantiques étaient plus intuitives que d'autres et si celles-ci correspondaient à celles d'un ou plusieurs algorithmes. Pour cela, nous avons procédé sous la forme d'un questionnaire.
Cet article présente ce questionnaire et l'analyse des 101 réponses obtenues.
Les résultats montrent que deux sémantiques sont majoritairement intuitives mais qu'aucune d'elles ne correspond à celles des algorithmes principaux de l'état de l'art.
\end{resume}
\begin{motscles}
Exemple type, format, modèle.
\end{motscles}
\begin{abstract}
A sequential pattern with negation takes the form of a sequential pattern for which the negation symbol can be used before some of the itemsets. In this case, the following itemset must be absent in the sequence for the pattern to appear in the sequence. Recent work has shown that these patterns have different semantics and raises the question of the interpretability of pattern mining algorithms.
%
This article presents a questionnaire about the intuitiveness of some semantics.
The analysis of the 101 answers shows that there are mainly two semantics that are mostly intuitive but that none of them correspond to those of the main algorithms of the state of the art.
\end{abstract}
\begin{keywords}
Example, model, template.
\end{keywords}
\section{Introduction}
L'extraction de motifs séquentiels est une classe de méthodes classique de la fouille de données. Elle vise à extraire des sous-séquences (motifs) qui apparaissent fréquemment\footnote{Le motif apparaître fréquemment si il a apparaît dans au moins $\sigma$ sequences, où $\sigma$ est défini par l'utilisateur.} dans une grande base de séquences. Par exemple, dans le tableau ci-dessous le motifs $\langle e\ (ca)\ d\rangle$ apparaît dans 4 séquences ($\seq{p_0}$, $\seq{p_2}$, $\seq{p_3}$ et $\seq{p_4}$).
\begin{table}[h]
\caption{Exemple de base de séquences. La case à cocher sur la droite permet au lecteur de répondre lui même aux questions. Voir Question \ref{ex:positif} pour ce tableau.}\label{tab:intro}
\centering
\begin{Form}
\begin{tabular}{llc}
\hline
\textit{id} & \textit{Séquence}&\\\hline
$\seq{p_0}$ & $\langle e\ (caf)\ d\ b\ e\ d\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=p0]{}\\
$\seq{p_1}$ & $\langle c\ a\ d\ b\ e\ d\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=p1]{} \\
$\seq{p_2}$ & $\langle e\ (ca)\ d\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=p2]{} \\
$\seq{p_3}$ & $\langle d\ e\ (ca)\ b\ d\ b\ e\ f\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=p3]{} \\
$\seq{p_4}$ & $\langle c\ e\ b\ (fac)\ d\ e\ c\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=p4]{} \\\hline
\end{tabular}
\end{Form}
\end{table}
%Dans la plupart des approches qui ont été développées, les motifs extraits sont des motifs fréquents. Parce qu'ils sont récurrents dans la base, ces motifs sont représentatifs de ce qui est observé dans les données.
Ces motifs fréquents peuvent être énumérés efficacement, grâce à la propriété d'anti-monotonie du support (\ie le nombre d'occurrences d'un motif). Intuitivement, le support d'un motif décroît avec la taille des motifs. Cette propriété, utilisée par la plupart des algorithmes de la littérature, évite d'énumérer les motifs qui sont plus grands que des motifs qu'on sait a priori ne pas être fréquents.
Plusieurs travaux \cite{cao2016nsp, guyet2020negpspan} ont enrichis le domaine des motifs séquentiels par l'ajout d'information sur l'absence de la survenu d'un évènement. On parle alors de motifs séquentiels \textit{avec négation}.
Les motifs séquentiels avec négation prennent la forme de motifs séquentiels pour lesquels un symbol de négation, $\neg$ devant un itemset indique que ce dernier doit être absent d'une séquence pour y apparaître. Intuitivement, le motif $\langle a\ \neg b\ c\rangle$ sera reconnu dans une séquence si cette dernière comporte un $a$ puis un $c$ et que $b$ est absent entre les occurrences de $a$ et $c$.
Néanmoins, il a été constaté que les deux algorithmes principaux eNSP~\cite{cao2016nsp} et NegPSpan~\cite{guyet2020negpspan} n'extraient pas les mêmes ensembles de motifs négatifs. Ceci s'explique par le fait que ces deux algorithmes n'attribuent pas la même sémantique au symbole de négation~\cite{besnard2020semantics}.\footnote{Ce n'est pas la seule raison de la divergence entre les algorithmes. Mais, les autres différences sont mineures.} Pour un même motif $\seq{p}$ et une même séquence $\seq{s}$, eNSP et NegPSpan ne seront pas forcément d'accord sur le fait que $\seq{p}$ apparaît ou non dans $\seq{s}$. Les comptages d'apparition dans la base sont donc différents entre algorithmes et les motifs qui sont effectivement fréquents peuvent ainsi être différents.
Les deux sémantiques sont toutes aussi intéressantes l'une que l'autre. La question qui se pose réside alors sur le partage de la sémantique entre l'utilisateur et l'outil qu'il utilise. Autrement dit, l'utilisateur a qui sont délivrés les motifs a-t-il une interprétation similaire à celle de l'algorithme utilisée. Si ce n'est pas le cas, il peut y avoir une mauvaise interprétation des résultats de l'extraction de motifs.
L'utilisateur novice ne cherchant pas forcément à comprendre les subtilités de ces motifs, il semble intéressant d'identifier une possible disparité entre la sémantique utilisée dans un algorithme et celle utilisée ``intuitivement'' par un utilisateur.
%La question que doit se poser un analyse qui utiliserait ces outils est de savoir si les motifs extraits correspondent effectivement à ce qu'il attend.
%Il est important de noter qu'il n'y a pas de sémantique \textit{meilleure} qu'une autre.
%Ces différences, portant essentielles à comprendre par l'analystes
%Pour l'utilisateur avertis, il se pose la question de quelle sémantique utiliser parmis les différentes sémantiques possibles pour la négation dans une séquence d'itemsets.
%Les travaux de Besnard et Guyet~\cite{besnard2020semantics} ont montrés qu
%Dans ces travaux sur la conception d'algorithmes efficaces d'extraction de motifs négatifs, le choix de la sémantique a été largement imposé par des considérations calcultoires, mais elles ne motivent peu les choix pour des raisons sémantiques.
%Du fait de l'utilisation d'une même notation
%Cette limite nous a amené à nous demander si la sémantique implicite de ces algorithmes correspond à celle des utilisateurs.
Dans cet article, nous nous sommes donc principalement posé deux questions~:
\begin{enumerate}
\item existe-t-il une sémantique ``intuitive'' pour les motifs avec négation~? %La question qui se pose est de savoir si différents utilisateurs partagent la même sémantique ou bien si ils peuvent avoir des lectures différentes des motifs avec négations.
\item la sémantique ``naturelle'' correspond-elle à celle qui est effectivement utilisée par l'un des algorithmes~?
\end{enumerate}
Pour répondre à ces questions, la méthodologie a consisté à proposer un questionnaire pour révéler la sémantique qui est intuitivement appliquée par les utilisateurs.
Le détail de la méthodologie de cette enquête est décrite dans la Section~\ref{sec:enquete}.
La Section~\ref{sec:semantique} présente les questions qui ont été posées aux utilisateurs et explicite les interprétations alternatives qui sont possibles.
La Section~\ref{sec:resultats} présente et analyse les résultats qui ont été collectés pour XXX participants.
On commence tout d'abord par un bref état de l'art des méthodes d'extraction de motifs séquentiels.
%Un motif séquentiel, par exemple $\langle a\ b\ c\rangle$, ne donnant qu'une information qu'à propos des
%Les motifs séquentiels informent un utilisateur sur ce qui s'est passé dans une séquence et caractérisent ainsi le comportement observé dans une trace. Le motif $\langle a\ (bc)\rangle$ indique que l'événement $a$ est apparu avant que les événements $b$ et $c$ apparaissent ensemble.
%Cette caractérisation est faite au travers de ce qui s'est effectivement passé, mais ne dit rien de ce qui pourrait se passer par ailleurs.
%Avec les motifs séquentiels négatifs fréquents (ou motifs séquentiels avec négation), les comportements sont décrits à la fois par les événements qui se produisent (évènements dits \textit{positifs}) et par certains d'entre eux qui sont absents (évènements dits \textit{négatifs)}. La modélisation de cette absence vise à donner plus d'information sur le contexte d'apparition des évènements positifs~\citep{Cao2015}.
%Parfois, c'est même l'absence qui est caractéristique d'un comportement. Par exemple, pour un groupe d'étudiants ayant de mauvaises notes, l'absence au cours est potentiellement plus informatif que de savoir à quels cours ils ont assistés.
%À l'heure où les questions de l'explicabilité des méthodes d'apprentissage automatique sont largement discutées, les méthodes de fouille de motifs fréquents mettent en avant la nature interprétable de leur sorties.
%Néanmoins, les domaines de motifs de plus en plus complexes soulèvent également des questions sur leur interprétabilité. D'un utilisateur à l'autre, le sens donné à un motif peut varier et c'est plus particulièrement le cas dans le cas de l'extraction de motifs séquentiels avec négation pour lesquels la notation $\neg$ introduit une ambiguïté sur la sémantique à donner à ces motifs.
%Besnard et Guyet~\cite{besnard2020semantics} ont ainsi identifiés huit interprétations différentes des motifs séquentiels avec négation. Besnard et Guyet ont présenté les différentes sémantiques d'un point de vue formel, présentant notamment leurs propriétés vis-à-vis des algorithmes d'extraction de motifs.
%Néanmoins, leur article ne précise pas si les sémantiques qui offrent ces propriétés sont celles qui correspondent à l'intuition des potentiels utilisateurs de ces motifs.
%Dans cet article, la question qui se pose est l'existence d'une interprétation qui serait plus naturellement utilisée par les utilisateurs, et de savoir si les sémantiques ``naturelles'' des utilisateurs sont celles qui satisfont les bonnes propriétés algorithmiques.
%Pour cela, nous présentons en Section~\ref{sec:enquete}, un questionnaire qui a été proposé largement et dont nous avons collecté 101 réponses. La Section~\ref{sec:resultats} présente les résultats de cette enquête au regard des questions ci-dessus. Mais nous commençons tout d'abord par introduire les différentes sémantiques qui ont été proposés dans le questionnaire.
\section{État de l'art sur l'extraction de motifs séquentiels avec négations}
Les premiers travaux sur l'extraction de motifs négatifs ont été proposés par Savasere et \al~\cite{Savasere1998} dans le cadre de la fouille d'itemsets. Les premiers travaux sur les motifs séquentiels avec négation ont été proposés par Wu et \al~\cite{wu2004efficient} pour des règles d'association.
Plusieurs approches récentes ont été proposées pour bénéficier également des avancées dans le domaine de l'extraction de motifs.
L'algorithme eNSP extrait des motifs négatifs en exploitant des opérations ensemblistes entre motifs séquentiels fréquents~\citep{cao2016nsp}.
Il évite ainsi l'énumération directe des motifs avec négation, car l'ensemble des motifs qui sont extraient ne bénéficient pas de la propriété d'antimonotonie.
De nombreuses alternatives de cet algorithme ont été proposées depuis, s'intéressant à l'utilité des items~\cite{xu2017HighUtilityNSP}, des répétitions~\cite{dong2018rnsp}, des contraintes multiples de supports~\cite{xu2017msnsp}, etc.
{\sc NegPSpan}~\cite{guyet2020negpspan} est une approche concurrente à eNSP qui utilise une sémantique de motifs différente pour bénéficier de la propriété d'anti-monotonie. Ceci permet une extraction efficace et complète selon les principes classiques de l'extraction de motifs.
%énumère les motifs extraits en faisant une énumération complète des motifs par une approche en profondeur~\cite{guyet2020negpspan}. La sémantique des motifs extraits est différente de celle de eNSP et
Récemment, Wang et \al~\cite{wang2021vm} ont proposé VM-NSP, un algorithme qui utilise une représentation verticale pour améliorer l'efficacité des algorithmes.
Le lecteur intéressé par un état de l'art plus complet des approches récentes d'extraction de motifs séquentiels avec négation peut se référer à Wang et~\al~\citep{Wang2019}.
Si les premières approches se sont comparées entre elles sans pour autant utiliser les mêmes sémantiques de motifs. L'identification des différentes sémantiques a conduit a clarifier le domaine~\cite{besnard2020semantics}. Plus précisément, 8 sémantiques des motifs avec négations ont été identifiés.
% et nous a amené à nous intéresser à la sémantique des motifs du point de vue de ses utilisateurs.
\section{Enquête sur la perception des motifs avec négations}\label{sec:enquete}
L'enquête\footnote{Enquête~: \url{http://people.irisa.fr/Thomas.Guyet/negativepatterns/Survey/survey.php}%\textit{blinded}%
} mise en place vise à identifier une sémantique qui serait plus naturellement utilisée par les utilisateurs de motifs extraits par un algorithme.
Cette enquête est organisée en trois parties (la section suivante revient plus en détail sur les questions des phases 2 et 3 de l'enquête)~:
\begin{enumerate}
\item estimation du niveau de connaissance du domaine de la fouille de motifs et de la logique. Dans cette partie, on demande si l'utilisateur est familié des notions d'extraction de motifs, et également si il est informaticien/logicien/chercheur. L'objectif de cette question est de disposer d'informations pour caractériser d'éventuels biais de l'ensemble des enquêtés.
\item vérification de la compréhension des principes des motifs séquentiels afin de limiter les biais de compréhension dans la suite des questions. Tout d'abord, un texte explique et illustre les principes des motifs séquentiels. %(sans négation) et de la portée de la négation.
%Cette partie comporte deux questions (voir Exemples~\ref{ex:positif} et~\ref{ex:portee}).
Une première question évalue la compréhension de la sémantique des motifs séquentiels (sans négation), notamment les notions d'\textit{itemset}, le séquencement et la possibilité de \textit{gap}\footnote{La reconnaissance de la sous-séquence permet l'insertion d'itemset au milieu d'une occurrence.}. %L'utilisateur doit indiquer si le motif séquentiel apparaît
Tant que la réponse à cette question n'est pas correcte, l'utilisateur ne peut pas poursuivre le questionnaire.
Une seconde question vérifie que la portée des négations est comprise de la même manière que celle définie par notre cadre d'analyse~\cite{besnard2020semantics}. Par exemple pour le motif $\langle a\ \neg b \ c\rangle$, la négation du $b$ ne porte pas au dela d'une occurrence de $c$. Ainsi, ce motif est considéré comme apparaissant dans la séquence $\langle a\ e\ c\ b\rangle$ même si un $b$ apparaît après le $c$.
%Il s'agit de s'assurer que l' comme étant entre les occurrences des deux itemsets positifs entourant la négation.
Les utilisateurs ne répondant pas correctement à cette question seront écartés de l'analyse.
%Si un utilisateur considère que la négation impact
%ne perçoit pas la On s'assure que (la négation ne s'applique afin de s'assurer que les interprétations ne sortent a priori pas du cadre défini par Besnard et Guyet~\cite{besnard2020semantics}.
\item identification de la sémantique \og{}intuitive\fg{} des motifs séquentiels avec négation. %Il se compose de trois questions correspondant aux exemples~\ref{ex:noninclusion} à~\ref{ex:occurrence}.
Pour chacune de ces questions, on demande à l'utilisateur de cocher les séquences dans lequel il pense qu'un motif apparaît (voir exemple de la Figure~\ref{fig:deuxversions}). Le groupe de séquences cochées associe donc un utilisateur à une sémantique donnée.
\end{enumerate}
\begin{figure*}[tb]
\centering
\includegraphics[width=\textwidth]{figures/deuxversions}
\caption{Illustration des deux versions du questionnaire~: sur la gauche, version avec lettres, sur la droite, version avec symboles colorés. La question consiste à désigner les séquences pour lesquels l'utilisateur pense qu'elle contient un motif.}
\label{fig:deuxversions}
\end{figure*}
L'enquête a été diffusée au travers de listes de diffusion de recherche ainsi que dans des cercles non-liés à la recherche pour avoir des retours également de non-experts. Elle est accessible via un navigateur web standard. Le questionnaire est rédigé en anglais et s'adresse donc à des anglophones.
Les explications relatives aux principes de la notion de motif séquentiel sont détaillées en début de questionnaire.
Afin d'éviter le biais de maîtrise des représentations mathématiques, le questionnaire peut être joué en deux versions~: avec notations sous forme de lettres ou de symboles colorés (cf. Figure~\ref{fig:deuxversions}).
Le questionnaire est totalement anonyme et seule la date de saisie du questionnaire a été collectée en sus des réponses aux questions.
\section{Cadre général}
On commence par introduire la syntaxe des motifs séquentiels avec négation. Dans toute la suite, $[n]=\{1, \dots, n\}$ désigne l'ensemble des $n$ premiers entiers, et $\mathcal{I}$ désigne un ensemble d'items (alphabet).
%
Un sous-ensemble $A=\{a_1\ a_2\ \cdots\ a_m\}\subseteq \mathcal{I}$ est nommé un \emph{itemset}.
Une \emph{séquence} $\seq{s}$ est de la forme $\seq{s} = \langle s_1\ s_2\ \cdots\ s_n\rangle$$s_i$ est un itemset.
\begin{definition}[Motif séquentiel avec négation]\label{def:negativepattern}
Un motif séquentiel avec négation $\seq{p} = \langle p_1\ \neg q_1 \ p_2\ \neg q_2\ \cdots $ $p_{n-1}\ \neg q_{n-1}\ p_n\rangle$ est telle que $p_i \in 2^{\mathcal{I}}\setminus\{\emptyset\}$ pour tout $i\in [n]$ et $q_i \in 2^{\mathcal{I}}$ pour tout $i\in [n-1]$.
\end{definition}
La sémantique des motifs repose sur la relation d'inclusion. Cette relation précise comment considérer si un motif apparaît (est inclus) ou non dans une séquence. Cette relation utilise la notion d'occurrence d'un motif dans une séquence, formellement définie ainsi:
\begin{definition}[Occurrence d'un motif séquentiel]\label{def:positivepattern_embedding}
Soit une séquence $\seq{s}=\langle s_1\,\dots\, s_n\rangle$ et $\seq{p}=\langle p_1\,\dots\, p_m\rangle$ be a un motif séquentiel. $\seq{e}=(e_i)_{i\in[m]}\in [n]^m$ est une \emph{occurrence} du motif $\seq{p}$ dans la séquence $\seq{s}$ ssi $\forall i\in[m],\; p_i \subseteq s_{e_i}$ et $e_{i}<e_{i+1}$ pour tout $i\in[m-1]$.
\end{definition}
\begin{question}[Occurrence d'un motif séquentiel]\label{ex:positif}
Soit le motif séquentiel $\seq{p}=\langle (ca)\ d\ e \rangle$, indiquer dans quelles séquences de la Table \ref{tab:intro} apparaît le motif $\seq{p}$.\footnote{Le lecteur est invité à remplir lui-même les réponses aux questions dans les tableaux avant de lire les explications.}
\end{question}
Les réponses attendues à cette question sont les séquences $\seq{p_0}$, $\seq{p_3}$ et éventuellement $\seq{p_4}$.
La séquence $\seq{p_0}$ permet de vérifier la compréhension que $(ca)$ apparaît dans $(caf)$ selon nos définitions. La séquence $\seq{p_0}$ permet de vérifier qu'il faut que tous les éléments de $(ca)$ apparaissent (et pas seulement un sous-ensemble). La séquence $\seq{p_2}$ permet vérifier la compréhension de l'importance de l'ordre dans la séquence.
La séquence $\seq{p_3}$ permet vérifier la compréhension qu'il est possible d'avoir des des itemsets au milieu d'une occurrence (par exemple, la survenue de $b$ entre le $d$ et le $e$). Finalement la dernière séquence présente un itemset dont les items ne sont pas ordonnés. Dans le cas où $\seq{p_4}$ ne serait pas jugé contenir $\seq{p}$ alors on serait informé d'une sensibilité de l'utilisateur à l'ordre présenté dans un itemset (ce qui n'est classiquement pas le cas).
%\centering
%\begin{tabular}{ll}
%\hline
%\textit{id} & \textit{Séquence}\\\hline
%$\seq{p_0}$ & $\langle e\ (caf)\ d\ b\ e\ d\rangle$ \\
%$\seq{p_1}$ & $\langle c\ a\ d\ b\ e\ d\rangle$ \\
%$\seq{p_2}$ & $\langle e\ (ca)\ d\rangle$ \\
%$\seq{p_3}$ & $\langle d\ e\ (ca)\ b\ d\ b\ e\ f\rangle$ \\
%$\seq{p_4}$ & $\langle c\ e\ b\ (fac)\ d\ e\ c\rangle$ \\\hline
%\end{tabular}
De la même manière, la sémantique des motifs séquentiels avec négation repose sur la notion d'inclusion. Un motif avec négation, $\seq{p}$ est inclus dans une séquence $\seq{s}$ si $\seq{s}$ contient une sous-séquence $\seq{s}'$ telle que chaque ensemble positif de $\seq{p}$ est inclus dans un itemset de $\seq{s}'$ (en respectant l'ordre) et que toutes les contraintes de négations exprimées par les $\neg q_i$ sont également satisfaite. La contrainte de négation de $q_i$ s'appliquant alors à la sous-séquence de $\seq{s}'$ située entre l'occurrence de l'itemset positif précédant $\neg q_i$ dans $\seq{p}$ et l'occurrence de l'itemset positif suivant $\neg q_i$ dans $\seq{p}$.
Cette définition détermine la portée de la négation. Cette définition est propre au cadre dans lequel nous travaillons par la suite, aussi il est important de vérifier qu'il est partagé par les utilisateurs. La question suivante permet de s'en assurer.
\begin{question}[Portée de la négation]\label{ex:portee}
On considère un motif $\seq{p}=\langle c\ \neg d\ e \rangle$. Indiquer les séquences de la base ci-dessous dans lesquelles, selon vous, $\seq{p}$ apparaît.
\centering
\begin{tabular}{llc}
\hline
\textit{id} & \textit{Séquence}&\\\hline
$\seq{s_0}$ & $\langle f\ f\ c\ b\ d\ a\ e\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=s0]{} \\
$\seq{s_1}$ & $\langle f\ c\ b\ f\ a\ e\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=s1]{} \\
$\seq{s_2}$ & $\langle b\ f\ c\ b\ a\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=p2]{} \\
$\seq{s_3}$ & $\langle b\ c\ b\ e\ d\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=s3]{} \\
$\seq{s_4}$ & $\langle f\ a\ c\ e\ b\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=s4]{} \\\hline
\end{tabular}
\end{question}
%Le description intuitive de motif séquentiel avec négation fait apparaître une notion de portée de la négation.
Dans cette question, il est raisonnable de considérer que $\seq{p}$ apparaît dans $\seq{s_1}$, $\seq{s_3}$ (le $d$ est hors de la portée supposée de la négation) et $\seq{s_4}$. Les enquêté(e)s qui ne cochent pas $\seq{s_4}$ ont probablement interprétés la contrainte $\neg d$ comme~: l'apparition d'un élément qui n'est pas $d$ (ce qui n'est pas dans les définitions proposées par la suite).
Si $\seq{p_0}$ est considéré comme contenant $\seq{p}$ il est probable que la contrainte $\neg d$ soit comprise comme devant suivre strictement après $c$ (de nouveau, ce n'est pas une situation considérée dans l'analyse de Besnard et Guyet~\cite{besnard2020semantics}).
%La notion de portée de la contrainte de négation étant entendue, nous définissons maintenant la contrainte de négation selon trois dimensions~:
%%\begin{enumerate}
%%\item
%1) la non-inclusion d'un itemset,
%%\item
%2) l'occurrence d'un motif avec négation,
%%\item
%3) l'inclusion d'un motif dans une séquence (cas des occurrences multiples).
%%\end{enumerate}
\section{Questions sur la sémantique des négations}% et exemples}
\label{sec:semantique}
Dans cette section, nous reprenons les questions de la troisième partie du questionnaire et nous expliquons les différentes interprétations que révelent les réponses faites par les enquêtés.
%brièvement les propositions pour identifier les 3 dimensions qui contribuent à la sémantique des motifs avec négation~\cite{besnard2020semantics}. Chacun des exemples qui sont présentés dans cette partie correspond à l'une des questions qui ont été proposées lors de l'enquête. Nous les discutons donc au regard de l'interprétation qui peuvent en être faite par les utilisateurs.
%Dans cette partie, nous reprenons brièvement les propositions pour identifier les 3 dimensions qui contribuent à la sémantique des motifs avec négation~\cite{besnard2020semantics}. Chacun des exemples qui sont présentés dans cette partie correspond à l'une des questions qui ont été proposées lors de l'enquête. Nous les discutons donc au regard de l'interprétation qui peuvent en être faite par les utilisateurs.
\subsection{Non-inclusion d'un itemset}
\begin{question}
Soit le motif séquentiel $\seq{p}=\langle d\ \neg (af)\ b \rangle$. Indiquer les séquences de la base ci-dessous dans lesquelles, selon vous, $\seq{p}$ apparaît.
\centering
\begin{tabular}{llc}
\hline
\textit{id} & \textit{Séquence}&\\\hline
$\seq{i_0}$ & $\langle e\ e\ d\ a\ b\ e\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=i0]{} \\
$\seq{i_1}$ & $\langle d\ (af) b\ c\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=i1]{} \\
$\seq{i_2}$ & $\langle e\ d\ (fc)\ b\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=i2]{} \\
$\seq{i_3}$ & $\langle e\ c\ d\ (ec)\ b\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=i3]{} \\
$\seq{i_4}$ & $\langle d\ (fa)\ b\ e\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=i4]{} \\\hline
\end{tabular}
\end{question}
Cette question est construite de telle sorte que chacune des séquences contient la partie positive du motif avec seulement un itemset entre les occurrences de $d$ et de $b$. Ces séquences posent donc la question de la non-inclusion de l'itemset $(af)$ dans $a$, $(af)$, $(fc)$, $(ec)$ et $(fa)$. Dans le cas où l'enquêté(e) coche les séquences $\seq{i_0}$, $\seq{i_2}$ et $\seq{i_3}$, on peut en déduire qu'il considère que la présence d'au moins un élément de l'itemset $(af)$ ``active'' la négation. On parle alors d'une \textit{non-inclusion partielle}. %, on considère que $\seq{p}$ apparaît dans .
En revanche, si seule la séquence $\seq{i_3}$ est cochée,
%les séquences $\seq{i_0}$ et $\seq{i_2}$ ne sont pas cochées
alors on peut en déduire qu'il/elle considère qu'il faut la présence de tous les items de l'itemset pour ``activer'' la négation. On nomme cela une \textit{non-inclusion totale}.
%Dans le cas de la non-inclusion partielle, on considère que $\seq{p}$ apparaît seulement dans $\seq{i_3}$.
En complément, la séquence $\seq{i_4}$ visait à voir si l'ordre dans l'itemset pouvait importer aux enquêté(e)s et si cela était cohérent avec leur réponse à la séquence $\seq{p_4}$ de la question~\ref{ex:positif}.
\espace
Plus formellement, cette question permet d'identifier deux choix de comparaison entre deux itemsets $P \in 2^{\mathcal{I}}\setminus\{\emptyset\}$ et $I\in 2^{\mathcal{I}}$:
\begin{itemize}
\item non-inclusion partielle~: $P\partialnoninclrel I \Leftrightarrow \exists e \in P$, $e \notin I$
\item non-inclusion totale~: $P\totalnoninclrel I \Leftrightarrow \forall e \in P, e \notin I$
\end{itemize}
La non-inclusion partielle signifie que $P \setminus I$ est non-vide tant que la non-inclusion totale signifie que $P$ et $I$ sont disjoints.
Dans la suite, le symbole $\gennoninclrel$ dénote une relation de non-inclusion entre itemsets, indifféremment $\partialnoninclrel$ ou $\totalnoninclrel$.
\subsection{Occurrence d'un motif avec négation}
\begin{question}[Occurrence d'un motif avec négation]\label{ex:embedding}
Soit le motif séquentiel $\seq{p}=\langle f\ \neg (ea)\ d \rangle$. Indiquer les séquences de la base ci-dessous dans lesquelles, selon vous, $\seq{p}$ apparaît.
\centering
\begin{tabular}{llc}
\hline
\textit{id} & \textit{Séquence}&\\\hline
$\seq{e_0}$ & $\langle b\ b\ f\ c\ e\ d\ b\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=e0]{} \\
$\seq{e_1}$ & $\langle b\ f\ e\ a\ c\ b\ d\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=e1]{} \\
$\seq{e_2}$ & $\langle f\ c\ (ea)\ b\ c\ d\ c\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=e2]{} \\
$\seq{e_3}$ & $\langle b\ c\ f\ b\ c\ c\ d\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=e3]{} \\\hline
\end{tabular}
\end{question}
Dans cette question, la forme du motif séquentiel $\seq{p}=\langle f\ \neg (ea)\ d \rangle$ est la même à une permutation près des lettres à la précédente et chaque séquence de la base de séquences contient la partir positive de $\seq{p}$. Mais cette fois, il y a plusieurs itemsets entre les occurrences de $f$ et de $d$.
L'objet de cette question est donc de voir comment cet ensemble d'itemsets positionné dans la portée de la négation est considéré par un(e) enquêté(e).
On estime tout d'abord que quelle que soit l'enquêté(e), $\seq{p}$ apparaît dans $\seq{e_3}$ (il n'y a clairement ni $e$ ni $a$ ici) mais $\seq{p}$ n'apparaît pas dans $\seq{e_2}$ (on retrouve l'itemset $(ea)$ dans la portée de la négation).
La séquence la plus révélatrice est en fait $\seq{e_1}$. La spécificité de cette séquence est de contenir les deux éléments de l'itemsets nié ($e$ et $a$), mais dans deux itemsets différents.
L'enquêté(e) qui ne la coche pas (\ie qu'il/elle considére que $\seq{p}$ n'apparaît pas dans $\seq{e_1}$) utilise la notion d'\textit{occurrence souple}~: il faudrait que $(ea)$ apparaissent ensemble pour ``activer'' la négation (comme le cas de $\seq{e_2}$).
L'enquêté(e) qui la coche, estime que c'est globalement sur toute la période de s'applique la contrainte de négation, on parle d'\textit{occurrence stricte}.
%l'occurrence souple conduit à considérer que $\seq{p}$ apparaît dans $\seq{e_1}$ tandis que l'occurrence stricte conduit à la décision inverse~; et ce quelle que soit la non-inclusion considérée.
Quant à la séquence $\seq{e_0}$, elle révèle la notion de non-inclusion vu précédemment~: en cas de non-inclusion partielle, $\seq{p}$ apparaît dans~$\seq{e_0}$, mais pas si on considère une non-inclusion totale.
\espace
%Nous passons maintenant à la notion d'occurrence. Déjà introduite pour les motifs séquentiels, elles est ici précisée pour des motifs avec négations.
Deux sémantiques ont été distinguées~: les occurrences strictes et les occurrences souples. Elle peuvent être formellement définies comme suit~:
Soit une séquence $\seq{s}=\langle s_1\,\dots\, s_n\rangle$ et un motif avec négation $\seq{p}=\langle p_1\ \neg q_1\ \dots\ \ \neg q_{m-1}\ p_m\rangle$.
On dit que $\seq{e}=(e_i)_{i\in[m]}\in [n]^m$ est une occurrence souple de $\seq{p}$ dans la séquence $\seq{s}$ ssi~:
\begin{itemize}
\item $p_i \subseteq s_{e_i}$ pour tout $i\in[m]$
\item $q_i \gennoninclrel s_j,\;\forall j\in [e_{i}+1,e_{i+1}-1]$ pour tout $i\in[m-1]$
\end{itemize}
On dit que $\seq{e}=(e_i)_{i\in[m]}\in [n]^m$ est une occurrence stricte de $\seq{p}$ dans la séquence $\seq{s}$ ssi~:
\begin{itemize}
\item $p_i \subseteq s_{e_i}$ pour tout $i\in[m]$
\item $q_i \gennoninclrel \bigcup_{j\in [e_{i}+1,e_{i+1}-1]} s_j$ pour tout $i\in[m-1]$
\end{itemize}
Intuitivement, la contrainte souple considère la non-inclusion de $q_i$ pour chacun des itemsets situés dans l'intervalle de position $[e_{i}+1,e_{i+1}-1]$ tandis que la contrainte stricte considère la non-inclusion sur l'union de l'ensemble des itemsets à ces mêmes positions.
L'intervalle correspond aux itemsets de la séquence strictement entre les occurrences des itemsets entourant $q_i$.
\subsection{Occurrences multiples dans une séquence}
\begin{question}[Occurrences multiples d'un motif avec né\-ga\-tion]\label{ex:occurrence}
Soit le motif séquentiel $\seq{p}=\langle b\ \neg e\ f \rangle$. Indiquer les séquences de la base ci-dessous dans lesquelles, selon vous, $\seq{p}$ apparaît.
\centering
\begin{tabular}{llc}
\hline
\textit{id} & \textit{Séquence} & \\\hline
$\seq{o_0}$ & $\langle b\ a\ f\ d\ b\ d\ f\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=o0]{} \\
$\seq{o_1}$ & $\langle b\ a\ f\ d\ e\ b\ d\ f\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=o1]{} \\
$\seq{o_2}$ & $\langle d\ b\ e\ c\ a\ d\ f\ b\ d\ e\ f\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=o2]{} \\
$\seq{o_3}$ & $\langle b\ a\ f\ b\ a\ e\ f\rangle$ & \CheckBox[width=0.8em,height=0.8em,name=o3]{} \\\hline
\end{tabular}
\end{question}
Dans cette question, les séquences ci-dessous contiennent chacune plusieurs occurrences de la partie positive du motif ($\langle b\ f \rangle$ est la partie positive de $\langle b\ \neg e\ f \rangle$). Pour rendre plus visible cette situation, il y a même plusieurs occurrences non-imbriquées de $\langle b\ f \rangle$.
Dans la mesure où la contrainte de négation porte uniquement sur un seul item ($e$), les choix relatifs aux dimensions précédentes --~non-inclusion d'un itemset et type d'occurrence~-- n'ont a priori pas d'impact. Ceci permet donc de focaliser la question sur la perception de ces occurrences multiples. %comment prendre en compte des décisions différentes
Deux comportements sont alors attendus~:
\begin{itemize}
\item La première interprétation consiste à considérer que dès qu'il existe une occurrence de la partie positive, $\langle b\ f \rangle$, qui satisfait la contrainte de négation, alors la séquence est reconnue. On parle alors d'\textit{occurrence faible}.
Cette interprétation est révélée par la coche des séquences $\seq{o_0}$, $\seq{o_1}$ et $\seq{o_3}$.
\item Le second comportement consiste à considérer que dès qu'une occurrence de la partie positive ne satisfait pas la contrainte de négation, alors la séquence n'est pas reconnue. On parle alors de \textit{non-occurrence forte}.
%toutes les occurrences de la partie positive doivent satisfaire
Pour la question \ref{ex:occurrence}, cela correspond aux enquêté(e)s qui ont coché uniquement la séquence $\seq{o_0}$, toutes les autres ayant au moins une occurrence de $\langle b\ f \rangle$ avec un $e$ intersticiel.
On peut néanmoins constater que la séquence $\seq{o_1}$ est piégeuse pour ceux qui ont cette intuition, puisqu'il y a deux occurrences minimales de $\langle b\ f \rangle$ (en sens de Mannila et \al~\citep{mannila1996discovering}) qui satisfont la contrainte de négation, mais c'est l'occurrence impliquant le premier $b$ et le dernier $f$ qui n'est pas satisfaite. Pour des novices dans l'utilisation des séquences, cette subtilité peut être difficile à détecter. Il semble donc plus judicieux de ne juger de l'interprétation que sur l'absence de $\seq{o_3}$.
\end{itemize}
%Il y a exactement un $e$ entre chaque pair d'occurrences pour la séquence $\seq{o_2}$, aucun $e$ pour la séquence $\seq{o_0}$ et seules certaines paires d'occurrences de $\langle b\ f \rangle$ contiennent un $e$ entre elles.
%Donc, selon la relation $\weaklycontains$\footnote{Pour simplifier les notations, on note $\weaklycontains$ lorsque la non-inclusion et le type d'occurrence sont indéterminés, \ie pour $\weaklycontains$}, $\seq{p}$ apparaît dans $\seq{o_0}$, $\seq{o_1}$ et $\seq{o_3}$~; tandis qu'il n'apparaît que dans $\seq{o_0}$ selon la relation $\stronglycontains$. On peut néanmoins constater que la séquence $\seq{o_1}$ est piégeuse pour ceux qui ont l'intuition de la relation $\stronglycontains$ puisque s'il y a bien une occurrence de $e$ entre les $b$ et $f$ aux extrémités de la séquence (et donc qu'il ne faille pas considérer l'apparition du motif dans ce cas), on peut considérer que certains utilisateurs regardent les \textit{occurrences minimales} (en sens de Mannila et \al~\citep{mannila1996discovering}) et alors on peut considérer que la relation $\stronglycontains$ est respectée (et donc que $\seq{p}$ apparaît dans $\seq{o_1}$, même avec $\stronglycontains$).
%Le dernier point traite des cas où il existe plusieurs occurrences de la partie positive d'un motif~: est-ce qu'au moins une doit satisfaire les contraintes de négation ou bien doivent elles toutes les satisfaire~?
\espace
Cette question nous amène de nouveau à deux alternatives. Soit une séquence~$\seq{s}$ et un motif~$\seq{p}$. On note $\seq{p}^+$ la partie positive de $\seq{p}$. Pour $\gennoninclrel\in\{\totalnoninclrel,\partialnoninclrel\}$ et $\genemb\in\{\softemb,\strictemb\}$,
\begin{itemize}
\item $\seq{p} \weaklycontains^{\gennonincl}_{\genemb} \seq{s}$ signifie que le motif $\seq{p}$ est inclus dans la séquence $\seq{s}$ ssi il existe au moins une occurrence (souple ou stricte) de $\seq{p}$ dans $\seq{s}$ avec la non-inclusion $\gennoninclrel$.
\item $\seq{p} \stronglycontains^{\gennonincl}_{\genemb} \seq{s}$ signifie que le motif $\seq{p}$ est inclus dans la séquence $\seq{s}$ ssi il existe au moins une occurrence de $\seq{e}$ dans $\seq{p}^+$ et que pour chaque occurrence $\seq{e}$ de $\seq{p}^+$ dans $\seq{s}$, $\seq{e}$ est également une occurrence (souple ou stricte) de $\seq{p}$ dans $\seq{s}$ avec la non-inclusion $\gennoninclrel$.
\end{itemize}
\vspace{10pt}
Les trois dimensions interprétatives de la négations se combinent donc en huit sémantiques possibles définies par leurs relations d'inclusion: $\weaklycontains^{\totalnonincl}_{\softemb}, \weaklycontains^{\totalnonincl}_{\strictemb},
\weaklycontains^{\partialnonincl}_{\softemb}, \weaklycontains^{\partialnonincl}_{\strictemb},
\stronglycontains^{\totalnonincl}_{\softemb}, \stronglycontains^{\totalnonincl}_{\strictemb},
\stronglycontains^{\partialnonincl}_{\softemb}, \stronglycontains^{\partialnonincl}_{\strictemb}$ étudiées dans ~\cite{besnard2020semantics}.
%Au travers des notions ci-dessus, Besnard et Guyet~\cite{besnard2020semantics} ont identifié différentes possibilités d'interpréter la notion de négation dans des motifs séquentiels. Chacune des dimensions correspond à une alternative entre deux choix. Ils obtiennent ainsi
Comme illustré, les trois questions ci-dessus ont été construites pour explorer indépendamment chacune
%révéler indépendamment l'interprétation que fait chaque utilisateur
des trois dimensions de la sémantique de la négation dans un motif séquentiel.
%Au travers de la construction des séquences ci-dessus,
%L'enquête que nous avons menée cherche à révéler si certains choix correspondent plus à une intuition générale que d'autres.
En particulier, nous avons illustré comment la construction des questions permet d'associer, en fonction de la réponse donnée, un(e) enquêté(e) à différente sémantique.
\section{Analyse et résultats de l'enquête}\label{sec:resultats}
%\subsection{Méthode d'analyse de l'enquête}
À l'issue de la période d'enquête, nous avons collecté 101 questionnaires complets. L'expertise auto-estimée dans le domaine de l'extraction de motifs se répartie en 33 novices, 44 ayant des connaissances en science des données et 24 se déclarants familiers avec l'extraction de motifs.
Le nombre de tentatives pour la compréhension de la notion d'occurrence d'un motif est en moyenne de $1,26\pm 0,72$ (entre 1 et 5 tentatives). On peut noter que 6 enquêté(e)s ayant des connaissances en analyse de données (sur 24) ont eu besoin de plus d'une tentative pour avoir la réponse correcte. 84 ont correctement répondu dès la première tentative.
%Toutes les réponses aux questions ont été conservées pour la suite des analyses.
Le résultat de l'enquête comporte les réponses booléennes (séquence cochée ou non-cochée) pour chacune de séquences des questions.
Dans l'objectif d'identifier les sémantiques les plus naturelles chez les enquêté(e)s, on peut voir ce problème comme un problème d'extraction d'itemsets fréquents ou de co-clustering. On cherche à identifier des groupes d'individus qui ont cochés les mêmes réponses. %Idéalement, on doit retrouver des groupes d'individus qui ont coché des
Pour l'analyse des réponses, nous procédons en deux temps~:
\begin{enumerate}
\item on commence par analyser les résultats question par question, \ie indépendamment pour chacune des dimensions de la sémantique des motifs. %À cette étape, nous nous intéressons ainsi à chacune des dimensions de la sémantique des motifs négatifs. \item on complète l'analyse par une analyse de
\item on complète l'analyse par une analyse globale du questionnaire.
\end{enumerate}
Dans la section précédente, nous avons identifié pour chaque question les grandes classes de réponse attendue. On donne donc par la suite les comptes pour chacunes, mais comme les réponses ne correspondent pas forcément exactement à ce qui est attendu (soit par inattention de l'enquêté(e), soit par une interprétation différente), nous proposons d'utiliser l'analyse de concepts formels (\textit{Formal Concept Analysis} ou FCA)~\citep{ganter2012formal} pour donner une vision globale des résultats.
La FCA est une technique d'analyse de données qui identifie des concepts d'un jeu de données. Chaque concept est décrit, d'une part, par son intention qui est ici un ensemble de réponses cochées et, d'autre part, son extension qui liste tous les individus qui ont choisis ces réponses.
Les concepts extraits sont \textit{fermés}, c'est-à-dire que leur extension est maximale pour leur intention et réciproquement.
Un des intérêts de la FCA est de représenter de manière synthétique les données dans le treillis de concepts. Au travers de ce treillis, il est possible d'analyser précisément des groupes d'individus ayant fait les mêmes réponses.
On peut noter que la FCA a déjà été utilisée pour l'analyse de questionnaires~\citep{belohlavek2011evaluation}. L'outil utilisé pour construite les treillis est l'outil GALACTIC~\citep{galactic}.
\subsection{Analyse de chaque dimension de la sémantique}
Dans cette partie, on analyse les réponses à quatre questions~: on s'intéresse tout d'abord aux réponses à la question sur la portée des négations, ensuite, on analyse les trois dimensions de la sémantique des motifs avec négations~: la non-inclusion des itemsets, les occurrences et les occurrences multiples.
Les Tableaux~\ref{tab:portee} à~\ref{tab:multiocc} donnent de manière synthétique les comptes de chacune des interprétations.
Les Figures~\ref{fig:concepts1} et~\ref{fig:concepts2} illustrent les treillis de concepts obtenus pour chacune de ces questions pour donner une image plus globale des réponses.
\begin{table}[th]
\caption{Résultat sur le question de la portée de la négation.}\label{tab:portee}
\centering
\begin{tabular}{lcc}
\hline
\textbf{Portée} & \textbf{Compte} & \textbf{Pourcentage} \\ \hline
Correcte & 98 & 81.6\% \\
Correcte sauf $\seq{s_4}$ & 9 & 7.5\% \\
Incorrecte & 13 & 10.8\% \\
\hline
\end{tabular}
\end{table}
Concernant la portée des négations, 98 personnes ont cochés des réponses correspondant à l'attendu pour cette question de vérification de la compréhension de la portée des négations (cf Table \ref{tab:portee}).
Il est intéressant de constater que 13 personnes qui avait coché $\seq{s_1}$ et $\seq{s_3}$ n'ont pas coché $\seq{s_4}$ laissant penser que pour eux, la négation d'un itemset signifie qu'il s'agit d'un évènement, qui n'est pas l'évènement nié. Pour les autres différences marginales (9 personnes), nous considérons qu'il s'agit d'oublis ou d'erreurs. Ces personnes ont été écartées de la suite de l'analyse des résultats, leur compréhension possiblement différente de la portée de la négation ne permet d'exploiter leurs réponses.
La suite des analyses porte donc sur 107 personnes.
\begin{figure}[tbp]
\centering
\includegraphics[width=.45\textwidth]{figures/galactic_portee} \hfill
\includegraphics[width=.45\textwidth]{figures/galactic_noninclusion}
\caption{Concepts extraits à partir des réponses aux questions (seconde partie). En haut, la portée des négations (cf Exemple~\ref{ex:portee})~; en bas, la non-inclusion d'un itemset (cf Exemple~\ref{ex:noninclusion}).\\
Chaque concept est illustré par une boîte contenant différents éléments~: les générateurs sur fond orange, les prototypes sur fond vert et la taille de l'extension est précisée avec un~\#.Chaque concept indique l'intention comme un ensemble de séquences cochées (se reporter aux tables présentées dans les exemples).}
\label{fig:concepts1}
\end{figure}
%%%%%%%%%%%%%%%%%%%%%%%
\begin{table}[th]
\caption{Résultat sur le question des non-inclusions (sur 107 réponses).}\label{tab:non-incl}
\centering
\begin{tabular}{lcc}
\hline
\textbf{Sémantique} & \textbf{Compte} & \textbf{Pourcentage} \\ \hline
Non-inclusion partielle & 97 & 90.6\% \\
Non-inclusion totale & 3 & 2.8\% \\
Autre & 7 & 6.5\% \\
\hline
\end{tabular}
\end{table}
Concernant les non-inclusions d'itemsets (Table \ref{tab:non-incl} et Figure \ref{fig:concepts1}, en bas), on constate que les enquêté(e)s ont très majoritairement (97) sélectionné le triplet de réponse $\seq{i_0$}, $\seq{i_2}$ et $\seq{i_3}$ correspondant à la sémantique de non-inclusion partielle. Seulement 3 personnes ont considéré la sémantique de la non-inclusion totale.
De manière plutôt surprenante, 20 interrogés ont considéré que la séquence $\seq{i_4}$ contenait le motif et donc que $(fa)$ n'était pas incompatible avec $(af)$. Ces interrogés se répartissent dans les différents niveaux d'expertises (6, 11 et 3 respectivement pour les niveaux 0, 1 et 2).
%%%%%%%%%%%%%%%%%%%%%%%
\begin{figure}[tbp]
\centering
\includegraphics[width=.35\textwidth]{figures/galactic_embedding}\\[1cm]
\includegraphics[width=.5\textwidth]{figures/galactic_occurrence}
\caption{Concepts extraits à partir des réponses aux questions (seconde partie). En haut, les occurrences (cf Exemple~\ref{ex:embedding})~; en bas, les occurrences multiples (cf Exemple~\ref{ex:occurrence}).\\
Chaque concept est illustré par une boîte contenant différents éléments~: les générateurs sur fond orange, les prototypes sur fond vert et la taille de l'extension est précisée avec un~\#.Chaque concept indique l'intention comme un ensemble de séquences cochées (se reporter aux tables présentées dans les exemples).}
\label{fig:concepts2}
\end{figure}
\begin{table}[th]
\caption{Résultat sur le question des occurrences (sur 107 réponses).}\label{tab:emb}
\centering
\begin{tabular}{lcc}
\hline
\textbf{Sémantique} & \textbf{Compte} & \textbf{Pourcentage} \\ \hline
Occurrence stricte & 94 & 87.8\% \\
Occurrence souple & 7 & 6.5\% \\
Autre & 6 & 5.6\% \\
\hline
\end{tabular}
\end{table}
Concernant l'analyse des occurrences (Table~\ref{tab:emb} et Figure~\ref{fig:concepts2}, en haut). Seule la séquence $\seq{e_1}$ permettait de discriminer l'intuition des enquêté(e)s. Pour la Table~\ref{tab:emb}, on s'assure aussi que les réponses sont correctes pour $\seq{e_2}$ et $\seq{e_3}$, sinon on place la réponse en ``autre''.
De nouveau, on obtient un résultat très marqué pour la sémantique dite souple~: 94 personnes y adhérent. %$\seq{e_0}$ confirme le résultat obtenu précédemment sur la préférence pour la non-inclusion partielle.
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\begin{table}[tbh]
\caption{Résultat sur la question des occurrences multiples (sur 107 réponses).}\label{tab:multocc}
\centering
\begin{tabular}{lcc}
\hline
\textbf{Sémantique} & \textbf{Compte} & \textbf{Pourcentage} \\ \hline
Relation faible & 75 & 70.1\% \\
Relation forte & 30 & 28.0\% \\
Autre & 2 & 1.8\% \\
\hline
\end{tabular}
\end{table}
Finalement, concernant l'analyse des occurrences multiples (Table~\ref{tab:multocc} et Figure~\ref{fig:concepts2}, en bas), le résultat est ici plus partagé. 75 personnes ont exclusivement identifié les trois séquences correspondant à la notion d'occurrrence faible (relation $\weaklycontains$), tandis que 30 ont exclusivement sélectionné la séquence $\seq{o_0}$, privilégiant ainsi la sémantique de l'occurrence forte (relation $\stronglycontains$). Ces 30 personnes comprennent 14 qui n'ont pas coché la séquence $\seq{o_1}$ et 16 qui l'on cochée. Ces derniers adhérent plus à la notion d'occurrence minimale de Mannila et \al~\cite{mannila1997discovery}.
\vspace{10pt}
On peut conclure de ces analyses qu'il n'y a pas une seule sémantique partagée pour les enquêté(e)s, mais plutôt que deux dominent~: $\stronglycontains^{\partialnonincl}_{\softemb}$ et $\weaklycontains^{\partialnonincl}_{\softemb}$. On s'attendait à avoir des perceptions plus hétérogènes de la notion de non-inclusion d'itemsets, mais cette diversité ne se retrouve pas dans le panel de personnes interrogées.
Il est intéressant de comparer ce résultat avec les choix des deux algorithmes majeurs du domaine, eNSP et {\sc NegPSpan} dont les sémantiques sont respectivement $\stronglycontains^{\totalnonincl}_{\softemb}$ et $\weaklycontains^{\totalnonincl}_{\softemb}$/$\weaklycontains^{\totalnonincl}_{\strictemb}$.
Tout d'abord, aucun des algorithmes ne répond à l'intuition des enquêté(e)s puisque les deux s'appuient sur une non-inclusion totale des itemsets tandis que c'est la non-inclusion partielle qui semble la plus intuitive. Une explication du choix algorithmique vient de l'identification de propriétés d'anti-monotonie pour les sémantiques utilisant la non-inclusion partielle. Les sémantiques les plus intuitives ne sont donc pas celles qui sont les plus appropriées algorithmiquement.
On peut également en conclure que si les algorithmes extraient des motifs avec des itemsets comme négation, il y a un risque d'erreur d'interprétation du résultat par les enquêté(e)s.
Une recommandation serait alors de n'avoir que des singletons dans les négations.
Ensuite, on constate que le choix effectué par {\sc NegPSpan} concernant la gestion des occurrences multiples répond à l'intuition d'un plus grand nombre que le choix fait par eNSP. Même si la recommandation précédente est satisfaite, l'approche de eNSP risque d'induire une mauvaise compréhension des données chez la plupart des enquêté(e)s. % si les résultats étaient présentés sans plus d'information à l'enquêté(e).
\begin{table}[tb]
\caption{Règles d'association extraites du questionnaire. $CS$: informaticien, $R$: Chercheur, $exp=1$: niveau d'expertise ($0$: non expert en science des données, $1$: expert en science des données mais pas en fouille de motifs, $2$: expert en fouille de séquences).}
\label{tab:rules}
\centering%\footnotesize
\begin{tabular}{lcc}
\hline
Règle & Support & Confiance \\\hline
$exp=1 \;\Rightarrow\; \weaklycontains$ & 0.31 & 0.70 \\
$exp=0 \;\Rightarrow\; \weaklycontains$ & 0.21 & 0.68\\
$R \;\Rightarrow\; \stronglycontains$ & 0.19 & 0.28\\
$R \;\Rightarrow\; \weaklycontains$ & 0.42 & 0.63\\
$CS \;\Rightarrow\; \stronglycontains$ & 0.17 & 0.25\\
$CS \;\Rightarrow\; \weaklycontains$ & 0.46 & 0.69\\
$R \wedge CS \;\Rightarrow\; \weaklycontains$ & 0.29 & 0.68\\
$exp=1 \wedge R \;\Rightarrow\; \weaklycontains$ & 0.23 & 0.74\\
$exp=1 \wedge CS \;\Rightarrow\; \weaklycontains$ & 0.22 & 0.73\\
$exp=1 \wedge R \wedge CS \;\Rightarrow\; \weaklycontains$ & 0.16 & 0.80\\\hline
\end{tabular}
\end{table}
\subsection{Analyse croisée des questions}
Dans la mesure où la sémantique intuitive des deux premières dimensions de la négation est quasiment uniformément partagée par le panel, nous nous intéressons dans cette partie à comprendre les réponses à la dernière question à propos de la considération des occurrences multiples. Nous aimerions en particulier savoir si il existe un lien entre le profil des personnes et cette intuition de l'occurrence multiple.
Nous avons donc recherché des règles d'association entre les informations disponibles sur les personnes interrogées (leur expertise et leurs domaines de spécialisation). Une alternative aurait été de mener une analyse de concepts relationnels~\citep{dolques:lirmm-01382348}.
La Table~\ref{tab:rules} donne les règles de support supérieur à $0.2$ et de confiance supérieure à $0.25$ dont la conclusion est la sémantique~$\weaklycontains$ ou~$\stronglycontains$.\footnote{Chaque individu a été associé à une sémantique~$\weaklycontains$, $\stronglycontains$ ou autre selon ses réponses à la quatrième question. $\stronglycontains$ est indifférente à la séquence $\seq{o_1}$.}
On constate qu'indépendamment du niveau d'expertise, c'est la même proportion de choix de~$\weaklycontains$ par rapport à~$\stronglycontains$. De même, pour le profil (informaticien, logicien ou autre). En revanche, pour les chercheurs, informaticiens et du domaine des sciences des données, on passe à~$80\%$ de~$\weaklycontains$.
La conclusion que nous tirons de ces résultats est que l'intuition d'une sémantique n'est globalement pas liée à une expertise particulière en informatique ou en science des données.
\section{Discussion}
%biais
\section{Conclusion}
Dans cet article, nous nous sommes intéressés à la sémantique des motifs séquentiels avec négation du point de vue des enquêté(e)s de la méthode. L'intérêt de la question traitée dans cet article est de savoir si les motifs qui sont extraits par les algorithmes de l'état de l'art sont bien interprétés par les enquêté(e)s.
En effet, les travaux de l'état de l'art avaient mis en évidence une ambiguïté dans ces notations~\citep{besnard2020semantics}.
Pour répondre à cette question, nous avons mené une enquête auprès d'utilisateurs potentiels ayant des profils variés. Cette enquête visait à comprendre les sémantiques auxquelles les utilisateurs adhéraient plus favorablement parmi celles qui avaient été identifiées.
Les résultats de l'enquête montrent que deux sémantiques, dénotées $\stronglycontains^{\partialnonincl}_{\softemb}$ et $\weaklycontains^{\partialnonincl}_{\softemb}$, dominent dans le panel de 101 personnes interrogées.
Il est tout d'abord intéressant de constater qu'il n'existe pas une sémantique intuitive partagée uniformément.
Les résultats sont également particulièrement intéressants par le fait que la préférence pour $\partialnoninclrel$ ne correspond pas à ce qui est utilisé dans les algorithmes majeurs de l'extraction de motifs avec négations (eNSP et {\sc NegPSpan}). Cette relation intervenant lorsque la négation porte sur des ensemble d'item (\ie $\neg(ab)$), une information particulière devrait être donnée aux utilisateurs sur les motifs comportant de type de contrainte.
Ensuite, $\weaklycontains$ est majoritaire (à $\approx 66\%$) dans le panel et correspond au choix de l'algorithme {\sc NegPSpan}. C'est également à la sémantique qui dispose des propriétés d'antimonotonie si les négations ne portent que sur des singletons.
\bibliographystyle{plain}
\bibliography{biblio}
\end{document}
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
% Style des articles pour PFIA
% Auteur : Dominique.Longin@irit.fr
% Date : 05/12/2019
% Version : V1.0
% Modification : création
%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%%
\NeedsTeXFormat{LaTeX2e}
\ProvidesClass{pfia}
\LoadClass[10pt,twocolumn]{article}
% ---------------------------------
% PACKAGES
% ---------------------------------
\usepackage[T1]{fontenc}
\usepackage[utf8]{inputenc}
\usepackage{calc}
\usepackage{xspace}
\usepackage{times}
\usepackage{geometry}
\usepackage{titlesec}
\usepackage{babel}
% ---------------------------------
% LAYOUT
% ---------------------------------
\flushbottom
\setlength{\baselineskip}{12pt}
% taille du papier et de la zone de texte
% hauteur contient un nombre entier de lignes
\geometry{a4paper,text={17.6cm,58\baselineskip},centering}
% espacement entre les colonnes
\setlength{\columnsep}{1cm}
% pas d'indentation des paragraphes
\setlength{\parindent}{0em}
% style des pages
\pagestyle{empty}
% gestion automatique des dépassements dans les marges
\sloppy
% ---------------------------------
% INSERTS
% ---------------------------------
% espacement des sections
\titlespacing{\section}% command
{0em}% left
{*1}% before
{*1}% after
[0em]% right-sep margin increasing
% espacement des sous-sections
\titlespacing{\subsection}% command
{0em}% left
{*1}% before
{*0.7}% after
[0em]% right-sep margin increasing
% espacement des sous-sous-sections
\titlespacing{\subsubsection}% command
{0em}% left
{*0.8}% before
{*0.5}% after
[0em]% right-sep margin increasing
% espacement des sous-sous-sections
\titlespacing{\paragraph}% command
{0em}% left
{*0.5}% before
{*0.5}% after
[0em]% right-sep margin increasing
% résumé en français
\newenvironment{resume}{%
\thispagestyle{empty}%
\subsection*{Résumé}\em}{}
% mots-clés en français
\newenvironment{motscles}{\subsection*{Mots-clés}\em}{}
% résumé en anglais
\renewenvironment{abstract}{\subsection*{Abstract}\em}{}
% mots-clés en français
\newenvironment{keywords}{\subsection*{Keywords}\em}{}
0% Loading or .
You are about to add 0 people to the discussion. Proceed with caution.
Please register or to comment