Isabelle Sayn : « Vouloir aboutir à une analyse automatisée du langage naturel est une gageure »

Publié le 07/11/2018 à 11:48

Isabelle Sayn, directrice de recherche au CNRS, est à l’origine du séminaire e-juris, organisé en partenariat avec la Maison des Sciences de l’Homme Lyon Saint-Étienne (MSH LSE). Dédié à l’open data des décisions de justice, celui-ci, débuté en septembre dernier, se déroulera jusqu’en février 2019. L’objectif : anticiper les conséquences de l’ouverture des décisions de justice. Un sujet qui la concerne particulièrement, au titre de ses travaux portant sur l’analyse de contentieux et sur les outils d’aide à la décision « traditionnels ». Entretien.

Quelles sont les questions explorées par e-juris ?

Le séminaire propose de s’interroger sur les effets de l’open data des décisions de justice – conjugué à l’essor de l’intelligence artificielle et des legaltech – et notamment l’usage qui pourrait être fait de ces connaissances nouvelles. Le libre accès aux décisions de première instance et l’exploitation des informations que celles-ci contiennent permettront notamment de mettre en avant les arguments les plus percutants pour obtenir une telle décision – sous réserve de savoir discriminer les « décisions semblables » : qu’est-ce que cela va changer, et quels sont les risques auxquels on peut s’attendre ? Sachant que nous sommes dans un système légaliste et donc hiérarchique, dans le cadre duquel les juges disposent d’un pouvoir d’appréciation, comment articuler leur libre appréciation avec ces connaissances nouvelles ? Ces dernières ne vont-elles pas venir la court-circuiter ? Car le pouvoir d’appréciation du juge peut être affecté, selon qu’il connaît ou non les décisions prises par les autres magistrats. À quel point ces connaissances vont-elles donc avoir une influence sur l’activité du juge, et en quoi sont-elles compatibles avec la conception hiérarchique de la règle de droit ? En effet, nous ne nous situons pas dans un système de précédent, de common law. Laisser croire à des usagers qu’ils peuvent se défendre en justice via les solutions fournies par des legaltech, basées sur la jurisprudence, n’est donc pas forcément une bonne idée. Et puis, il y a aussi la crainte des magistrats qu’elles soient utilisées pour automatiser les décisions. Bien que l’on soit, à mon sens, loin du compte, la question doit être posée. Anticiper, c’est tout l’objectif du séminaire.

Comment se présente-t-il ?

Il s’agit de contributions que viennent exposer leurs auteurs. J’ai directement sollicité certaines contributions auprès de professionnels que je savais qualifiés, d’autres m’ont été proposées suite à un appel à contributions que j’ai lancé. Le programme est construit sous forme de cinq sessions d’une journée sur le thème de l’open data, chacune sur une problématique, déclinant plusieurs sujets précis. Deux sont déjà passées, les prochaines s’étalent jusqu’en février. (La prochaine session, le 7 décembre, consacrée à l’utilisation des décisions de justice et des offres de service, se penchera ainsi sur trois points : les services droit et numérique offerts sur le marché, les précautions à prendre en matière de prédiction du droit, et les comparaisons sur les indemnités pour licenciement abusif en matière d’applications de la justice prédictive, ndlr). Initialement, le but était simplement de réunir autour d’une table des professionnels qui maîtrisent le sujet et qui s’interrogent, pour susciter des débats et permettre l’acquisition de connaissance croisées, mais vu l’intérêt suscité et le travail que cela a nécessité, nous envisageons d’en faire un ouvrage.

La dernière session était consacrée à la diffusion des décisions de justice. En quoi s’agit-il de documents particuliers ?

Les décisions sont rédigées en langage naturel. Or, vouloir aboutir à une analyse automatisée suffisamment fine du langage naturel est encore une gageure. Il s’agit, de plus, d’un langage spécialisé ayant recours à des notions juridiques. Par ailleurs, la construction même d’une décision de justice est particulière, car on retrouve dans ces décisions à la fois ce qui est dit par les parties et ce qui est dit par le juge. On ne doit pas les mettre sur le même plan. Si le dispositif de la décision est assez facile à analyser, ce n’est pas le cas des motifs. D’autre part, selon les juridictions, la rédaction des décisions diffère. Procéder à ce type d’analyse pourrait aboutir à une certaine harmonisation dans la rédaction des décisions.

Le retrait du nom des magistrats a beaucoup fait débat. Pouvez-vous nous expliquer pourquoi ?

La question du « profilage » préoccupe certains magistrats, mais aussi la question de la sécurité, en particulier en droit pénal : ils craignent que le nom du juge soit divulgué pour des raisons liées au ressentiment du condamné ou des victimes. Pour autant, nous sommes dans un système démocratique, avec une justice publique : les magistrats doivent donc être impartiaux, et on peut ainsi estimer que connaître l’identité de la personne qui a jugé une affaire permet d’apprécier pleinement cette neutralité. De plus, lorsque les décisions sont collégiales (bien qu’il s’agisse d’une minorité des cas), cela « dilue » la responsabilité du juge. Finalement, la solution qui a été retenue dans le projet de loi de programmation est un compromis consistant à ne pas indiquer les noms des magistrats dans la base de données fournie au grand public ; en revanche, dans les décisions fournies via les greffes, les noms apparaîtront.

Quels sont les risques d’un open data des décisions de justice ?

Un risque essentiel est l’atteinte à la vie privée. C’est la raison pour laquelle la loi prévoit que les décisions mises à disposition du public seront anonymisées, de telle sorte que l’on écarte les risques de réidentification des personnes concernées par les décisions en question.

Il y a aussi le risque lié à l’utilisation de ces informations. La loi Lemaire « pour une République numérique » (dont l’application est toujours suspendue à un décret en Conseil d’État, lui-même dépendant des conclusions du rapport Cadiet rendu en janvier 2018, ndlr) prévoit une mise à disposition gratuite des décisions de justice au grand public. Non seulement cela représente un coût et un chantier faramineux pour la justice, puisque cela nécessite d’uniformiser les outils informatiques locaux, de verser les décisions dans une base de données, d’effectuer l’anonymisation – et ce, pour environ 4 millions de décisions par an. Mais au-delà, il est quasiment certain que le public ne va rien faire de ces décisions. En réalité, elles vont uniquement être utilisées par les legaltech ou les éditeurs juridiques traditionnels, et le fait que ces décisions soient mises à disposition de ces entreprises à titre gracieux m’interroge.

Se pose aussi la question de la justesse de l’information produite à partir des données extraites. On ne peut pas laisser diffuser, en toute liberté sur le marché, des informations produites par les legaltech, dont personne ne sait si elles sont valables ou pas, et qui auront une influence sur le fonctionnement de la justice. Il faut donc à tout prix prévoir des mécanismes de contrôle.

Pour cela, il faut d’abord étudier le fonctionnement des outils proposés par les legaltech, savoir comment fonctionne l’analyse automatisée qu’elles utilisent. Sur ce point, parallèlement au séminaire e-juris, je me suis attelée à l’organisation d’un atelier, qui sera lancé en décembre. Ce dernier sera plus technique, puisqu’il s’agira de travailler sur un corpus de décisions de première instance mises à disposition par le ministère de la Justice. L’équipe sera composée d’un chercheur en informatique, d’un spécialiste du machine learning, de deux ingénieurs statisticiens, d’un économiste qui a l’habitude des analyses de contentieux « manuelles », d’une ingénieure spécialisée dans l’analyse de contentieux, de deux juristes, et sans doute de professionnels de l’édition juridique. Nous souhaitons réaliser nous-mêmes cette fameuse « analyse automatisée ». L’objectif est d’augmenter notre propre compétence sur le sujet, mais aussi, évidemment, d’avoir la possibilité de mieux apprécier les données produites par les legaltech.

En tant que chercheuse, quelles sont les perspectives que peut vous offrir l’ouverture des décisions ?

Je vois bien sûr des perspectives enthousiasmantes ! Je travaille sur deux objets qui se rejoignent. Premièrement, sur des analyses de contentieux, ce qui nécessite de prendre un corpus de décisions de justice représentatif pour en tirer des analyses. Par exemple, en matière de pensions alimentaires (Isabelle Sayn est spécialisée en droit de la famille, ndlr), il s’agit d’identifier qui demande, quel montant en moyenne, et comment. Par ailleurs, je travaille sur des barèmes. Il s’agit d’outils d’aide à la décision traditionnels auxquels ont recours les magistrats, notamment pour fixer les montants des pensions alimentaires des enfants ou des prestations compensatoires en cas de divorce.

Ce sont donc deux champs d’étude concernés par l’analyse automatisée des décisions et l’usage de l’intelligence artificielle. En effet, aujourd’hui encore, travailler sur un corpus de décisions peut prendre plusieurs mois, plusieurs années. Il faut d’abord récupérer ces décisions, c’est-à-dire que nous devons passer par le ministère de la Justice qui envoie une circulaire à ses greffes afin qu’elles nous soient photocopiées et envoyées. Une fois que nous les avons collectées, nous devons les lire, pour arriver à saisir les informations utiles permettant de créer une grille de lecture. Lorsque cette grille est réalisée, il faut ensuite reprendre les décisions une à une, les relire, et opérer une saisie. Cela peut être très long, fastidieux, et, surtout, cela ne permet d’obtenir qu’un échantillon représentatif d’une partie d’un contentieux. Si l’on pouvait opérer de façon plus « industrielle », le gain de temps serait incroyable, et nous aurions un nombre d’informations à disposition beaucoup plus important, sur des contentieux bien plus nombreux. Cela signifierait pouvoir mener des recherches nouvelles, à plus grande échelle. Mais là encore, l’ouverture n’est pas tout. Encore faut-il apprendre à traiter ces décisions.

Propos recueillis par Bérengère Margaritelli