Améliorations de taille sur les corpus

Suite à l’impulsion d’Alexis et à grâce un coup de pouce d’Olivier, j’ai retravaillé toute la chaîne de traitement des corpus. J’utilise maintenant l’outil hunalign avec un dictionnaire français-japonais qui permet d’aligner des textes même s’ils n’ont pas le même nombre de lignes.

J’ai mis sur pieds un système de gestion des corpus en ligne appelé iPoCorp. Cela permettra à de sutilisateurs d’ajouter de nouveaux corpus en ligne de manière simple.

J’ai retravaillé les corpus suivants :

  • Le Monde Diplo a profité de l’outil d’alignement pour aligner tous les textes. J’ai ajouté également les articles pour la période 2014-2017. Au final, nous obtenons un corpus de plus de 2 millions de mots !
  • OpenSubtitles, le corpus des sous-titres n’avait pas été analysé pour le français. J’ai donc analysé tous les textes français pour qu’il puisse être utilisé.
  • Grâce à Alexis, nous avons construit un nouveau corpus de littérature comprenant 5 romans de Haruki Murakami, avec un total de plus d’1 million de mots.
  • J’ai également travaillé sur les données issues du fameux corpus Tatoeba initié par Prof. Tanaka. un peu plus de 31 000 phrases bilingues sont disponibles.

L’interface a également été revue. Il est possible de masquer ou d’afficher la liste des corpus en cliquant sur le titre. Cela permet de mieux voir les résultats de recherche. Les corpus sont aussi regroupés par thèmes, ce qui facilite la sélection.

Une dernière amélioration utile : chaque texte a maintenant une référence qui s’affiche. Vous pouvez cliquer sur le lien de droite « Réf » pour l’afficher.