Accueil Corpus parallèle Lecture active Données Informations Aide
English 日本語
Le projet Jibiki.fr

Dictionnaire japonais-français

Consultation
Consultation avancée

Les buts du projet Jibiki.fr sont de construire de manière collaborative un dictionnaire français-japonais de qualité et à large couverture ainsi qu'un corpus bilingue aligné. Les données initiales proviennent de plusieurs sources dont les dictionnaires Cesselin et JMdict ainsi que Wikipedia. Le dictionnaire contient actuellement plus de 154 000 articles et 226 000 exemples. Les données produites sont téléchargeables publiquement et gratuitement.

Améliorations de taille sur les corpus

Suite à l’impulsion d’Alexis et à grâce un coup de pouce d’Olivier, j’ai retravaillé toute la chaîne de traitement des corpus. J’utilise maintenant l’outil hunalign avec un dictionnaire français-japonais qui permet d’aligner des textes même s’ils n’ont pas le même nombre de lignes.

J’ai mis sur pieds un système de gestion des corpus en ligne appelé iPoCorp. Cela permettra à de sutilisateurs d’ajouter de nouveaux corpus en ligne de manière simple.

J’ai retravaillé les corpus suivants :

  • Le Monde Diplo a profité de l’outil d’alignement pour aligner tous les textes. J’ai ajouté également les articles pour la période 2014-2017. Au final, nous obtenons un corpsu de plus de 2 millions de mots !
  • OpenSubtitles, le corpus des sous-titres n’avait pas été analysé pour le français. J’ai donc analysé tous les textes français pour qu’il puisse être utilisé.
  • Grâce à Alexis, nous avons construit un nouveau corpus de littérature comprenant 5 romans de Haruki Murakami, avec un total de plus d’1 million de mots.
  • J’ai également travaillé sur les données issues du fameux corpus Tatoeba initié par Prof. Tanaka. un peu plus de 31 000 phrases bilingues sont disponibles.

L’interface a également été revue. Il est possible de masquer ou d’afficher la liste des corpus en cliquant sur le titre. Cela permet de mieux voir les résultats de recherche. Les corpus sont aussi regroupés par thèmes, ce qui facilite la sélection.

Une dernière amélioration utile : chaque texte a maintenant une référence qui s’affiche. Vous pouvez cliquer sur le lien de droite « Réf » pour l’afficher.

Clarification des okurigana

Si vous consultez régulièrement le dictionnaire, vous aurez remarqué que le Cesselin est assez radin sur les okurigana. Par exemple, pour l’entrée tabemono, on trouve 食物 alors que de nos jours, tout le monde écrit 食べ物.

Il fallait donc trouver une solution pour corriger automatiquement ces entrées. C’est chose faite depuis ce soir grâce à un script de ma spécialité qui consulte le dictionnaire SuperDaijirin installé par défaut sur MacOsX et affiche les variantes okurigana pour une entrée donnée. C’est environ 6500 entrées qui ont été corrigées.

Vous pouvez donc chercher 食物 et vous tomberez sur l’entrée 食べ物. Les anciennes variantes du Cesselin sans okurigana peuvent être utilisées pour la recherche mais ne sont pas affichées dans un soucis de simplification pour ne pas perturber le lecteur.

Bonne lecture !

Vedettes non reconnues en minorité !

Ça y est, aujourd’hui, nous avons reconnu manuellement plus de vedettes : 5 174 qu’il en reste à reconnaître : 5 155. Bref, on a passé le milieu du tunnel. Et tout cela grâce à l’impressionnant travail de Mutsuko (constance). Merci Mutsuko !

Vedettes non reconnues : sous la barre des 10%

Petit à petit, la liste des articles dont les vedettes n’ont pas été reconnues par la lecture optique se réduit. nous sommes passés sous la barre psychologique des 10% avec 8 257 articles non reconnus. Cela fait un peu plus de 2 000 articles corrigés manuellement, soit 1/5ème de tous les articles non reconnus. Tout cela a été réalisé par 3 personnes. Il est donc tout à fait possible de finir cette liste des articles non reconnus rapidement si d’autres contributeurs nous rejoignent. À vos claviers !

Bon anniversaire !

Et oui, c’était déjà il y a 1 an jour pour jour que nous lancions officiellement ce site Web lors d’une conférence à l’Université Hosei à Tokyo.
Et pour fêter comme il se doit cet anniversaire, rien de tel qu’un petit cadeau pour nos fidèles utilisateurs. Thibaut et moi avons développé une application android cliente pour pouvoir consulter tranquillement le dictionnaire sur son smartphone et même corriger les dernières erreurs croisées sur le chemin.
downloadAndroid-app
Si vous souhaitez beta-tester l’application, contactez-moi par mel (voir au bas de la page d’informations).