Projet Jibiki : informations

3 Motivations

Bien que le français et le japonais soient considérées comme des langues bien dotées au niveau des outils et des ressources linguistiques, le couple français-japonais est considéré comme un couple de langues peu doté. Il existe en effet peu de ressources lexicales bilingues électroniques de qualité et libres de droits. Les corpus bilingues alignés et les systèmes de traduction automatique français-japonais sont logiquement tout aussi rares.

Les dictionnaires japonais-français existants de bonne qualité sont des dictionnaires éditoriaux qui n’existent qu’au format papier ou compilé dans des dictionnaires électroniques (denshi-jishou). Pour le français->japonais, il existe par exemple Le Dico (Hakusuisha, 1993) avec 34 000 entrées et le Crown (Sanseido) avec 47 000 entrées. Pour le japonais→français, il existe par exemple le Royal (Obunsha, 1992) avec 42 000 entrées et le Concise (Sanseido) avec 38 000 entrées. Pour ces dictionnaires, il n'existe pas d'interface de consultation en ligne.

Pour l'anglais et l'allemand, il existe par contre des dictionnaires bilingues de bonne couverture et de bonne qualité disponibles en ligne et surtout en téléchargement. Il s'agit pour l'anglais du projet JMdict dirigé par Jim Breen qui contient actuellement et environ 160 000 entrées pour l'allemand du projet WaDokuJiten dirigé par Ulrich Apel qui contient environ 280 000 entrées.

4 Méthode de travail

L'objectif à long terme est de construire un dictionnaire multilingue à structure pivot avec priorité sur le français et le japonais.

La construction d'un dictionnaire quel qu'il soit en partant de zéro est une tâche très fastidieuse et ne peut de toutes façons être menée uniquement par des contributeurs bénévoles qui ont de plus chacun des compétences très différentes.

Notre hypothèse est qu'il est par contre plus facile de constituer un premier ensemble de données à partir de sources existantes puis que les utilisateurs corrigent ces données au fur et à mesure des articles qu'ils consultent. Nous avons donc rassemblé des données provenant de quatre sources principales :

un dictionnaire bilingue japonais→français au format papier libre de droits qui a été scanné puis lu optiquement pour reconnaître automatiquement les caractères. Il s'agit du dictionnaire Cesselin.
un dictionnaire bilingue français→japonais au format papier qui a également été scanné puis lu optiquement pour reconnaître automatiquement les caractères. Il s'agit du dictionnaire Raguet-Martin. Les Missions Étrangères de Paris, ainsi que l'Institut de Recherche France-Asie nous ont aimablement autorisé à utiliser ces données dans le cadre de notre projet.
un dictionnaire bilingue japonais→anglais et français au format électronique et libre de droits. Il s'agit du dictionnaire JMdict de Jim Breen.
des liens de traduction provenant d'articles des bases Wikipedia japonaise et française.

Nous avons également constitué un corpus bilingue aligné avec des textes variés provenant de sites web ou d'autres corpus multilingues libres de droits comme OPUS et tatoeba. Nous prévoyons d'enrichir ce corpus au fur et à mesure de la trouvaille de nouveaux textes bilingues.

Un module de lecture active est également disponible sur ce site. Celui-ci s'adresse aux lecteurs apprenant une langue (japonais ou français) et désireux de disposer d'une aide à la compréhension. Le module utilise des lemmatiseurs couplés au dictionnaire et permet d'ajouter des informations sur un texte français ou japonais : prononciation, furigana et traductions.

5 Dictionnaire

Les volumes consultables actuellement sur le site sont un volume français→japonais et un volume japonais→français. Vous pouvez suivre l'avancement des travaux en vous rendant sur la page de statistiques.

5.1 Données japonais→français

Dictionnaire Cesselin

Ce dictionnaire a été rédigé par Gustave Cesselin (1873-1944), missionnaire apostolique au Japon. La première édition a été publiée en 1939, peu avant sa mort. Le dictionnaire est considéré comme le meilleur du point de vue de ceux qui étudient la langue japonaise de façon approfondie, car il fournit de nombreux exemples présentés sous forme alphabétique. Il contient plus de 82 000 articles et 140 000 exemples.

Le rōmaji utilisé à l'époque était le rōmajikwa (hepburn). Nous l'avons converti automatiquement en rōmaji hepburn moderne. Si vous souhaitez chercher un mot en rōmaji contenant une voyelle longue (ā, ē, ī, ō, ū), vous pouvez utiliser des accents circonflexes à la place des macrons (â,ê,î,ô,û).

Le hiragana utilisé pour les terminaisons verbales en japonais gardait trace des anciennes prononciations. Exemples : la terminaison « ふ » (fu) se prononce « u » ; la terminaison « へる » (heru) se prononce « eru ». Nous avons donc modifié automatiquement le hiragana pour qu'il corresponde au romaji et ainsi à la prononciation moderne : kokitsukau 扱使ふ ⇒ 扱使う ; kikikaeru 切替へる ⇒ 切替える. Il peut cependant rester quelques traces de l'ancienne version du hiragana. Il s'agira de la corriger si vous la trouvez sur votre passage !

Les okurigana (送り仮名) qui suivent principalement les verbes ne sont pas sytématiquement indiqués. Ex : uketsuke 受付 au lieu de 受け付け. Alors que les règles définies par le système éducatif japonais sont strictes. Nous avons le projet de les moderniser à court terme.

Le japonais décrit dans ce dictionnaire dont la rédaction a débuté sous l'ère Meiji est donc un peu ancien. Certains termes ne sont plus utilisés de nos jours. Pour autant, cela ne gène pas l'utilisation de ce dictionnaire car le japonais est présent pour la compréhension. Le français a également évolué depuis la deuxième guerre mondiale mais les évolutions sont bien moindres et les traductions sont pour la très grande majorité toujours d'actualité. Tous les textes français sont compréhensibles par un francophone.

La grande qualité de ce dictionnaire, ses exemples, est aussi son principal défaut par rapport à un dictionnaire moderne. En effet, les exemples ne sont pas rattachés aux sens de mot mais sont listés à la fin de chaque article par ordre alphabétique. D'autre part, il n'y a pas de distinction entre les mots composés, les tournures ou expressions figées et les exemples. Nous avons l'objectif à moyen terme de nous attaquer à ce problème en opérant un premier tri automatique dont le résultat devra être ensuite corrigé manuellement par les contributeurs.

Dictionnaire JMdict

Le projet JMdict a été conduit de main de maître par Jim Breen. Il s'agit au départ d'un dictionnaire japonais->anglais. Il a ensuite été enrichi par des gloses dans d'autres langues. Il y en a environ 20 000 en français. Les traductions sont des gloses libres de chaque mot-vedette. Il n'y a pas d'exemples et peu de distinction de sens.

Nous avons intégré dans notre dictionnaire les entrées du JMdict qui étaient absentes du dictionnaire Cesselin et qui étaient présentes dans le dictionnaire monolingue japonais Super Daijirin afin d'éviter de polluer le dictionnaire avec des vocables non attestés.

Au total, 48 000 articles proviennent du JMdict. Parmis ceux-ci, 45 000 articles ont des traductions en anglais qu'il faut traduire en français. Ici aussi, vous êtes invités à contribuer pour ajouter des traductions françaises à ces articles.

Nous avons enrichi certains articles provenant du JMdict avec des exemples tirés du corpus tatoeba.

Bases Wikipedia

Nous avons également intégré dans ce volume japonais→français les liens bilingues japonais→français et japonais→anglais des articles Wikipedia dont les mots-vedette figuraient aussi dans le dictionnaire monolingue japonais Super Daijirin. Il est encore plus important d'attester les vedettes avec un autre dictionnaire dans ce cas car la taille des bases Wikipedia est considérable.

5.2 Données français→japonais

Dictionnaire Raguet-Martin

Le dictionnaire Raguet-Martin a été élaboré en deux étapes. Tout d'abord, Émile Raguet, missionnaire apostolique envoyé par les Missions Étrangères de Paris au Japon en 1880 entreprit de rédiger un premier dictionnaire français→japonais qu'il publia en 1905. Il était composé de 1084 pages sur 2 colonnes.

Jean-Marie Martin, également missionnaire envoyé par les Missions Étrangères de Paris au Japon reprit le dictionnaire d'Émile Raguet pour en faire une nouvelle version publiée en 1970 et comprenant 1467 pages sur 3 colonnes.

Les traductions japonaises sont notées principalement en romaji (contrairement au Cesselin qui a tout transcrit en romaji et en japonais). Quelques kanji sont parfois indiqués. Les sens de mot sont par contre clairement délimités et les exemples sont rattachés à chaque sens.

Même si ce dictionnaire est un peu plus récent que le Cesselin, une grosse partie du vocabulaire japonais récent manque. C'est pourquoi nous avons complété ce volume.

Base Wikipedia

Nous avons également intégré dans ce volume les liens bilingues français→japonais des articles Wikipedia dont les mots-vedette figuraient aussi dans le dictionnaire bilingue français-anglais Oxford-Hachette.

5.3 Plateforme

Le dictionnaire utilise la plate-forme Jibiki (sous licence LGPL), fondée sur Enhydra, un serveur d'objets Java et la base de données Postgresql. Cette plateforme est déjà utilisée avec succès pour plusieurs autres projet de dictionnaires ( DiLAF, GDEF, LexAlp, MotàMot, Pivax, etc.).

8 Équipe et contact

Ce site et ses données ont été entièrement réalisés par :

Mathieu MANGEOT-NAGATA
Laboratoire d'informatique de Grenoble
700 avenue centrale
F-38400 Saint Martin d'Hères
FRANCE

avec le soutien du programme "Hosei International Fellowship (2014-2015)"

Le site est hébergé sur un serveur du laboratoire d'informatique de Grenoble et maintenu par l'équipe MISI. Qu'ils en soient ici remerciés !

8.1 Équipe

Le pilotage du projet est actuellement effectué par trois personnes :

Direction scientifique : Mathieu Mangeot-Nagata

Conseillers linguistiques : Nicolas Mollard & Mutsuko Tomokiyo

Conception informatique et mise en œuvre: Mathieu Mangeot-Nagata

Alignement et étiquetage : Mathieu Mangeot-Nagata

Remerciements à : Prof. Yukiko Sasaki-Alam, l'Université Hosei.

Rendez-vous sur la page de statistiques pour consulter la liste de tous les contributeurs.

8.2 Contact

Pour contacter Mathieu Mangeot-Nagata, veuillez envoyer un courriel à l'adresse suivante :

Description du projet et informations sur les données

1 Objectif du projet jibiki.fr

2 Données disponibles