Accueil Corpus parallèle Lecture active Données Informations Aide
English 日本語

Description du projet et informations sur les données

1 Objectif du projet jibiki.fr

L'objectif principal de ce projet est la construction collaborative d'un dictionnaire français-japonais de qualité, à large couverture et libre de droits.

2 Données disponibles

Il est possible de consulter sur le site un volume français→japonais ainsi qu'un volume japonais→français. Ce sont des dictionnaires de traduction : les mots ne sont pas définis mais mis en correspondance avec leurs équivalents dans l'autre langue.

Les volumes contiennent encore de nombreuses erreurs provenant de la lecture optique des caractères. Pour autant, celles-ci n'entâchent pas la qualité et la fiabilité des données car ces erreurs sont facilement reconnaissables et déjà reconnues dans la plupart des cas (une couleur de fond les signale au lecteur). Nous espérons que si vous en croisiez sur votre chemin, vous prendrez quelques secondes pour les corriger. La page de statistiques détaille le nombre de contribution effectuées depuis le début du projet.

Toutes les données utilisées dans ce projet (dictionnaires et corpus) sont téléchargeables gratuitement et librement réutilisables.

3 Motivations

Bien que le français et le japonais soient considérées comme des langues bien dotées au niveau des outils et des ressources linguistiques, le couple français-japonais est considéré comme un couple de langues peu doté. Il existe en effet peu de ressources lexicales bilingues électroniques de qualité et libres de droits. Les corpus bilingues alignés et les systèmes de traduction automatique français-japonais sont logiquement tout aussi rares.

Les dictionnaires japonais-français existants de bonne qualité sont des dictionnaires éditoriaux qui n’existent qu’au format papier ou compilé dans des dictionnaires électroniques (denshi-jishou). Pour le français->japonais, il existe par exemple Le Dico (Hakusuisha, 1993) avec 34 000 entrées et le Crown (Sanseido) avec 47 000 entrées. Pour le japonais→français, il existe par exemple le Royal (Obunsha, 1992) avec 42 000 entrées et le Concise (Sanseido) avec 38 000 entrées. Pour ces dictionnaires, il n'existe pas d'interface de consultation en ligne.

Pour l'anglais et l'allemand, il existe par contre des dictionnaires bilingues de bonne couverture et de bonne qualité disponibles en ligne et surtout en téléchargement. Il s'agit pour l'anglais du projet JMdict dirigé par Jim Breen qui contient actuellement et environ 160 000 entrées pour l'allemand du projet WaDokuJiten dirigé par Ulrich Apel qui contient environ 280 000 entrées.

4 Méthode de travail

L'objectif à long terme est de construire un dictionnaire multilingue à structure pivot avec priorité sur le français et le japonais.

La construction d'un dictionnaire quel qu'il soit en partant de zéro est une tâche très fastidieuse et ne peut de toutes façons être menée uniquement par des contributeurs bénévoles qui ont de plus chacun des compétences très différentes.

Notre hypothèse est qu'il est par contre plus facile de constituer un premier ensemble de données à partir de sources existantes puis que les utilisateurs corrigent ces données au fur et à mesure des articles qu'ils consultent. Nous avons donc rassemblé des données provenant de quatre sources principales :

Nous avons également constitué un corpus bilingue aligné avec des textes variés provenant de sites web ou d'autres corpus multilingues libres de droits comme OPUS et tatoeba. Nous prévoyons d'enrichir ce corpus au fur et à mesure de la trouvaille de nouveaux textes bilingues.

Un module de lecture active est également disponible sur ce site. Celui-ci s'adresse aux lecteurs apprenant une langue (japonais ou français) et désireux de disposer d'une aide à la compréhension. Le module utilise des lemmatiseurs couplés au dictionnaire et permet d'ajouter des informations sur un texte français ou japonais : prononciation, furigana et traductions.

5 Dictionnaire

Les volumes consultables actuellement sur le site sont un volume français→japonais et un volume japonais→français. Vous pouvez suivre l'avancement des travaux en vous rendant sur la page de statistiques.

5.1 Données japonais→français

Dictionnaire Cesselin

Ce dictionnaire a été rédigé par Gustave Cesselin (1873-1944), missionnaire apostolique au Japon. La première édition a été publiée en 1939, peu avant sa mort. Le dictionnaire est considéré comme le meilleur du point de vue de ceux qui étudient la langue japonaise de façon approfondie, car il fournit de nombreux exemples présentés sous forme alphabétique. Il contient plus de 82 000 articles et 140 000 exemples.

Le rōmaji utilisé à l'époque était le rōmajikwa (hepburn). Nous l'avons converti automatiquement en rōmaji hepburn moderne. Si vous souhaitez chercher un mot en rōmaji contenant une voyelle longue (ā, ē, ī, ō, ū), vous pouvez utiliser des accents circonflexes à la place des macrons (â,ê,î,ô,û).

Le hiragana utilisé pour les terminaisons verbales en japonais gardait trace des anciennes prononciations. Exemples : la terminaison « ふ » (fu) se prononce « u » ; la terminaison « へ る » (heru) se prononce « eru ». Nous avons donc modifié automatiquement le hiragana pour qu'il corresponde au romaji et ainsi à la prononciation moderne : kokitsukau 扱使ふ ⇒ 扱使う ; kikikaeru 切替へる ⇒ 切替える. Il peut cependant rester quelques traces de l'ancienne version du hiragana. Il s'agira de la corriger si vous la trouvez sur votre passage !

Les okurigana (送り仮名) qui suivent principalement les verbes ne sont pas sytématiquement indiqués. Ex : uketsuke 受付 au lieu de 受け付け. Alors que les règles définies par le système éducatif japonais sont strictes. Nous avons le projet de les moderniser à court terme.

Le japonais décrit dans ce dictionnaire dont la rédaction a débuté sous l'ère Meiji est donc un peu ancien. Certains termes ne sont plus utilisés de nos jours. Pour autant, cela ne gène pas l'utilisation de ce dictionnaire car le japonais est présent pour la compréhension. Le français a également évolué depuis la deuxième guerre mondiale mais les évolutions sont bien moindres et les traductions sont pour la très grande majorité toujours d'actualité. Tous les textes français sont compréhensibles par un francophone.

La grande qualité de ce dictionnaire, ses exemples, est aussi son principal défaut par rapport à un dictionnaire moderne. En effet, les exemples ne sont pas rattachés aux sens de mot mais sont listés à la fin de chaque article par ordre alphabétique. D'autre part, il n'y a pas de distinction entre les mots composés, les tournures ou expressions figées et les exemples. Nous avons l'objectif à moyen terme de nous attaquer à ce problème en opérant un premier tri automatique dont le résultat devra être ensuite corrigé manuellement par les contributeurs.

Dictionnaire JMdict

Le projet JMdict a été conduit de main de maître par Jim Breen. Il s'agit au départ d'un dictionnaire japonais->anglais. Il a ensuite été enrichi par des gloses dans d'autres langues. Il y en a environ 20 000 en français. Les traductions sont des gloses libres de chaque mot-vedette. Il n'y a pas d'exemples et peu de distinction de sens.

Nous avons intégré dans notre dictionnaire les entrées du JMdict qui étaient absentes du dictionnaire Cesselin et qui étaient présentes dans le dictionnaire monolingue japonais Super Daijirin afin d'éviter de polluer le dictionnaire avec des vocables non attestés.

Au total, 48 000 articles proviennent du JMdict. Parmis ceux-ci, 45 000 articles ont des traductions en anglais qu'il faut traduire en français. Ici aussi, vous êtes invités à contribuer pour ajouter des traductions françaises à ces articles.

Nous avons enrichi certains articles provenant du JMdict avec des exemples tirés du corpus tatoeba.

Bases Wikipedia

Nous avons également intégré dans ce volume japonais→français les liens bilingues japonais→français et japonais→anglais des articles Wikipedia dont les mots-vedette figuraient aussi dans le dictionnaire monolingue japonais Super Daijirin. Il est encore plus important d'attester les vedettes avec un autre dictionnaire dans ce cas car la taille des bases Wikipedia est considérable.

5.2 Données français→japonais

Dictionnaire Raguet-Martin

Le dictionnaire Raguet-Martin a été élaboré en deux étapes. Tout d'abord, Émile Raguet, missionnaire apostolique envoyé par les Missions Étrangères de Paris au Japon en 1880 entreprit de rédiger un premier dictionnaire français→japonais qu'il publia en 1905. Il était composé de 1084 pages sur 2 colonnes.

Jean-Marie Martin, également missionnaire envoyé par les Missions Étrangères de Paris au Japon reprit le dictionnaire d'Émile Raguet pour en faire une nouvelle version publiée en 1970 et comprenant 1467 pages sur 3 colonnes.

Les traductions japonaises sont notées principalement en romaji (contrairement au Cesselin qui a tout transcrit en romaji et en japonais). Quelques kanji sont parfois indiqués. Les sens de mot sont par contre clairement délimités et les exemples sont rattachés à chaque sens.

Même si ce dictionnaire est un peu plus récent que le Cesselin, une grosse partie du vocabulaire japonais récent manque. C'est pourquoi nous avons complété ce volume.

Base Wikipedia

Nous avons également intégré dans ce volume les liens bilingues français→japonais des articles Wikipedia dont les mots-vedette figuraient aussi dans le dictionnaire bilingue français-anglais Oxford-Hachette.

5.3 Plateforme

Le dictionnaire utilise la plate-forme Jibiki (sous licence LGPL), fondée sur Enhydra, un serveur d'objets Java et la base de données Postgresql. Cette plateforme est déjà utilisée avec succès pour plusieurs autres projet de dictionnaires ( DiLAF, GDEF, LexAlp, MotàMot, Pivax, etc.).

6 Corpus bilingue aligné

Nous avons constitué un corpus bilingue aligné avec des textes variés provenant de sites web ou d'autres corpus multilingues libres de droits. Le corpus est consultable sur ce site à l'aide d'un concordancier.

6.1 Données

Les données proviennent de textes collectés sur le Web :

De corpus tirés du projet OPUS

Du corpus tatoeba initié par le professeur Tanaka.

6.2 Plateforme

La plate-forme utilisée pour construire le corpus est uplug de Jörg Tiedermann; L'analyseur du français est le Decision TreeTagger de Helmutt Schmid; L'analyseur du japonais est l'outil MeCab.

L'outil utilisé pour l'indexation et la consultation est IMS Corpus WorkBench.

7 Publications

Si vous souhaitez citer le projet, utilisez de préférence la référence suivante :

Mathieu Mangeot (2016) Collaborative Construction of a Good Quality, Broad Coverage and Copyright Free Japanese-French Dictionary. International Journal of Lexicography 2016; doi: 10.1093/ijl/ecw035; 35 p. HTML

Pour plus d'informations, vous pouvez lire ce rapport en français au format PDF : Construction collaborative d'un dictionnaire japonais-français de qualité, à large couverture et libre de droits..

8 Équipe et contact

Ce site et ses données ont été entièrement réalisés par :
 
Mathieu MANGEOT-NAGATA
Laboratoire d'informatique de Grenoble
700 avenue centrale
F-38400 Saint Martin d'Hères
FRANCE

avec le soutien du programme "Hosei International Fellowship (2014-2015)"

Le site est hébergé sur un serveur du laboratoire d'informatique de Grenoble et maintenu par l'équipe MISI. Qu'ils en soient ici remerciés !

8.1 Équipe

Le pilotage du projet est actuellement effectué par trois personnes :

Direction scientifique : Mathieu Mangeot-Nagata

Conseillers linguistiques : Nicolas Mollard & Mutsuko Tomokiyo

Conception informatique et mise en œuvre: Mathieu Mangeot-Nagata

Alignement et étiquetage : Mathieu Mangeot-Nagata

Remerciements à : Prof. Yukiko Sasaki-Alam, l'Université Hosei.

Rendez-vous sur la page de statistiques pour consulter la liste de tous les contributeurs.

8.2 Contact

Pour contacter Mathieu Mangeot-Nagata, veuillez envoyer un courriel à l'adresse suivante :