Corrections diverses

Bonjour tout le monde,

Nous avons continué à effectuer des corrections diverses :

  • Suppression de 368 articles en doublon entre le Cesselin et le JMdict suite aux corrections effectuées dans le Cesselin.
  • Suppression des espaces dans les vedettes suite à des corrections manuelles. Cela concerne 275 articles.
  • Intégration des renvois dans l’article principal. il y a 1327 articles de renvoi dans le Cesselin. Nous en avons intégré 692. Il en reste 348 dont nous avons trouvé que le romaji et 287 sans correspondance. Il faudra intégrer ces 2 dernières catégories manuellement.
  • Constitution de la liste des articles du JMdict et de Wikipedia qui sont des sous-entrées d’articles du Cesselin. C’est le cas de 7 516 articles. La prochaine étape sera de remplacer ces articles par un renvoi.

Le résultat final diminue le nombre total d’articles. Pour le Cesselin, on passe de 82 719 à 82 035, pour le JMdict, on passe de 47 977 à 47 633; pour Wikipedia, on passe de 23 506 à 23 486. LE nombre total d’articles passe de 154 203 à 153 205.

Mise à jour des données

Nous travaillons actuellement sur une catégorisation des « exemples » en collocations, locutions, proverbes et exemples d’usage. Une première étape a consisté à mettre à jour les données sur plusieurs points :

  • suppression des vedettes en double (surtout sur les articles issus du JMdict).
  • duplication des vedettes contenant le donojiten 々
  • ajout des vedettes dans les exemples lorsque celles-ci sont validées (remplacement des « … » dans le romaji et des « — » dans le japonais).
  • ajout du furigana sur les exemples qui n’en avaient pas. Cela sera dorénavant fait automatiquement une fois par semaine sur les articles modifiés. Le furigana est ajouté avec l’outil Mecab. J’ai créé un dictionnaire pour mecab issu des données du jibiki.fr.
  • ajout d’un champ d’indexation des exemples pour la version romaji sans espaces.

La recherche avancée a également été améliorée :

  • ajout de l’option « contient » pour toutes les recherches.
  • recherche dans les exemples avec le japonais, le furigana, le romaji et la traduction française.

Nous vous donnerons très prochainement des informations sur la catégorisation des exemples. D’ici là, bonne consultation !