Archives de catégorie : français

Articles en français

Offre de thèse : informatique et apprentissage des langues

Voici une offre de thèse qui s’appuie sur la base lexicale jibiki et que je codirigerai avec Mathieu Loiseau. Si vous êtes intéressé ou si vous connaissez quelqu’un qui le serait, n’hésitez pas à diffuser !

Contexte scientifique

L’acquisition du lexique est au cœur de l’apprentissage d’une langue étrangère (Schmitt 2008, 329), cependant les volumes horaires alloués à la formation en langue, que ce soit dans le secondaire où chez les non-spécialistes dans le supérieur, ne permettent pas toujours d’intégrer un apprentissage lexical explicite. Outre les conséquences de l’approche communicative (Hilton 2002), le temps en classe est dédié à l’interaction, faisant du travail lexical une tâche à mener en autonomie pour les étudiants (Freund 2016). Or, il s’agit d’une tâche fastidieuse et complexe, qui demande à l’apprenant d’intégrer des informations relevant de différents niveaux conceptuels (forme, sens et combinatoire) selon plusieurs modalités (production/réception, oral/écrit) (Tremblay et Anctil 2020). La motivation n’est pas un simple facteur de cette tâche, elle fait partie intégrante du cycle d’apprentissage du lexique (Tseng et Schmitt 2008, 383).
Avec cette problématique, le projet Lex:gaMe propose de mettre à disposition des enseignants et des étudiants du centre de langue de l’université Lyon 2 un ensemble d’outils : deux jeux faisant appel à des niveaux d’information lexicale distincte, ainsi qu’une base lexicale personnalisable (Lex:M). Lex:gaMe vise, entre autres, à estimer les apports des deux jeux proposés, aussi bien en termes de motivations que d’acquisition lexicales.
La pierre angulaire du projet est la base lexicale Lex:M (Mangeot et al. 2016) qui outre ses possibilités intrinsèques (dictionnaire de référence, gestion d’un lexique personnel pour chaque étudiant, cf. vocabulary notebook (Nation 2013, 140)), aura la charge de faire le lien avec l’activité de l’apprenant dans les jeux. Sur la base de ce lexique, le premier enjeu sera que Lex:M offre un retour réflexif à chaque étudiant sur son activité et les connaissances lexicales consultées. Le deuxième enjeu sera d’aider à maintenir sa motivation à travers les liens effectués avec d’autres activités (ex : création de parties de MagicWord à partir de mots sélectionnés dans Lex:M).
La thèse proposée ici vise à définir les modalités de ce retour réflexif et des interactions entre Lex:M et les jeux du projet (https://magicword.lezinter.net / https://gameofwords.lezinter.net).

Objectifs de la thèse :

Suite à une analyse de l’existant et une revue de la littérature, mener un travail de conception centrée utilisateur (Norman 2013) pour
1. spécifier l’API de Lex:M
2. définir les éléments de réflexivité et les ressorts motivationnels à intégrer à Lex:M
3. Analyser l’activité des utilisateurs en vue de la reconception/validation des affordances mises en place

Contexte de travail

La thèse se déroulera au sein de l’équipe SICAL du LIRIS dans le cadre du projet Lex:gaMe du LabEx ASLAN. La personne recrutée sera hébergée dans le bâtiment Blaise Pascal de la Doua. Elle sera amenée à collaborer avec des chercheur⋅es et enseignant⋅es de l’équipe SICAL, du laboratoire ICAR, du centre de langues de l’Université Lyon 2 (Bron), mais également des partenaires hors-site (Univ. Grenoble Alpes, UNAM, Carnegie-Mellon University).
Un contrat Post-doc sera également recruté lors de la phase de collecte et d’analyse des besoins.
Un marché sera passé avec une entreprise qui réalisera l’API spécifiée par la personne retenue pour cette thèse.

Compétences attendues

Les candidat⋅es devront attester de compétences en modélisation, qu’elle soit orientée vers des problématiques linguistiques, informatiques ou éducatives. La pratique ou un intérêt fort pour l’interdisciplinarité est primordial dans ce travail.
Cette interdisciplinarité s’exprimera par la connaissance et/ou l’apprentissage en cours d’une ou plusieurs langues étrangères attestant d’une appétence pour les langues et des connaissances en informatique : méthodologie, développement Web (ex : PHP, Symfony, JS, HTML+CSS), ou non (ex : Python, Perl, Java), représentation de données (ex : MariaDB, XML).
Des compétences ou expériences en conduite d’expérimentations seront également appréciées.

Pour plus d’informations, voir : https://bit.ly/3A0yHfj

Intégration du dictionnaire français-japonais Raguet-Martin

Depuis le début du projet jibiki.fr en 2014, j’avais dans mes cartons les données du dictionnaire français-japonais conçu par les missionnaires Émile Raguet et Jean-Marie Martin.

Les Missions Étrangères de Paris et le tout nouvel Institut de Recherche France-Asie m’ont aimablement donné l’autorisation d’utiliser ces données. Le résultat est intéressant. Le dictionnaire Raguet-Martin contient environ 50 000 articles et 80 000 sens. Je l’ai complété par 12 000 liens de traduction de Wikipedia.

Le projet Jibiki.fr tient enfin sur ses deux jambes !

Le volume est disponible à la consultation et à l’édition. N’hésitez pas à me contacter pour m’en dire des nouvelles !

Validations groupées à l’aide du Daijirin

Ces derniers temps, nous nous sommes attaqués à cette fameuse liste des vedettes non validées. Nous avons extrait toutes ces vedettes puis nous avons consulté le Daijirin en utilisant le hiragana. Ensuite, Mutsuko a comparé les 7 059 vedettes trouvées dans le Daijirin avec celles du Cesselin. Elle a pu en valider 1439. Il reste encore 11 151 vedettes à valider. Hardi petit !

Corrections diverses

Bonjour tout le monde,

Nous avons continué à effectuer des corrections diverses :

  • Suppression de 368 articles en doublon entre le Cesselin et le JMdict suite aux corrections effectuées dans le Cesselin.
  • Suppression des espaces dans les vedettes suite à des corrections manuelles. Cela concerne 275 articles.
  • Intégration des renvois dans l’article principal. il y a 1327 articles de renvoi dans le Cesselin. Nous en avons intégré 692. Il en reste 348 dont nous avons trouvé que le romaji et 287 sans correspondance. Il faudra intégrer ces 2 dernières catégories manuellement.
  • Constitution de la liste des articles du JMdict et de Wikipedia qui sont des sous-entrées d’articles du Cesselin. C’est le cas de 7 516 articles. La prochaine étape sera de remplacer ces articles par un renvoi.

Le résultat final diminue le nombre total d’articles. Pour le Cesselin, on passe de 82 719 à 82 035, pour le JMdict, on passe de 47 977 à 47 633; pour Wikipedia, on passe de 23 506 à 23 486. LE nombre total d’articles passe de 154 203 à 153 205.

Mise à jour des données

Nous travaillons actuellement sur une catégorisation des « exemples » en collocations, locutions, proverbes et exemples d’usage. Une première étape a consisté à mettre à jour les données sur plusieurs points :

  • suppression des vedettes en double (surtout sur les articles issus du JMdict).
  • duplication des vedettes contenant le donojiten 々
  • ajout des vedettes dans les exemples lorsque celles-ci sont validées (remplacement des « … » dans le romaji et des « — » dans le japonais).
  • ajout du furigana sur les exemples qui n’en avaient pas. Cela sera dorénavant fait automatiquement une fois par semaine sur les articles modifiés. Le furigana est ajouté avec l’outil Mecab. J’ai créé un dictionnaire pour mecab issu des données du jibiki.fr.
  • ajout d’un champ d’indexation des exemples pour la version romaji sans espaces.

La recherche avancée a également été améliorée :

  • ajout de l’option « contient » pour toutes les recherches.
  • recherche dans les exemples avec le japonais, le furigana, le romaji et la traduction française.

Nous vous donnerons très prochainement des informations sur la catégorisation des exemples. D’ici là, bonne consultation !

Améliorations de taille sur les corpus

Suite à l’impulsion d’Alexis et à grâce un coup de pouce d’Olivier, j’ai retravaillé toute la chaîne de traitement des corpus. J’utilise maintenant l’outil hunalign avec un dictionnaire français-japonais qui permet d’aligner des textes même s’ils n’ont pas le même nombre de lignes.

J’ai mis sur pieds un système de gestion des corpus en ligne appelé iPoCorp. Cela permettra à de sutilisateurs d’ajouter de nouveaux corpus en ligne de manière simple.

J’ai retravaillé les corpus suivants :

  • Le Monde Diplo a profité de l’outil d’alignement pour aligner tous les textes. J’ai ajouté également les articles pour la période 2014-2017. Au final, nous obtenons un corpus de plus de 2 millions de mots !
  • OpenSubtitles, le corpus des sous-titres n’avait pas été analysé pour le français. J’ai donc analysé tous les textes français pour qu’il puisse être utilisé.
  • Grâce à Alexis, nous avons construit un nouveau corpus de littérature comprenant 5 romans de Haruki Murakami, avec un total de plus d’1 million de mots.
  • J’ai également travaillé sur les données issues du fameux corpus Tatoeba initié par Prof. Tanaka. un peu plus de 31 000 phrases bilingues sont disponibles.

L’interface a également été revue. Il est possible de masquer ou d’afficher la liste des corpus en cliquant sur le titre. Cela permet de mieux voir les résultats de recherche. Les corpus sont aussi regroupés par thèmes, ce qui facilite la sélection.

Une dernière amélioration utile : chaque texte a maintenant une référence qui s’affiche. Vous pouvez cliquer sur le lien de droite « Réf » pour l’afficher.

Clarification des okurigana

Si vous consultez régulièrement le dictionnaire, vous aurez remarqué que le Cesselin est assez radin sur les okurigana. Par exemple, pour l’entrée tabemono, on trouve 食物 alors que de nos jours, tout le monde écrit 食べ物.

Il fallait donc trouver une solution pour corriger automatiquement ces entrées. C’est chose faite depuis ce soir grâce à un script de ma spécialité qui consulte le dictionnaire SuperDaijirin installé par défaut sur MacOsX et affiche les variantes okurigana pour une entrée donnée. C’est environ 6500 entrées qui ont été corrigées.

Vous pouvez donc chercher 食物 et vous tomberez sur l’entrée 食べ物. Les anciennes variantes du Cesselin sans okurigana peuvent être utilisées pour la recherche mais ne sont pas affichées dans un soucis de simplification pour ne pas perturber le lecteur.

Bonne lecture !