{"id":145,"date":"2018-02-13T20:57:23","date_gmt":"2018-02-13T20:57:23","guid":{"rendered":"http:\/\/jibiki.fr\/?p=145"},"modified":"2018-03-13T10:40:07","modified_gmt":"2018-03-13T10:40:07","slug":"grosses-ameliorations-sur-les-corpus","status":"publish","type":"post","link":"https:\/\/jibiki.fr\/?p=145","title":{"rendered":"Am\u00e9liorations de taille sur les corpus"},"content":{"rendered":"<p>Suite \u00e0 l&rsquo;impulsion d&rsquo;Alexis et \u00e0 gr\u00e2ce un coup de pouce d&rsquo;Olivier, j&rsquo;ai retravaill\u00e9 toute la cha\u00eene de traitement des corpus. J&rsquo;utilise maintenant l&rsquo;outil hunalign avec un dictionnaire fran\u00e7ais-japonais qui permet d&rsquo;aligner des textes m\u00eame s&rsquo;ils n&rsquo;ont pas le m\u00eame nombre de lignes. <\/p>\n<p>J&rsquo;ai mis sur pieds un syst\u00e8me de gestion des corpus en ligne appel\u00e9 iPoCorp. Cela permettra \u00e0 de sutilisateurs d&rsquo;ajouter de nouveaux corpus en ligne de mani\u00e8re simple.<\/p>\n<p>J&rsquo;ai retravaill\u00e9 les corpus suivants :<\/p>\n<ul>\n<li>Le Monde Diplo a profit\u00e9 de l&rsquo;outil d&rsquo;alignement pour aligner tous les textes. J&rsquo;ai ajout\u00e9 \u00e9galement les articles pour la p\u00e9riode 2014-2017. Au final, nous obtenons un corpus de plus de 2 millions de mots !<\/li>\n<li>OpenSubtitles, le corpus des sous-titres n&rsquo;avait pas \u00e9t\u00e9 analys\u00e9 pour le fran\u00e7ais. J&rsquo;ai donc analys\u00e9 tous les textes fran\u00e7ais pour qu&rsquo;il puisse \u00eatre utilis\u00e9.<\/li>\n<li>Gr\u00e2ce \u00e0 Alexis, nous avons construit un nouveau corpus de litt\u00e9rature comprenant 5 romans de Haruki Murakami, avec un total de plus d&rsquo;1 million de mots.<\/li>\n<li>J&rsquo;ai \u00e9galement travaill\u00e9 sur les donn\u00e9es issues du fameux corpus Tatoeba initi\u00e9 par Prof. Tanaka. un peu plus de 31 000 phrases bilingues sont disponibles.<\/li>\n<\/ul>\n<p>L&rsquo;interface a \u00e9galement \u00e9t\u00e9 revue. Il est possible de masquer ou d&rsquo;afficher la liste des corpus en cliquant sur le titre. Cela permet de mieux voir les r\u00e9sultats de recherche. Les corpus sont aussi regroup\u00e9s par th\u00e8mes, ce qui facilite la s\u00e9lection.<\/p>\n<p>Une derni\u00e8re am\u00e9lioration utile : chaque texte a maintenant une r\u00e9f\u00e9rence qui s&rsquo;affiche. Vous pouvez cliquer sur le lien de droite \u00ab\u00a0R\u00e9f\u00a0\u00bb pour l&rsquo;afficher.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Suite \u00e0 l&rsquo;impulsion d&rsquo;Alexis et \u00e0 gr\u00e2ce un coup de pouce d&rsquo;Olivier, j&rsquo;ai retravaill\u00e9 toute la cha\u00eene de traitement des corpus. J&rsquo;utilise maintenant l&rsquo;outil hunalign avec un dictionnaire fran\u00e7ais-japonais qui permet d&rsquo;aligner des textes m\u00eame s&rsquo;ils n&rsquo;ont pas le m\u00eame nombre de lignes. J&rsquo;ai mis sur pieds un syst\u00e8me de gestion des corpus en ligne &hellip; <a href=\"https:\/\/jibiki.fr\/?p=145\" class=\"more-link\">Continuer la lecture de <span class=\"screen-reader-text\">Am\u00e9liorations de taille sur les corpus<\/span>  <span class=\"meta-nav\">&rarr;<\/span><\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[2],"tags":[],"_links":{"self":[{"href":"https:\/\/jibiki.fr\/index.php?rest_route=\/wp\/v2\/posts\/145"}],"collection":[{"href":"https:\/\/jibiki.fr\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"https:\/\/jibiki.fr\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"https:\/\/jibiki.fr\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"https:\/\/jibiki.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=145"}],"version-history":[{"count":7,"href":"https:\/\/jibiki.fr\/index.php?rest_route=\/wp\/v2\/posts\/145\/revisions"}],"predecessor-version":[{"id":153,"href":"https:\/\/jibiki.fr\/index.php?rest_route=\/wp\/v2\/posts\/145\/revisions\/153"}],"wp:attachment":[{"href":"https:\/\/jibiki.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=145"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"https:\/\/jibiki.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=145"},{"taxonomy":"post_tag","embeddable":true,"href":"https:\/\/jibiki.fr\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=145"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}