Accéder au contenu principal

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes ! 

Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc.




Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué:




Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau.


Problème :
message d'erreur:


...et aucun tableau à l'horizon. On essaye d'autre script, d'en refaire nous même, toutes les possibilités qui pourraient nous aider... rien ne marche. Monsieur Fleury (merci à vous!) est venu à la rescousse.

Il nous suggère de travailler avec le tokenizer janome pour le japonais et nous laisse les pistes et nous dirige vers les blogs des années passées, afin d'exécuter le tokenizer sur notre corpus. 

Quel bazar ! janome doit être installé sur le terminal unix par la commande:

pip install janome

En fait, janome est un tokenizer qui doit être écrit sur un script python, et c'est ce script python que l'on doit faire appeler sur notre script bash.
J'ai essayé de suivre les instructions des anciens blogs mais rien à faire, ça ne veut pas marcher pour des raisons que j'ignore encore aujourd'hui. Mais le temps presse et nous en avons déjà beaucoup perdu... Que faire pour avoir notre tableau et avoir notre corpus tokenisé ?

Première solution : Monsieur Fleury nous a suggéré de revoir notre script où il fait remarqué que certains liens sont encodés en autre choses que utf-8. Donc il fallait harmonier cela dans une boucle, pour que le traitement des urls encodé en autre chose que utf-8 puisse bien se passer. 
Après avoir résolu ce premier soucis, un autre montre le bout de son museau...

Résultat : bof, un tableau se lance mais pas très bien fait... on se dit que ca doit surement venir des urls. On refait une récolte d'urls "propres" en le faisant manuellement sur notepad++ en faisant un retour chariot par url récolté. ATTENTION au retour à la ligne CRLF (pour Windows) ou LF (pour unix). On relance la commande, c'est beaucoup mieux, mais pas assez ! Il y a certains liens qui montre 0... On essaie de relancer avec un autre script, toujours pareil. Pas très net tout ça... Alors on redemande à M. Fleury (désolé encore!)

Deuxième point : il nous pointe la chose suivante : nous avons 3 boucles de condition pour pouvoir traiter correctement les liens selon leur encodage, mais nous ne faisons appelle à notre tokenizer python que dans la première boucle. Or, ce traitement doit se faire tout au long des traitements des liens urls. Alors, l'idée est de placé janome dans la boucle mais pour chacune d'entre elle. Ouff! de l'espoir en vue ! 

Résultat : pas concluant... rien à faire. Cela ne veut pas se lancer. On essaie de faire un autre script à part seulement pour les liens urls japonais, mais toujours au même point ! Alors, on réfléchit, l'heure tourne encore et puis on décide de faire la chose suivante :

On place le script python sur le dossier DUMP, on va sur le terminal, et on tape ceci : 
python tokenizer-jp.py utf8_1-1.txt OUTPUT.txt

N.B.: dans le dossier DUMP, il y a le fichier utf8_1-1.txt
sur le terminal ubuntu, on se déplace sur le répertoire DUMP avant de lancer la commande, donc : cd pour aller vers DUMP

On s'exécute, vite, vite, et...

"C'EST BON !"


Le texte est bien tokenisé ! Il faut le faire sur tous les fichiers maintenant !
Ensuite, on concatène avec la commande qui suit :


Enfin un corpus bien tokenisé ! On nettoie le corpus à la main, pour qu'il n'y ait pas de "bruit" et pour pouvoir mettre le corpus sous iTrameur. Bien sûr, on oublie pas de rédiger l'analyse et une belle conclusion !

Et c'est ainsi que nous avons trouvé une autre façon de tokeniser la langue japonaise sans le mettre sur le script .sh !
Quel stresse franchement ! 

Le japonais était la dernière langue qui nous restait à traiter. 

Donc tout est prêt pour le site finale ! 

Un petit mot de fin pour ce projet-ci : La partie la plus facile fut celle des nuages de mots sur wordart.com (😂). Plus sérieusement, même si ça a été fait avec les données du corpus contextes les résultats sont similaires à ceux d’iTrameur.

Merci pour ce semestre ! 
En espérant que ce blog aidera les M1 des prochaines années !


Commentaires

Posts les plus consultés de ce blog

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher! Dans cette partie, il sera montré quelques résultats par pair de langue Nous allons commencer par présenter nos recherches en espagnol, et en français. Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua". Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua": La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés". Pour le cas de "beso con lengua" Commande :  counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; coun

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan