Accéder au contenu principal

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx 


Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la 

commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait

des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques 

captures d'écran pour illustrer cette situation. 

 

 

Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles

pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées. 



Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans 

le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique 

que le site est bien encodé en  UTF-8. 



Une vérification manuelle du charset a été effectuée sur certains sites. Pour la plupart c’eest du l’UTF-8 

y est déclaré. 

Sachant que cela n’est pas complètement révélateur, Nous avons ensuite vérifié le fichier aspiré en format 

txt sur l'éditeur hexadécimal et en analysant les octets on a pu aussi affirmer qu’il s’agissait bien d’UTF. 


Une autre vérification a été faite sur le fichier txt : sur la console à l’aide de la commande file. Nous avons

 obtenu comme résultat ceci. 



Ce qui nous a paru étonnant c'est qu'en tapant la commande less utf8_1-3.txt sur le terminal on obtient un 

rendu presque net. On y voit que le texte s’affiche avec un seul erreur qui correspond à “à”

 

 

Nous nous sommes dit que peut-être il n’y avait aucun problème, que c’était l’éditeur de texte qui 

n’était pas performant. En essayant d’ouvrir le texte avec d’autres éditeurs, c’était toujours un affichage comme celui-ci:

 


En l’ouvrant sur l’éditeur de texte Brackets, il a reconnu l'encodage du texte comme étant du 

Windows-1252. On a cru qu’en utilisant l’option iconv on parviendrait à une solution :  iconv -f 

WINDOWS-1252 -t UTF-8 utf8_1-3.txt. Mais, en fait non, cette erreur s’affiche dans le Terminale.  



Finalement, Nous tenons à préciser un autre phénomène qui nous surprend, lorsqu'on ouvre le fichier 

contexte2.html (fichier html qui contient les contextes extraits par minigrep-multilingue) ainsi que les 

bigrams et les index qui sont créés à partir du DUMP des sites aspirés, aucun soucis d’encodage n’y est 

repéré, les résultats semblent bien encodés. 






Un message à été envoyé à Madame Moreaux, professeure du cours de Gestion Informatique du

 Multilinguisme qui nous a gentiment aidé. Voici sa réponse.  


J'ai fait la manip (aspiration, puis dump)  sur Ubuntu installé dans une

machine virtuelle : aucun problème.


Sur MacOS, la manip produit les mêmes problèmes que ceux que vous

décrivez : aspiration (curl) fonctionne correctement, le problème vient

avec la version de lynx sur MacOS qui semble ne savoir interpréter

certains octets.


Pour m'en convaincre, j'ai aspiré la page sur MacOs, puis je l'ai dumpée

sur Ubuntu : pas de problème.


Malheureusement, pour l'instant je ne vois pas vraiment comment corriger

le bug du lynx de MacOs.


Cordialement,


M-Anne Moreaux.

 

Tous comptes faits, ce souci d'encodage n’a été identifié que sur certaines URLs et est dû principalement

 à la version Lynx utilisée sur MacOS. Les rendus bizarres, qui pourraient polluer notre corpus DUMP

 concaténé, ont été modifiés à l’aide du rechercher/remplacer de notre éditeur de texte sans problème. 

Commentaires

Posts les plus consultés de ce blog

Session 1

  Projet Encadré TAL La vie Multilingue des élèves de TAL en TAL Préambule La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines. Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet :  "La vie multilingue des mots sur le web" . Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faud

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au

Script Fonctionnel

  C’est avec grande joie que nous postons cette entrée, en effet on arrive à avoir un script fonctionnel qui répond à la plupart des soucis qu’on a trouvés tout au long de notre projet.  On dit de la joie,  parce que pour nous trois, n’ayant pas de fortes bases informatiques, arriver à  comprendre comment ce script fonctionne et pouvoir y ajouter ou supprimer des choses a demandé des heures et des heures de réflexion, on se réjouit donc d’arriver à ce stade du projet.   Si jamais les personnes des promotions à venir lisent cette entrée, il est important de donner un message  qui rassure. Ce Master est formidable, on apprend énormément de choses.  Cependant on est vite  confrontés à beaucoup de nouvelles informations. Vous allez vivre une montagne russe d’émotions :  de l' incompréhension au désespoir, la tristesse puis la fierté. Ne désespérez pas s’il y a des moments de  détresse, avec de la détermination et en y consacrant du temps vous allez parvenir à comprendre et à faire  tou