Accéder au contenu principal

Articles

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Itrameur - Analyse textométrique.

  Itrameur Dans cette entrée nous partagerons nos commentaires sur la prise en main de l’outil Itrameur. Nous avons intégré le corpus et vérifié que la segmentation était bien définie par les balises du corpus. les  rectangles ne se croisent pas et toutes les parties semblent y être.  Après avoir importé le corpus dans le logiciel, nous nous sommes rendus compte que l’analyse était faite mot par mot et que dans notre cas (french kiss) on avait deux mots, voire trois en espagnol. Que  faire ? La solution a été de remplacer les occurrences des mots french kiss, French Kiss, “French Kiss” “french kiss” en un seul mot : french_kiss . Même traitement pour l’espagnol et le turc    beso_con_lengua , fransız_öpücüğü. cela  a bien fonctionné.  Dans un premier temps on s’est intéressés à l’indice de fréquence  du mot dans notre corpus. On  apprend qu’il y a 255 occurrences.  Ensuite on s’est intéressé aux cooccurrences du mot. Ce tableau nous montre un premier résultat.   On voit qu’il y a des m

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan

Minigrep

  Minigrep permet d’obtenir le contexte du mot en affichant la ligne avant et après du mot recherché .  On a décidé de créer cette entré, car nous avons rencontré quelques inconvénients pour le faire fonctionner  correctement En effet, lorsqu'on faisait tourner notre script cette erreur s’affichait.  Après avoir consulté M. Fleury.  Nous sommes parvenus à trouver une solution. Ci-dessous, un résumé  des recommandations reçues.  1. Pour que ce programme fonctionne bien dans cette configuration il faut installer une bibliothèque Perl  utilisée et nécessaire pour ce script. c'est la bibliothèque Unicode::String, Or cette bibliothèque n'était pas installée sur la machine d'où le message d'erreur que l'on voyait. Pour y  remédier il faut l’installer. Pour ceux qui ont un Mac il faut se placer dans dans le terminal et taper la commande suivante :       sudo cpan install Unicode::String sudo : pour lancer cette commande en mode Administrateur : on  doit  donner le mot

Script Fonctionnel

  C’est avec grande joie que nous postons cette entrée, en effet on arrive à avoir un script fonctionnel qui répond à la plupart des soucis qu’on a trouvés tout au long de notre projet.  On dit de la joie,  parce que pour nous trois, n’ayant pas de fortes bases informatiques, arriver à  comprendre comment ce script fonctionne et pouvoir y ajouter ou supprimer des choses a demandé des heures et des heures de réflexion, on se réjouit donc d’arriver à ce stade du projet.   Si jamais les personnes des promotions à venir lisent cette entrée, il est important de donner un message  qui rassure. Ce Master est formidable, on apprend énormément de choses.  Cependant on est vite  confrontés à beaucoup de nouvelles informations. Vous allez vivre une montagne russe d’émotions :  de l' incompréhension au désespoir, la tristesse puis la fierté. Ne désespérez pas s’il y a des moments de  détresse, avec de la détermination et en y consacrant du temps vous allez parvenir à comprendre et à faire  tou