Accéder au contenu principal

Script final, ou presque..

 

SCRIPT

 

Avant de montrer ce scritp qui a été paufiné toute au long du sémestre, il est important de remarquer que même si celui-ci est un pe

Nous sommes parvenus à avoir un scritp qui fonctionne bien pour presque toutes nos langues. Il y a des modification dans celui du japonais, mais pour l'anglais, l'espagnol, le français et le turc celui-ci fonctionne bien.

Dans cette entrée nous allons montrer le script que nous avons travaillé tout au long du semestre pour notre projet 

  


Dans cette première partie nous établissons les fonctions pour les dossiers des URL, pour créer le tableau et pour reconnaître notre motif. 


Le premier traitement correspond au fichier URL, pour chaque fichier nous créons un tableau pour les URL’s

Ici quelques captures d’écran des tableaux en français et en espagnol.



Dans cette boucle while on traite nos URL, on met chacune sur  une ligne et à l’aide de la commande curl on vérifie la valeur http_code.




Ensuite, si l'encodage de l’URL est de l’UTF-8 on fait les traitements pour l’obtention de notre corpus.


1-  On aspire les contenus de nos URL avec la commande Lynx et on les garde dans notre répertoire PAGES ASPIRÉES en format html, et dans le répertoire DUMP-TEXT.

2-  On compte les motifs

3- Dans cette partie on extrait les contextes réduits au motif. Pour cela nous allons utiliser le programme minigrep. (voir l'entrée minigrep pour plus de précisions)

4- On créer les index hiérarchique de chaque DUMP. (pour plus d’infos concernant la création des index consultez les entrées précédentes.)

5- Calcul de bigrammes ( pour plus d’infos concernant la création des bigrammes, trigrammes, fourgrammes...etc,  consultez les entrées précédentes


Dans un premier temps, on pensait que le script pourrait s'arrêter ici. Quand on le lançait dans le terminal, il fonctionnait  bien et toutes les informations étaient aspirées. Cependant, on s’est vite aperçu qu’il y avait certaines URL qui n'étaient pas encodé en UTF-8 et par conséquent des mauvais rendus sur notre tableau et sur nos fichiers DUMP.


Pour remédier à cela, un autre traitement a été intégré : 



Si l’encodage identifié par l’option curl n’est pas UTF-8 on va le convertir en utilisant l’option bash iconv. 


Cette option est très utile, pour l’utiliser sur un fichier vous tapez : 

 iconv -f  [fichier1] -t [fichier2]  (f=from t= to) iconv -l pour afficher la liste d’encodages disponibles. 


Ensuite, on fait les 4 traitements évoqués précédemment. 


C’est fini ? pas encore. Il se peut que, même en ayant utilisé l’option curl et modifié avec  iconv, il y ait encore de sites avec des encodages non reconnus. Une autre option s’avère donc efficace pour y remédier :  Perl


Pour que ce traitement, intégré au script, fonctionne, il  est nécessaire de télécharger l’option detect encoding et la placer dans le répertoire PROGRAMMES.


Avec cette partie de script on pourra identifier le encodage de l’URL et faire le traitement correspondant avec iconv. 


Quelques précisions seront apportées ultérieurement par rapport au script utilisé pour traiter les URL en japonais. 

Commentaires

Posts les plus consultés de ce blog

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au...

Itrameur - Analyse textométrique.

  Itrameur Dans cette entrée nous partagerons nos commentaires sur la prise en main de l’outil Itrameur. Nous avons intégré le corpus et vérifié que la segmentation était bien définie par les balises du corpus. les  rectangles ne se croisent pas et toutes les parties semblent y être.  Après avoir importé le corpus dans le logiciel, nous nous sommes rendus compte que l’analyse était faite mot par mot et que dans notre cas (french kiss) on avait deux mots, voire trois en espagnol. Que  faire ? La solution a été de remplacer les occurrences des mots french kiss, French Kiss, “French Kiss” “french kiss” en un seul mot : french_kiss . Même traitement pour l’espagnol et le turc    beso_con_lengua , fransız_öpücüğü. cela  a bien fonctionné.  Dans un premier temps on s’est intéressés à l’indice de fréquence  du mot dans notre corpus. On  apprend qu’il y a 255 occurrences.  Ensuite on s’est intéressé aux cooccurrences du mot. Ce tableau nous...

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8....