Accéder au contenu principal

Script Fonctionnel

 

C’est avec grande joie que nous postons cette entrée, en effet on arrive à avoir un script fonctionnel

qui répond à la plupart des soucis qu’on a trouvés tout au long de notre projet. 


On dit de la joie,  parce que pour nous trois, n’ayant pas de fortes bases informatiques, arriver à 

comprendre comment ce script fonctionne et pouvoir y ajouter ou supprimer des choses a demandé des

heures et des heures de réflexion, on se réjouit donc d’arriver à ce stade du projet.

 

Si jamais les personnes des promotions à venir lisent cette entrée, il est important de donner un message 

qui rassure. Ce Master est formidable, on apprend énormément de choses.  Cependant on est vite 

confrontés à beaucoup de nouvelles informations. Vous allez vivre une montagne russe d’émotions : 

de l' incompréhension au désespoir, la tristesse puis la fierté. Ne désespérez pas s’il y a des moments de 

détresse, avec de la détermination et en y consacrant du temps vous allez parvenir à comprendre et à faire 

tout ce qui est demandé. Voyez ! on y est presque ! 


Dans cette entrée nous allons montrer le script que nous avons travaillé tout au long du semestre pour notre projet 

  


Dans cette première partie nous établissons les fonctions pour les dossiers des URL, pour créer le tableau et pour reconnaître notre motif. 


Le premier traitement correspond au fichier URL, pour chaque fichier nous créons un tableau pour les URL’s


Voici quelques captures d’écran des tableaux en espagnol et en français.





Dans cette boucle while on traite nos URL, on met chacune sur  une ligne et à l’aide de la commande curl on vérifie la valeur http_code.




Ensuite, si l'encodage de l’URL est de l’UTF-8 on fait les traitements pour l’obtention de notre corpus.

 


1-  On aspire les contenus de nos URL avec la commande Lynx et on les garde dans notre répertoire PAGES ASPIRÉES en format html, et dans le répertoire DUMP-TEXT.

2-  On compte les motifs. 

3- Dans cette partie on extrait les contextes réduits au motif. Pour cela nous allons utiliser le programme minigrep. (voir l'entrée minigrep pour plus de précisions)

4- On créer les index hiérarchique de chaque DUMP. (pour plus d’infos concernant la création des index consultez les entrées précédentes.)

5- Calcul de bigrammes ( pour plus d’infos concernant la création des bigrammes, trigrammes, fourgrammes...etc,  consultez les entrées précédentes


Dans un premier temps, on pensait que le script pourrait s'arrêter ici. Quand on le lançait dans le terminal, 

il fonctionnait  bien et toutes les informations étaient aspirées. Cependant, on s’est vite aperçu qu’il y avait certaines URL qui n'étaient pas encodées en UTF-8 et par conséquent des mauvais rendus 

s’affichaient sur notre tableau et sur nos fichiers DUMP.


Pour remédier à cela, un autre traitement a été intégré : 



Si l’encodage identifié par l’option curl n’est pas UTF-8 on va le convertir en utilisant l’option bash iconv. 


Cette option est très utile, pour l’utiliser sur un fichier vous tapez : 

 iconv -f  [fichier1] -t [fichier2]  (f=from t= to) iconv -l pour afficher la liste d’encodages disponibles


Ensuite, on fait les 5 traitements évoqués précédemment. 


C’est fini ? pas encore. Il se peut que, même en ayant utilisé l’option curl et modifié avec  iconv, il y ait 

encore de sites avec des encodages non reconnus. Une autre option s’avère donc efficace pour y remédier :  Perl.


Pour que ce traitement intégré au script fonctionne, il est nécessaire de télécharger le programme detect 

encoding et de le placer dans le répertoire PROGRAMMES.


Avec cette partie de script on pourra identifier l’encodage de l’URL et faire le traitement correspondant 

avec iconv. 


Quelques précisions seront ajoutées concernant le script utilisé pour traiter les URL en japonais. 

Commentaires

Posts les plus consultés de ce blog

Session 1

  Projet Encadré TAL La vie Multilingue des élèves de TAL en TAL Préambule La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines. Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet :  "La vie multilingue des mots sur le web" . Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faud

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au