Accéder au contenu principal

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus. 

 

Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir

l’analyser sur Itrameur. 

 

Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus. 

Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier. 

Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.  

 

Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin 

de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande. 


for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done


En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le 

répertoire DUMP avant de la lancer. Même procédure dans le répertoire CONTEXTES.



Nettoyage 

Après la concaténation, il faut penser au nettoyage du corpus.  Il faut que les valises existantes ne 

servent qu’à marquer la transition de chaque fichier. (début et fin de partie). Il est donc important de 

supprimer les valises ou chevrons issus des URLS. On peut le faire avec l’option rechercher et 

 remplacer de votre éditeur de texte. Mais, n'étant pas l’option la plus souhaitable, nous avons 

essayé de le faire avec les commandes bash  sed et tr


Après avoir parcouru notre corpus, on s’est vite aperçu qu’il fallait surtout supprimer les balises 

HTML, les menus, les liens vers d’autres sites, les liens réseaux sociaux, images et vidéos. 


Nous avons utilisé la commande tr -d. Celle- ci nous a permis d’effacer certains mots très fréquents

mais inutiles pour notre analyse. Voici quelques exemples : 


tr -d '(BUTTON)'

tr -d '(IFRAME)'

tr -d '(Facebook)'


Ensuite nous avons fait appel à la commande sed (gsed sur Mac).


  • gsed -r 's/^ *//g' < CORPUS.FR.txt : Supprimer les espaces et les tabulations au début de ligne :

  • gsed -r 's/^\*.*//g' < CORPUS.FR.txt : Supprime les lignes commençant par *, nous avons fait la même pour les symboles “+” et “ ०”


Vous visualisez les modifications faites par sed sur l’écran pour ne pas modifier le fichier, pensez à 

en créer un nouveau fichier si le résultat vous convient.  


Cela fonctionne bien mais en parcourant notre corpus on s’est rendu compte que certaines de lignes 

qui commencent par “*” comportent des  phrases avec le motif recherché.


Après ces quelques petites commandes il restait encore des morceaux de menus, des liens vers 

d’autres URLs, des liens des images, etc.. Nous avons donc décidé de terminer notre nettoyage 

à la main. Ce n’est pas remarquable, mais au moins nous avons pu mieux nettoyer le corpus. 


PS: Quand vous modifiez des fichiers il est recommandé de créer un fichier de backup au cas où. 

Commentaires

Posts les plus consultés de ce blog

Session 1

  Projet Encadré TAL La vie Multilingue des élèves de TAL en TAL Préambule La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines. Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet :  "La vie multilingue des mots sur le web" . Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faud

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au

Script Fonctionnel

  C’est avec grande joie que nous postons cette entrée, en effet on arrive à avoir un script fonctionnel qui répond à la plupart des soucis qu’on a trouvés tout au long de notre projet.  On dit de la joie,  parce que pour nous trois, n’ayant pas de fortes bases informatiques, arriver à  comprendre comment ce script fonctionne et pouvoir y ajouter ou supprimer des choses a demandé des heures et des heures de réflexion, on se réjouit donc d’arriver à ce stade du projet.   Si jamais les personnes des promotions à venir lisent cette entrée, il est important de donner un message  qui rassure. Ce Master est formidable, on apprend énormément de choses.  Cependant on est vite  confrontés à beaucoup de nouvelles informations. Vous allez vivre une montagne russe d’émotions :  de l' incompréhension au désespoir, la tristesse puis la fierté. Ne désespérez pas s’il y a des moments de  détresse, avec de la détermination et en y consacrant du temps vous allez parvenir à comprendre et à faire  tou