Accéder au contenu principal

Minigrep

 

Minigrep permet d’obtenir le contexte du mot en affichant la ligne avant et après du mot recherché . 



On a décidé de créer cette entré, car nous avons rencontré quelques inconvénients pour le faire fonctionner

 correctement En effet, lorsqu'on faisait tourner notre script cette erreur s’affichait.


 Après avoir consulté M. Fleury.  Nous sommes parvenus à trouver une solution. Ci-dessous, un résumé 

des recommandations reçues. 


1. Pour que ce programme fonctionne bien dans cette configuration il faut installer une bibliothèque Perl 

utilisée et nécessaire pour ce script. c'est la bibliothèque Unicode::String,


Or cette bibliothèque n'était pas installée sur la machine d'où le message d'erreur que l'on voyait. Pour y 

remédier il faut l’installer. Pour ceux qui ont un Mac il faut se placer dans dans le terminal et taper la commande suivante :


     sudo cpan install Unicode::String


sudo : pour lancer cette commande en mode Administrateur : on  doit  donner le mot de passe

cpan : c'est le gestionnaire de bibliothèque Perl, à qui on demande d'installer une bibliothèque


Une autre précision à prendre en compte: : Pour l’utilisation de minigrep vérifiez bien que le nom des 

fichiers contenus dans le répertoire minigrip soit le même que vous écrivez sur le script. C’était bête mais 

nous avons passé du temps à retrouver cette pépite. Sur le script était indiqué motif.txt tandis que sur le 

dossier était écrit motif-2020-txt. 


C’est l'occasion pour parler des motifs. Pour que minigrep soit le plus “gourmand” possible et on ait accès

au maximum de contextes il est conseillé de bien l’exprimer en regex ( expressions régulières) 

Français : "[Ff]rench[\s][Kk]iss?"|[Ff]rench[\s][Kk]iss?

Espagnol : [Bb]eso[s][\s]con[\s][Ll]engua? | [Bb]eso[s][\s]de[\s][Ll]engua?

Turc : [Oo]pucugu?|[Ff]ransız? [Öö]pücüğü?

Anglais : [Ff]rench? [Kk]iss?|[Ff]ransiz?

Japonais :

Commentaires

Posts les plus consultés de ce blog

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher! Dans cette partie, il sera montré quelques résultats par pair de langue Nous allons commencer par présenter nos recherches en espagnol, et en français. Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua". Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua": La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés". Pour le cas de "beso con lengua" Commande :  counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; coun

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan