Accéder au contenu principal

Session 3 partie a

 Présentation des outils BASH. Outils pour récupérer des URL. 

Pour cette session, nous ferons le point sur notre outil Principal, à savoir BASH et Shell, ainsi que les premières formation de notre corpus multilingue !

L'outil Bash...

Un des objectifs du cours étant de construire des programmes capables de “manger des données” le recours aux outils de programmation deviennent incontournables.

Pour apprendre à programmer il faut réfléchir à comment utiliser un programme pour faire ce qui est demandé. Langage BASH sur UNIX sera donc privilégié tout au long du projet.


LA VIE DES MOTS SUR LE WEB CADRE LINGUISTIQUE.

Quant aux outils linguistiques pour notre projets la Lecture de Tour du monde des concepts (Legendre 2013). est fortement conseillé. 

Après cette séance j’ai parcouru l'espace de la classe sur icampus. Ayant très peu de connaissance en BASH j’ai pu tout simplement préparer l'environnement du projet. Sur le terminal j’ai pu utiliser des commandes simples tel que “cd” “ls” “mkdir”.


Nous nous somme donc attaqué directement aux outils Unix. Une liste de commandes a été étudié (voir liste ci-dessous) 

LS = list show 

ls + tab = montre l’arborescence-

ls / = montre les ressources dans le dossier.

ls / mnt / c = montrer ce qui est dans le disque C

cd = spécifier l’endroit où on doit aller. ex= cd library, cd desktop

Chemin absolu=/home/serge= (si commence par / ceci est un chemin absolu, c’est à dire on accède directement en tapant toute les commandes ex =cd ls/home/serge tex-readable

Chemin relatif = Contrairement au chemin absolu, ici on peut accéder à ce qui est avant car on le fait pas par par.

cd /serge/ = on part du répertoire courant pour aller à “Serge”

cat ( pour importer le fichier sur le terminal)

cat (nom de fichier)

less : less “ la mort des amants” / c’est une commande d’édition.

NE JAMAIS METTRE D’ESPACES OU D’ACCENTS SUR LE NOM DE FICHIER.

man ls (manuel pour la commande)

ls --colour

ls -a (fichier cachés) .. … (les points représentent les répertoire parent et le répertoire père)

ls -l = affichage en ligne ( c’est important pour avoir le premier caractère) d = répertoire   / -= rwx (read write execute) 

ls -la = montre la liste des dossier 

cat -e = montre tous les caractères du fichier / caractères cachés

wc = (world cam) quantification du fichier #lignes  #mots  #bites = bien pour compte les lignes / bites mais pas les caractères.

echo = permet d’écrire  à l’écran 

echo “bonjour”>  toto.txt  le > permet de l’envoyer dans un fichier 

echo “je m’appelle Oscar” >> toto.txt = cela concatène avec ce qui a été écrit. sinon cela écrase celui qui était avant.

less “toto.txt” pour rouvrir le doc.

| (pipe) va prendre le résultat de la commande et l’envoie à une autre commande. Ainsi on peut empiler la commande. 

pwd | wc

tr = transformer la chaine 

head “amants” = affiche le début d’un fichier. 

tail “amants”  = la fin de fichier. 

sort -r = “amants” fait au tri décroissant des lignes. 

rmdir - f  0(force to close)

mkdir = créer un répertoire = mkdir JMD /JMD

rmdir = supprimer le répertoire.  rmdir JMD /JMD


Nous avons donc testé ces commandes sur votre terminal à l’aide du texte “amants”. Voici quelques exemples: wc “filename”. Dans mon Mac  il n’est pas nécessaire de mettre les guillemets cependant cela change en fonction de votre machine.


la fonction wc permet d’afficher le nombre de lignes, mots et caractère qui comportent le texte. Il y d’autres options. wc -c pour compter le bytes. wc -l compte les linges, wc -w compte les mots.


pour afficher les permission d’un fichier  nous utilison ls -l amants



Partie pratique :

Après avoir fait l'exercice proposé dans la fiche de classe, nous avons vu de nouvelles commandes tels que :

- touch = créer des fichiers vides. touch "nom de fichier" - echo = permet d'afficher une chaîne de caractères à l'écran ou dans un fichier echo "Oscar Moreno" > videl et double ">>" pour ajouter au fichier. Si nous laissions un ">" cela effacerait, ou écraserait ce qui était déjà écrit, bien que la nouvelle source serait en effet visible.

echo "french_kiss" >> videl - cd .. ou cd = pour revenir au directory - mv = permet de déplacer ou de renommer un fichier. mv videl jenesuisplusvide - cp = pour copier un fichier cp jenesuisplusvide TEST2

Du coup, grâce à tout cela, il nous faut bien récolter les 50 urls (par langues bien sûre): pour cela, nous allons faire le lien entre les notions vu en Corpus Linguistic en anglais où nous avons appris à récupérer des urls à l'aide des outils wget et lynx. Lynx est un programme destiné à des personnes aveugles qui permet de récupérer le texte inscrit sur une page web. On utilise lynx car contrairement à wget on peut obtenor le contenu d'une page google au format texte.

Commentaires

Posts les plus consultés de ce blog

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher! Dans cette partie, il sera montré quelques résultats par pair de langue Nous allons commencer par présenter nos recherches en espagnol, et en français. Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua". Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua": La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés". Pour le cas de "beso con lengua" Commande :  counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; coun

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan