Accéder au contenu principal

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher!


Dans cette partie, il sera montré quelques résultats par pair de langue

Nous allons commencer par présenter nos recherches en espagnol, et en français.

Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua".

Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua":

La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés".

Pour le cas de "beso con lengua"

Commande : 

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; counter=$(($counter + 20));done

on obtient donc :

A présent, on cherche à trier ce fichier .txt. Pour ce faire, la commande egrep sera d'une grande aide :

egrep "^  [0-9]+\." url_esp_beso.txt | cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google > esp_juste_url.txt

Voici le résultat :


Pour "beso francés" : 

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=beso+franc%C3%A9s&rlz=1C5CHFA_enFR921FR921&ei=VBSgX8uNCMOMlwTcuqCoDQ&start=$counter&sa=N&ved=2ahUKEwjLh8PxheTsAhVDxoUKHVwdCNUQ8tMDegQIBBA0&biw=1200&bih=707">> beso_frances_url.txt; counter=$(($counter + 20));done

Voilà la liste des URLs obtenue :


Passons donc aux URLs pour la version française du mot. Notre mot, comme vous le savez, c’est “french kiss”. Nous avons également trouvé un équivalent  en français “galocher”. Même si ce n’est pas exactement la même signification, puisque ce mot provient d’un registre plus oral et donc informel. Nous trouvons ça tout de même intéressant d’en obtenir les URLs. Cela pourrait en effet enrichir notre corpus. Par ailleurs, il est intéressant de noter que le terme "french kiss" n'existe pas de façon formel dans les dictionnaires français, et la seule équivalence trouvée, se trouvait dans le dictionnaire en ligne du Petit Robert.

D’autre part, nous nous sommes aussi intéressés au terme Frencher. Mot utilisé dans la province de Québec au Canada. 


Pour French Kiss:

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=french+kiss&rlz=1C5CHFA_enFR921FR921&ei=WBugX8-KMPWJjLsPhLy9uAY&start=$counter&sa=N&ved=2ahUKEwjPlp7KjOTsAhX1BGMBHQReD2cQ8tMDegQIDhA0&biw=1200&bih=707">> french_kiss_url.txt; counter=$(($counter + 20));done


Voici la liste de commandes.



et les résultats :



Pour Galocher :

Liste de commandes :
Liste des URLs :

Dernier Script du 18.11.2020


Dans le dernier script nous avons ajouté des commandes qui nous permettront d’obtenir les bi-grams, tri-gram- four-grams dont nous avons  besoin pour notre analyse. 


Cependant, il est important de connaître d'où vient cette information, que notre script obtient, bel et bien automatiquement.


Pour cela, nous allons encore une fois avoir recours aux commandes apprises lors du cours Corpus linguistics (petit wink à Monsieur Daube) combinés à celles qu’on trouve dans le site Projet encadré - Code in progress et animé.  http://www.tal.univ-paris3.fr/plurital/cours/PPE/SITE-PROJET-WIP/index.html

Allons- y. 


Le site internet nous montre comment le faire avec une des pages aspirées. Cependant, pour nous c’est plus pertinent de le faire avec le corpus en entier que nous obtenons à l’aide de commandes suivantes (rappel)


J’obtiens mes URLs:

counter=0; while [ $counter -le 300 ]; do lynx -dump "URL" >> url_french_kiss.txt; counter=$(($counter + 20));done


Je les nettoie :

egrep "^  [0-9]+\." url_french_kiss.txt| cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google > liste_url_french_kiss.txt








Commentaires

Posts les plus consultés de ce blog

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan