Accéder au contenu principal

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher!


Dans cette partie, il sera montré quelques résultats par pair de langue

Nous allons commencer par présenter nos recherches en espagnol, et en français.

Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua".

Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua":

La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés".

Pour le cas de "beso con lengua"

Commande : 

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; counter=$(($counter + 20));done

on obtient donc :

A présent, on cherche à trier ce fichier .txt. Pour ce faire, la commande egrep sera d'une grande aide :

egrep "^  [0-9]+\." url_esp_beso.txt | cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google > esp_juste_url.txt

Voici le résultat :


Pour "beso francés" : 

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=beso+franc%C3%A9s&rlz=1C5CHFA_enFR921FR921&ei=VBSgX8uNCMOMlwTcuqCoDQ&start=$counter&sa=N&ved=2ahUKEwjLh8PxheTsAhVDxoUKHVwdCNUQ8tMDegQIBBA0&biw=1200&bih=707">> beso_frances_url.txt; counter=$(($counter + 20));done

Voilà la liste des URLs obtenue :


Passons donc aux URLs pour la version française du mot. Notre mot, comme vous le savez, c’est “french kiss”. Nous avons également trouvé un équivalent  en français “galocher”. Même si ce n’est pas exactement la même signification, puisque ce mot provient d’un registre plus oral et donc informel. Nous trouvons ça tout de même intéressant d’en obtenir les URLs. Cela pourrait en effet enrichir notre corpus. Par ailleurs, il est intéressant de noter que le terme "french kiss" n'existe pas de façon formel dans les dictionnaires français, et la seule équivalence trouvée, se trouvait dans le dictionnaire en ligne du Petit Robert.

D’autre part, nous nous sommes aussi intéressés au terme Frencher. Mot utilisé dans la province de Québec au Canada. 


Pour French Kiss:

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=french+kiss&rlz=1C5CHFA_enFR921FR921&ei=WBugX8-KMPWJjLsPhLy9uAY&start=$counter&sa=N&ved=2ahUKEwjPlp7KjOTsAhX1BGMBHQReD2cQ8tMDegQIDhA0&biw=1200&bih=707">> french_kiss_url.txt; counter=$(($counter + 20));done


Voici la liste de commandes.



et les résultats :



Pour Galocher :

Liste de commandes :
Liste des URLs :

Dernier Script du 18.11.2020


Dans le dernier script nous avons ajouté des commandes qui nous permettront d’obtenir les bi-grams, tri-gram- four-grams dont nous avons  besoin pour notre analyse. 


Cependant, il est important de connaître d'où vient cette information, que notre script obtient, bel et bien automatiquement.


Pour cela, nous allons encore une fois avoir recours aux commandes apprises lors du cours Corpus linguistics (petit wink à Monsieur Daube) combinés à celles qu’on trouve dans le site Projet encadré - Code in progress et animé.  http://www.tal.univ-paris3.fr/plurital/cours/PPE/SITE-PROJET-WIP/index.html

Allons- y. 


Le site internet nous montre comment le faire avec une des pages aspirées. Cependant, pour nous c’est plus pertinent de le faire avec le corpus en entier que nous obtenons à l’aide de commandes suivantes (rappel)


J’obtiens mes URLs:

counter=0; while [ $counter -le 300 ]; do lynx -dump "URL" >> url_french_kiss.txt; counter=$(($counter + 20));done


Je les nettoie :

egrep "^  [0-9]+\." url_french_kiss.txt| cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google > liste_url_french_kiss.txt








Commentaires

Posts les plus consultés de ce blog

Session 1

  Projet Encadré TAL La vie Multilingue des élèves de TAL en TAL Préambule La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines. Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet :  "La vie multilingue des mots sur le web" . Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faud

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au

Script Fonctionnel

  C’est avec grande joie que nous postons cette entrée, en effet on arrive à avoir un script fonctionnel qui répond à la plupart des soucis qu’on a trouvés tout au long de notre projet.  On dit de la joie,  parce que pour nous trois, n’ayant pas de fortes bases informatiques, arriver à  comprendre comment ce script fonctionne et pouvoir y ajouter ou supprimer des choses a demandé des heures et des heures de réflexion, on se réjouit donc d’arriver à ce stade du projet.   Si jamais les personnes des promotions à venir lisent cette entrée, il est important de donner un message  qui rassure. Ce Master est formidable, on apprend énormément de choses.  Cependant on est vite  confrontés à beaucoup de nouvelles informations. Vous allez vivre une montagne russe d’émotions :  de l' incompréhension au désespoir, la tristesse puis la fierté. Ne désespérez pas s’il y a des moments de  détresse, avec de la détermination et en y consacrant du temps vous allez parvenir à comprendre et à faire  tou