Accéder au contenu principal

Session 4 partie b: Let's Make Out now

 Après avoir vu la récupération des URLs pour l'espagnol et le français, on s'attaque maintenant à la constitution du corpus côté Anglophone et turcophone.

A noter que la version anglophone de French kiss restera bien évidemment French kiss, et que la version turc sera : "Fransız öpücüğü".

Démonstration :

Comme pour la langue espagnole et française, on commence par extraire les URLs sur le terminale de ubuntu.

Récolte des URLs Anglais :

La commande utilisée pour y procéder :

counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=%22french+kiss%22&lr=lang_en&cr=countryUK%7CcountryGB&hl=en&as_qdr=all&tbs=lr:lang_1en,ctr:countryUK%7CcountryGB&sxsrf=ALeKk035znO7MnlS20oHUA1OFucKsI-3uA:1607455178745&ei=ytHPX_b6LMWIae7TqbAG&start=$counter&sa=N&ved=2ahUKEwj2h6-Xjb_tAhVFRBoKHe5pCmYQ8tMDegQIDhA7" >> uk_urls.txt; counter=$(($counter + 20));done

//!\\ On fait bien attention de changer le "start=10" en "start=$counter". 

Remarque: On se concentre uniquement sur la récolte d'URLs du côté des anglophones d'outre Manche (je parle bien évidemment de l'anglais Britannique). C'est déjà assez éloigné comme ça, haha. De plus, on tiendra aussi en compte le fait que la version "vulgarisée" de French kiss est "to make out" du côté de nos voisins Etats-Uniens. Personne ne dirait d'après des natifs anglais américains "I'm going to French kiss you" mais plus "Let's make (it) out!".

Petite session nettoyage à présent :


C'est bien entendu la commande egrep qui nous désert :

egrep "^  [0-9]+\." uk_urls.txt | cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google | egrep -v jpg | egrep -v jpeg | egrep -v youtube |egrep -v wav | egrep -v width | egrep -v dictionary > try_uk.txt

mv try_uk.txt english_urls.txt

On obtient ainsi les données suivantes :


Tout cela n'a pas l'air si mauvais... On verra pour la création du tableau par la suite.

En attendant, on va s'attaquer à la récolte des URLs pour la notre corpus turc.

Récolte des URLs pour le corpus en turc

C'est partie, on recommence la récolte avec la commande $counter :


On passe maintenant au nettoyage et triage des URLs, toujours avec egrep :

egrep "^  [0-9]+\." tr_urls.txt | cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google | egrep -v sözlük | egrep -v jpg | egrep -v jpeg | egrep -v wav | egrep -v width | egrep -v youtube | egrep -v facebook | egrep -v photos > turkish_urls.txt 

Résultat :


Commentaires

Posts les plus consultés de ce blog

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au...

Itrameur - Analyse textométrique.

  Itrameur Dans cette entrée nous partagerons nos commentaires sur la prise en main de l’outil Itrameur. Nous avons intégré le corpus et vérifié que la segmentation était bien définie par les balises du corpus. les  rectangles ne se croisent pas et toutes les parties semblent y être.  Après avoir importé le corpus dans le logiciel, nous nous sommes rendus compte que l’analyse était faite mot par mot et que dans notre cas (french kiss) on avait deux mots, voire trois en espagnol. Que  faire ? La solution a été de remplacer les occurrences des mots french kiss, French Kiss, “French Kiss” “french kiss” en un seul mot : french_kiss . Même traitement pour l’espagnol et le turc    beso_con_lengua , fransız_öpücüğü. cela  a bien fonctionné.  Dans un premier temps on s’est intéressés à l’indice de fréquence  du mot dans notre corpus. On  apprend qu’il y a 255 occurrences.  Ensuite on s’est intéressé aux cooccurrences du mot. Ce tableau nous...

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8....