Après avoir vu la récupération des URLs pour l'espagnol et le français, on s'attaque maintenant à la constitution du corpus côté Anglophone et turcophone.
A noter que la version anglophone de French kiss restera bien évidemment French kiss, et que la version turc sera : "Fransız öpücüğü".
Démonstration :
Comme pour la langue espagnole et française, on commence par extraire les URLs sur le terminale de ubuntu.
Récolte des URLs Anglais :
counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=%22french+kiss%22&lr=lang_en&cr=countryUK%7CcountryGB&hl=en&as_qdr=all&tbs=lr:lang_1en,ctr:countryUK%7CcountryGB&sxsrf=ALeKk035znO7MnlS20oHUA1OFucKsI-3uA:1607455178745&ei=ytHPX_b6LMWIae7TqbAG&start=$counter&sa=N&ved=2ahUKEwj2h6-Xjb_tAhVFRBoKHe5pCmYQ8tMDegQIDhA7" >> uk_urls.txt; counter=$(($counter + 20));done
//!\\ On fait bien attention de changer le "start=10" en "start=$counter".
Remarque: On se concentre uniquement sur la récolte d'URLs du côté des anglophones d'outre Manche (je parle bien évidemment de l'anglais Britannique). C'est déjà assez éloigné comme ça, haha. De plus, on tiendra aussi en compte le fait que la version "vulgarisée" de French kiss est "to make out" du côté de nos voisins Etats-Uniens. Personne ne dirait d'après des natifs anglais américains "I'm going to French kiss you" mais plus "Let's make (it) out!".
Petite session nettoyage à présent :
C'est bien entendu la commande egrep qui nous désert :
egrep "^ [0-9]+\." uk_urls.txt | cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google | egrep -v jpg | egrep -v jpeg | egrep -v youtube |egrep -v wav | egrep -v width | egrep -v dictionary > try_uk.txt
mv try_uk.txt english_urls.txt
On obtient ainsi les données suivantes :
Tout cela n'a pas l'air si mauvais... On verra pour la création du tableau par la suite.
En attendant, on va s'attaquer à la récolte des URLs pour la notre corpus turc.
Récolte des URLs pour le corpus en turc
C'est partie, on recommence la récolte avec la commande $counter :
egrep "^ [0-9]+\." tr_urls.txt | cut -d"=" -f2 | cut -d"&" -f1 | egrep "^http[s]?" | egrep -v google | egrep -v sözlük | egrep -v jpg | egrep -v jpeg | egrep -v wav | egrep -v width | egrep -v youtube | egrep -v facebook | egrep -v photos > turkish_urls.txt
Commentaires
Enregistrer un commentaire