Accéder au contenu principal

Session 2

 Projet Encadré TAL


Pour ce cours, il est choisi la mise en application d’une variété large des savoirs et pratiques à acquérir du domaine du TAL (ou Traitement Automatisé des Langues). En effet, dans le cadre de l’apprentissage du TAL en contexte, il nous est demandé de traiter le thème qui en est en adéquation, qui plus est : « La vie multilingue des mots sur le web ». En effet, à travers ce thème, il sera possible de mettre en place les bons outils quant au traitement de textes, à caractère automatique. Pour cela, le but est de récupérer des données, basé sur un mot. Le mot est à rechercher dans le cœur même du thème, qui n’est autre que le « web », analyser ce dernier dans sa biosphère propre, jusqu’à pouvoir le présenter, dans son environnement et d’un point de vue linguistique.

Ceci étant dit, il nous faut donc atteindre certains objectif, que ce soit en linguistique ou en programmation informatique.

Il est rappelé qu’il faut la mise en page, visible :

  •        D’une lexicologie
  •         La recherche d’information
  •         Et enfin la traduction du mot dans un certain nombre de langues prédéfinit, et cité plus bas.

De ce fait, afin de réaliser les objectifs linguistique, il est impératif d’appliquer des méthodes et outils informatiques, tels que :·         Récupération de corpus (via wget)

  • ·         Normalisation des textes
  • ·         Segmentation
  • ·         Etiquetage
  • ·         Extraction
  • ·         Structuration et présentation des résultats --> le but étant d’évaluer les résultats obtenus d’un œil qualitatif mais aussi quantitatif

Ainsi, pour ce projet, il a été décidé de travailler sur le mot « French Kiss », en six langues différentes et, par groupe de 3 qui est composé de :

  • ·         Yagmur Ozturk, qui s’occupera de la version anglaise et turque de « French Kiss » ;
  • ·         Oscar Moreno Escobar, qui quant à lui aura la chance de travailler sur ce mot d’un point de vue hispanophone et francophone ;
  • ·         Et enfin, Julie Nguyen, qui aura la main mise sur « French Kiss » d’un point de vue japonais et vietnamien.

Maintenant que notre groupe a pris forme et que notre mot a aussi été choisi, il faut maintenant expliquer sur quel angle nous allons donc consacrer nos recherches du mots « French Kiss ».

Pour commencer, il serait pertinent d’expliquer pourquoi le choix d’un tel mot s’est opéré.

Le choix du terme « French Kiss »

«French Kiss» est un mot tellement intéressant non seulement en raison de ce qu'il désigne en termes de «pratique» de la langue et de son bagage culturel (que nous examinerons plus tard) mais surtout parce que «French kiss» est un Mot anglais, utilisé en anglais pour désigner une pratique française, et qui est également utilisé dans le monde entier. Il semblerait que «French kiss» est un terme international, qui peut être utilisé (presque) n'importe où. En tant que «français», nous pourrions penser que nous avons sa version française, mais il se trouve que non, nous ne l'avons pas. Il n'est utilisé que par des étrangers (quand je dis étrangers, je voulais dire tout le monde sauf les Français), hors de France.

A cause de cette pratique si française non nommée par les Français, on peut penser à regarder une autre version du français: le français du Québec. (vu par Oscar).

Comment allons-nous y travailler ? Quel angle est regardé ? Quel type de processus essayons-nous d'avoir ?

Saviez-vous que...?

Etymologie

Pour commencer, les premières références aux baisers à bouche ouverte sont apparues en Inde, dans des textes anciens écrits en sanskrit, vers 1500 avant notre ère. Le texte du Kama Sutra a été le premier écrit sur ce genre de pratique: un texte qui date du troisième siècle! En effet, le texte traitait de l’utilisation des lèvres des gens, mais aussi de l’intérieur de la bouche, ce qui suggère et implique que ce baiser de la langue était pratiqué en Inde à cette époque.

Alors, pourquoi les gens pensent-ils que ce baiser à bouche ouverte est une pratique française?

Il a été répandu en Europe principalement, grâce aux Romains. Ils ont en fait représenté les baisers sous 3 formes différentes.

Le "osculum" : un bisou amical sur la joue

 le "basium" : un baiser beaucoup plus "érotique" sur les lèvres

et le "savium" : qui est dépeint comme étant le plus passionné des baisers sur la bouche. Remarque : La manière (quand, où et comment) on s'embrassait avant, c'est-à-dire, à l'époque romaine, était liée au statut social des gens.

Alors, à partir de ces coutumes et de cette habitude, comment en est-il arrivé à devenir une chose "française" ?

Le terme "French kiss" a probablement été inventé par des militaires américains et britanniques en France pendant la Première Guerre mondiale qui ont remarqué que les femmes "gauloises" étaient plus ouvertes à la pratique de cette technique dites érotique que leurs homologues américaines. Ainsi, alors que les Français n'étaient clairement pas les premiers à s'engager dans le baiser français, il semble juste qu'on leur en attribue le mérite en raison de l'enthousiasme amoureux des amoureux français il y a un siècle. Ouvert à l'utilisation de cette technique vue comme érotique par leurs homologues américains. 

ð  Peut-on encore trouver une "traduction" ou une équivalence de cet anglicisme ?

Après avoir chercher sur plusieurs dictionnaires, la version française de "French kiss" n'existe pas. Bon, c'est un abus de langage que de dire qu'il n'existe pas. La langue française, ou plutôt, les dictionnaire français ne reconnaissent pas ce mot. La seule occurence que j'ai pu trouver, c'est dans le dictionnaire du Petit Robert, qui donne comme équivalence "galocher". Cependant, lorsqu’on se pose vraiment sur l’une des définitions, il est proposé non pas « galocher » mais  « rouler une galoche ». Il faudra donc prendre en compte les différentes traductions proposé de « french kiss » en français, ou en japonais etc, voir même les variations du terme « french kiss » qui peut être vu sous l’appellation « deep kiss ». Aussi, les japonais auraient tendance à le mettre en relation avec le «baiser de l'âme». En japonais, on a tendance à trouver plus de chose avec cet orthographe-ci, de baiser profond et beaucoup d'entre eux se retrouvent comme dans les mangas, qui sont liés à un sujet / thème érotique et romantique. Dans la langue vietnamienne par exemple, il y a aussi une traduction de ce mot: «nụ hôn kiểu Pháp», mais il y en a aussi un autre qui en fait une sorte de représentation imagéde l'acte même. Cette version du mot "French kiss" est beaucoup plus familière et a tendance à avoir une connotation pas aussi douce, qu'il pourrait laisser croire ! «Num loi». Celui-ci implique beaucoup de connotation péjorative, presque sale et met en évidence la façon dont nous "passons à l'act". Donc, cela a tendance à donner une autre attention et une autre intention, plus ou moins sexuelle du mot.

Nos premières impressions ou espoirs sur les résultats que l'on espère avoir :

Oscar : “ Je veux etre surprise par le résultat, et voir la diversité de ce mot d'une culture à l'autre”

Yagmur : "Rather than a general romantic concept, in turkey, it is much more linked with sex, and people make a big deal out of it. It seems to be different for people: since people do not have sex before marriage it is unappropriated to be French kissing on the street or something."

Julie : "En tant que Franco-vietnamienne, le choix et la découverte de ce mot ainsi que son bagage culturelle reflètera de façon contingent la représentation d'une certaine population. Je pense que malgré des équivalences plutôt "calquées", la différence se fera dans son utilisation en contexte."

NB : Nos voisins Canadiens disent "se frencher"!

French à tous !

Commentaires

Posts les plus consultés de ce blog

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher! Dans cette partie, il sera montré quelques résultats par pair de langue Nous allons commencer par présenter nos recherches en espagnol, et en français. Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua". Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua": La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés". Pour le cas de "beso con lengua" Commande :  counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; coun

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan