Accéder au contenu principal

Session 1

 Projet Encadré TAL

La vie Multilingue des élèves de TAL en TAL

Préambule

La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines.

Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet : "La vie multilingue des mots sur le web".

Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faudra suivre toute une procédure de recherche, d'extraction, d'analyse linguistique sous traitement d'outils et "voire" (pour dire cela de façon grossière) ce qu'il peut produire.

De ce fait, il est nécessaire de s'intéresser à la variation de l'utilisation du mot choisi, d'une langue à l'autre. Donc, de ce que j'ai compris, plus il y a de langue, et de préférence éloigné, mieux cela peut être.  Il est important de faire cette démarche afin de mettre en relief les divergences ou au contraire, les convergences d'un mot d'une culture à l'autre. Ce qui m'a parut compliqué de prime abord c'était le fait de "mesurer la variation d'un mot". Est-ce possible et surtout comment ? Tout d'abord, que veut dire comparer l'utilisation d'un mot ? Toutes ces questions sont capitale puisque c'est grâce et autour de ces dernières que notre choix de mot va s'orienter ainsi que l'acheminement du projet. Il a été appuyé l'importance du choix du genre de donnée et l'angle d'étude à adopter. 

Certaines exigences ont été données, notamment  le  corpus multilingue en UTF-8. 

Si je devais retenir une phrase, tout particulièrement de cette première séance, se serait "On apprend à apprendre à programmer", signé Serge Fleury. Pour ce faire, il a été souligné l'importance des lectures, non-exhaustive en guise d'aide à l'apprentissage du langage bash/shell par exemple. 

Ce qui m'a parut le plus dure, c'est sans doute qu'il faudra écrire un descriptif de projet de façon précise. Cela semble demander une rigueur affolante ainsi qu'un esprit plus que cartésien. 

Du coup, pendant le cours, je me suis permise de jeter des coups d'œil aux anciens projet réalisés et disponible sur la page PluriTal. La mise en page de celui sur l'avortement m'a parut splendide. Je pense m'orienter vers ce genre de vitrine. Un autre sujet plutôt intéressant était celui au sujet des geek (désolé Monsieur Daube!). Le choix du mot était surprenant dans le bon sens du terme. Grâce à cela, j'ai commencé à avoir quelques idées surgir comme le mot "putain" ou "homme moderne". 

Julize avait aussi en tête de monter un groupe de travail plutôt large (dix personnes en réalité...) et donc monter un projet multiculturel à savoir, de l'arabe (du Liban), du japonais, du vietnamien, du cantonnais et mandarin, de l'espagnol, de l'italien et de l'allemand, en plus de l'anglais et du turc, sans oublier le français!

J'avais pour idée de mettre en place un certain management pour faciliter l'adhésion de cette idée de la part de nos professeurs, mais en vain... Nous avons donc finit par nous rediviser en petit groupe de 2 et 3.

C'est tout pour cette séance là !

Commentaires

Posts les plus consultés de ce blog

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher! Dans cette partie, il sera montré quelques résultats par pair de langue Nous allons commencer par présenter nos recherches en espagnol, et en français. Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua". Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua": La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés". Pour le cas de "beso con lengua" Commande :  counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; coun

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan