Accéder au contenu principal

Articles

Affichage des articles du octobre, 2020

Session 3 partie b

 Donc pour revenir à toute ces histoires d'URLs, la commande lynx nous permet de les récupérer tout comme le ferait la commande wget à l'exception que lynx nous permet d'obtenir une page Google dans un format texte. La commande est donc la suivante: lynx -dump "URL_de_la_page_google" > banlieues_google.txt lynx -dump "https://www.google.com/search?q=french+kiss&rlz=1C5CHFA_enFR921FR921&oq=french+kiss&aqs=chrome.0.69i59j0j46j0l2j69i60l2j69i61.12972j1j7&sourceid=chrome&ie=UTF-8" > frenchkissfr_google Et maintenant que nous en avons extrait, nous pouvons les garder dans un fichier urls, créer à notre première séance: En tapant less frenchkissfr_google on visualise les résultats  : On veut par la suite récupérer les URL pour les mettre dans un fichier txt. Nous avons recours ici à la fonction egrep. Grâce à cette expression régulière on pourra isoler uniquement les URL de nos fichiers. récupérer des URL counter=0; while [ $counter

Session 3 partie a

 Présentation des outils BASH. Outils pour récupérer des URL.  Pour cette session, nous ferons le point sur notre outil Principal, à savoir BASH et Shell, ainsi que les premières formation de notre corpus multilingue ! L'outil Bash... Un des objectifs du cours étant de construire des programmes capables de “manger des données” le recours aux outils de programmation deviennent incontournables. Pour apprendre à programmer il faut réfléchir à comment utiliser un programme pour faire ce qui est demandé. Langage BASH sur UNIX sera donc privilégié tout au long du projet. LA VIE DES MOTS SUR LE WEB CADRE LINGUISTIQUE. Quant aux outils linguistiques pour notre projets la Lecture de Tour du monde des concepts (Legendre 2013). est fortement conseillé.  Après cette séance j’ai parcouru l'espace de la classe sur icampus. Ayant très peu de connaissance en BASH j’ai pu tout simplement préparer l'environnement du projet. Sur le terminal j’ai pu utiliser des commandes simples tel que “cd”

Session 2

  Projet Encadré TAL Pour ce cours, il est choisi la mise en application d’une variété large des savoirs et pratiques à acquérir du domaine du TAL (ou Traitement Automatisé des Langues). En effet, dans le cadre de l’apprentissage du TAL en contexte, il nous est demandé de traiter le thème qui en est en adéquation, qui plus est : « La vie multilingue des mots sur le web ». En effet, à travers ce thème, il sera possible de mettre en place les bons outils quant au traitement de textes, à caractère automatique. Pour cela, le but est de récupérer des données, basé sur un mot. Le mot est à rechercher dans le cœur même du thème, qui n’est autre que le « web », analyser ce dernier dans sa biosphère propre, jusqu’à pouvoir le présenter, dans son environnement et d’un point de vue linguistique. Ceci étant dit, il nous faut donc atteindre certains objectif, que ce soit en linguistique ou en programmation informatique. Il est rappelé qu’il faut la mise en page, visible :         D’une lexicologie

Session 1

  Projet Encadré TAL La vie Multilingue des élèves de TAL en TAL Préambule La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines. Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet :  "La vie multilingue des mots sur le web" . Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faud