Accéder au contenu principal

Itrameur - Analyse textométrique.

 

Itrameur


Dans cette entrée nous partagerons nos commentaires sur la prise en main de l’outil Itrameur. Nous

avons intégré le corpus et vérifié que la segmentation était bien définie par les balises du corpus. les 

rectangles ne se croisent pas et toutes les parties semblent y être. 


Après avoir importé le corpus dans le logiciel, nous nous sommes rendus compte que l’analyse était

faite mot par mot et que dans notre cas (french kiss) on avait deux mots, voire trois en espagnol. Que 

faire ? La solution a été de remplacer les occurrences des mots french kiss, French Kiss, “French

Kiss” “french kiss” en un seul mot : french_kiss. Même traitement pour l’espagnol et le turc 

 beso_con_lengua, fransız_öpücüğü. cela  a bien fonctionné. 


Dans un premier temps on s’est intéressés à l’indice de fréquence  du mot dans notre corpus. On 

apprend qu’il y a 255 occurrences. 




Ensuite on s’est intéressé aux cooccurrences du mot. Ce tableau nous montre un premier résultat.  

On voit qu’il y a des mots qui “polluent” notre résultat, notamment les stops words. Pour éviter cela, 

vous allez dans trame/dictionnaire/selection. Vous cochez les mots à ne pas afficher lors du calcul de 

cooccurrences. 



Nous avons repéré qu’un des co référents le plus saillant est Black et M, le chanteur. En effet, il a 

une chanson intitulée french kiss qui a eu apparemment pas mal de succès en France. De même, le

 mot “aime” est très fréquent car il est assez présent dans les paroles des chansons. On réfléchit à le

 laisser ou le supprimer de notre liste. Après avoir analysé le concordancier on confirme qu' aimer 

correspond presque 100% aux paroles. On va donc s’en passer. On a déjà Black M dans nos résultats.

 



Voilà, c’est un premier aperçu des analyses effectuées sur Itrameur. Vous aurez accès à l’analyse 

complète de toutes les langues lors de la mise en ligne de notre page web.

Commentaires

Posts les plus consultés de ce blog

Session 1

  Projet Encadré TAL La vie Multilingue des élèves de TAL en TAL Préambule La première séance du cours Projet encadré fut l'occasion de comprendre l'enjeu réel de ce cours, ses attentes, ses ambitions ainsi que permettre à tous de les clarifier certains rôle nécessaire au TAL et d'en rendre les reines. Ainsi, il nous a été présenté, par nos chers professeurs, à savoir, Serge Fleury et Jean-Michel Daube (j'adore ce duo personnellement et je ne suis pas la seule de la promo à penser ainsi haha), le thème du projet :  "La vie multilingue des mots sur le web" . Autrement dit, ce thème de projet implique la recherche complète d'un mot / terme prédéfinit, au sein d'un groupe de travail. La "recherche complète" dont je viens de parler  prend en compte différentes étapes afin de mener à bien (on l'espère) le dit projet. Le but étant de comprendre et étudier le fonctionnement d'un mot dans différentes langues, cela signifie qu'il nous faud

Exclusivité : le cas du japonais

Pour le cas du japonais, rien n'a été de tout repos malheureusement. Beaucoup d'essais, énormément de raté, mais quelques solutions pour pallier aux différents problèmes !  Pour ce qui est de la récolte des urls japonais pour le mot French Kiss (フレンチキス) , a été appliqué la fameuse commande déjà utilisé pour la langue française, anglaise, espagnol et turc. Les mêmes commandes déjà énoncé dans ce blog lui ont été appliqué: Après tous les traitement, on se rend compte qu'il y a toujours beaucoup de "saletés", de bruits sur les urls. On commence par les trier à la main mais, il y a trop de contenu (plus de 300) alors, pour éviter de perdre du temps avec les problèmes d'apparitions des "binary files" etc, on relance une nouvelle récolte d'urls en étant encore plus précis. Le fichier urls de japonais se créer. On lance la commande du terminal pour avoir un tableau. Problème : message d'erreur: ...et aucun tableau à l'horizon. On essaye d'au

Script Fonctionnel

  C’est avec grande joie que nous postons cette entrée, en effet on arrive à avoir un script fonctionnel qui répond à la plupart des soucis qu’on a trouvés tout au long de notre projet.  On dit de la joie,  parce que pour nous trois, n’ayant pas de fortes bases informatiques, arriver à  comprendre comment ce script fonctionne et pouvoir y ajouter ou supprimer des choses a demandé des heures et des heures de réflexion, on se réjouit donc d’arriver à ce stade du projet.   Si jamais les personnes des promotions à venir lisent cette entrée, il est important de donner un message  qui rassure. Ce Master est formidable, on apprend énormément de choses.  Cependant on est vite  confrontés à beaucoup de nouvelles informations. Vous allez vivre une montagne russe d’émotions :  de l' incompréhension au désespoir, la tristesse puis la fierté. Ne désespérez pas s’il y a des moments de  détresse, avec de la détermination et en y consacrant du temps vous allez parvenir à comprendre et à faire  tou