Accéder au contenu principal

Itrameur - Analyse textométrique.

 

Itrameur


Dans cette entrée nous partagerons nos commentaires sur la prise en main de l’outil Itrameur. Nous

avons intégré le corpus et vérifié que la segmentation était bien définie par les balises du corpus. les 

rectangles ne se croisent pas et toutes les parties semblent y être. 


Après avoir importé le corpus dans le logiciel, nous nous sommes rendus compte que l’analyse était

faite mot par mot et que dans notre cas (french kiss) on avait deux mots, voire trois en espagnol. Que 

faire ? La solution a été de remplacer les occurrences des mots french kiss, French Kiss, “French

Kiss” “french kiss” en un seul mot : french_kiss. Même traitement pour l’espagnol et le turc 

 beso_con_lengua, fransız_öpücüğü. cela  a bien fonctionné. 


Dans un premier temps on s’est intéressés à l’indice de fréquence  du mot dans notre corpus. On 

apprend qu’il y a 255 occurrences. 




Ensuite on s’est intéressé aux cooccurrences du mot. Ce tableau nous montre un premier résultat.  

On voit qu’il y a des mots qui “polluent” notre résultat, notamment les stops words. Pour éviter cela, 

vous allez dans trame/dictionnaire/selection. Vous cochez les mots à ne pas afficher lors du calcul de 

cooccurrences. 



Nous avons repéré qu’un des co référents le plus saillant est Black et M, le chanteur. En effet, il a 

une chanson intitulée french kiss qui a eu apparemment pas mal de succès en France. De même, le

 mot “aime” est très fréquent car il est assez présent dans les paroles des chansons. On réfléchit à le

 laisser ou le supprimer de notre liste. Après avoir analysé le concordancier on confirme qu' aimer 

correspond presque 100% aux paroles. On va donc s’en passer. On a déjà Black M dans nos résultats.

 



Voilà, c’est un premier aperçu des analyses effectuées sur Itrameur. Vous aurez accès à l’analyse 

complète de toutes les langues lors de la mise en ligne de notre page web.

Commentaires

Posts les plus consultés de ce blog

Session 4: un french, un beso, french kissing...

Un beso con lengua, Frencher! Dans cette partie, il sera montré quelques résultats par pair de langue Nous allons commencer par présenter nos recherches en espagnol, et en français. Petite remarque avant de continuer plus loin : en espagnol, le terme "French Kiss" se traduit en espagnol par "Beso con lengua". Il sera donc ici détaillé la façon dont on a procédé pour "Beso con lengua": La première commande est pour trouver les URLs en espagnol du mot "beso con lengua" ou son autre version aussi trouvé : "beso francés". Pour le cas de "beso con lengua" Commande :  counter=0; while [ $counter -le 300 ]; do lynx -dump "https://www.google.com/search?q=suburbs&client=ubuntu&channel=fs&biw=1494&bih=657&sxsrf=ALeKk011piWSj9r1StcMMmaC2Fwkb8FqNg:1603092362766&ei=ij-NX7-dLquJjLsPzLqSsAw&start=$counter&sa=N&ved=2ahUKEwi_isy2kMDsAhWrBGMBHUydBMY4FBDy0wN6BAgWEDM">> mes_liens_bruts.txt; coun

Souci d'encodage MacOs - Lynx

Soucis encodage MacOs - Lynx  Nous faisons cette entrée pour laisser évidence d’un souci d'encodage qu’on a rencontré concernant la  commande lynx sur MacOs. En effet, nous avons remarqué dans certaines URLs aspirées qu' il y avait des rendus bizarres. Notamment pour les caractères diacrités et la c cédille (ç). Ci-dessous quelques  captures d'écran pour illustrer cette situation.      Au début, nous croyions à un souci d’encodage des URL. Nous avons donc bien ajouté dans notre script les deux boucles pour convertir les encodages reconnus avec la commande curl et detect encoding sans pour autant avoir une amélioration dans les rendus de nos pages aspirées.  Normalement, en lançant ce script, si le site n’est pas encodé en UTF-8 une erreur devrait s'afficher dans  le tableau qu’il génère au niveau de la colonne 1, mais aucune erreur ne s’affiche, au contraire il indique  que le site est bien encodé en  UTF-8.  Une vérification manuelle du charset a été effectuée sur cert

Concaténation et nettoyage du corpus.

Concaténation et nettoyage du corpus.    Cette partie de concaténation et nettoyage de corpus est clé car elle va alléger notre corpus pour pouvoir l’analyser sur Itrameur.    Pour ceux qui travaillent sur Windows, un programme pour concaténer est disponible sur icampus.  Il suffit de télécharger  le Fichier + le programme concat et de les placer dans le même dossier.  Double click  pour le lancer et cela concatène les fichiers existants dans ce répertoire.     Si ce n’est pas Windows, comment faire? Sachant qu’il faut introduire une valise au début et à la fin  de chaque fichier DUMP txt et CONTEXTES txt, nous avons appris en cours cette commande.  for file in `ls utf8_1* | tr ' ' '\n' | less`; do echo "<partie=$file>" >> CORPUS_FR.txt ; cat $file >> CORPUS_FR.txt ; echo "</partie>" >> CORPUS_FR.txt ; done En utilisant cette commande la concentration se fait facilement. Pensez à vous placer dans le  répertoire DUMP avan