toTALment-langues

dimanche 5 février 2012

Dernière étape : Notre site

Pour finaliser notre projet, nous avons réalisé un site comprenant notre démarche de travail, quelques commandes Bash utilisées, notre script dans son intégralité, ainsi que les tableaux complets.

Vous pourrez le consulter à cette adresse :

http://www.tal.univ-paris3.fr/plurital/travaux-2011-2012/projets-2011-2012-S1/Charlene_Denis_Katell_Toulgoat/accueil.html

Merci pour votre intérêt

Charlène et Katell

Même principe que pour les nuages de mots, nous avons utilisé un logiciel en ligne pour faire nos arbres de mots. Il s'agit là encore de coller notre texte sur le site qui va ensuite générer des arbres. Pour cela nous avons utiliser le site Treecloud et voici le résultat :

en français :

en créole :

Les nuages de mots

Nos nuages de mots sont composés des contextes globaux (la concaténation de tous nos contextes). Ils mettent en avant les termes les plus présents autour de notre verbe "Avancer/Vansé".

Pour faire nos nuages de mots, nous avons utilisé 2 outils en ligne : Wordle et Tagxedo.

Wordle :

Pour utiliser Wordle, il suffit de copier son texte et de le coller sur le site. Cet outil enlève de lui même les mots vides : les mots les plus communs qui ne sont pas très utiles dans nos nuages tels que "le", "la", "de", ...

Voici quelques exemples obtenus avec Wordle :

en français :

en créole :

Tagxedo :

Tagxedo permet également de faire des nuages de mots. Toutefois, le principe n'est pas identique, le texte doit être issu d'une page web. Nous avons utilisé le site Free Text Host qui permet, une fois notre texte collé, de générer une URL .

Après cette étape, il ne nous reste plus qu'à écrire l'adresse de notre URL sur le site Tagxedo et nous obtenons des nuages de mots comme ceci :

en français :

en créole :

Sur Tagxedo, c'est à nous d'enlever les mots vides en sélectionnant les mots dont nous ne souhaitons pas la présence.

Les tableaux obtenus

Le script final nous donne deux tableaux, un pour les URLs françaises et un deuxième pour les URLs créoles. Ils sont composéq de 9 colonnes avec :

le numéro des URLs, les URLs, les pages aspirées, le retour curl, le dump initial, le dump convertit en uft-8, le contexte, le contexte en html et le nombre d'occurrence :

samedi 4 février 2012

5ème script : le contexte avec la commande egrep

Avec la commande egrep nous allons extraire le contexte de notre mot choisi "avancer/vansé". Nous pourrons ainsi observer dans quel contexte le mot est utilisé dans les URLs que nous avons récoltés.

Egrep va nous donner la ligne dans laquelle notre mot se situe et l'imprimer dans un fichier .txt. Il va faire le même traitement pour toutes les URLs.

La commande cat va concaténer toutes les lignes et les regrouper dans le fichier Contextes-globaux.txt. Cela va former un texte que nous utiliserons lors la création des nuages de mots, car il nous permettra de mettre en évidence les mots qui reviennent régulièrement autour de notre motif.

Le motif est l'ensemble des déclinaisons de notre verbe que nous avons trouvé dans nos URLs : avanc(e|es|er|ent|é|ée|és|ées|.|,)|vans(e|é|.|,).

Voici l'extrait de notre script traitant le contexte de notre verbe :

Voici l'exemple d'une ligne obtenue, contenant notre motif :

Voici une partie du contexte global obtenu :

Nous verrons ensuite comment utiliser les résultats obtenus pour réaliser des nuages et des arbres de mots.

vendredi 3 février 2012

4ème script : reconnaître l'encodage de la page aspirée : commandes file et iconv

Une fois nos URLs aspirées, grâce à la commande curl, et la récupération du contenu textuel que nous avons obtenue grâce à la commande lynx (moteur de recherche qui affiche uniquement le texte), nous souhaitons connaître l'encodage de la page aspirée et la changer si elle n'est pas en utf-8.
Pour cela nous utilisons deux commandes :

file : détermine le type de la page que nous avons aspirée précédemment et nous indique l'encodage utilisé.

iconv : convertit le fichier dans l'encodage que nous souhaitons, s'il le connaît. Avec l'option -f nous précisons à la commande iconv, l'encodage dans lequel nous souhaitons que le fichier soit converti (ici, en utf-8).

Procédure :

Si le fichier est déjà en utf-8, on ne fait rien

Si le fichier n'est pas en utf-8 et que la commande iconv connaît l'encodage, on convertit

Si le fichier n'est pas en utf-8 et que le commande iconv ne connaît pas l'encodage, on ne fait rien. Sinon on convertit.

mercredi 18 janvier 2012

3ème script (le retour !) : Lynx -dump avec curl

Nous avions précédemment utilisé lynx avec la commande wget, nous allons renouveler l'opération avec la commande curl, car c'est avec cette commande que nous poursuivrons l'écriture de nos scripts.

Donc voici le script comprenant :
- la commande curl pour l'aspiration de pages
- la commande lynx avec l'option -dump pour extraire le contenu textuel de nos urls

En faisant tourner le script nous obtenons :

1-) Les pages aspirées :

2-) Le contenu textuel des pages aspirées dans des fichiers.txt :

Et voici le tableau obtenu :

Après vérification, nous avons pu constater que les liens vers les pages aspirées et le contenu textuel donnaient bien les résultats attendus :

1-) Une page aspirée :

2-) Son contenu textuel :

Nous pouvons maintenant passer à l'étape suivante !

dimanche 5 février 2012

Dernière étape : Notre site

les arbres de mots

Les nuages de mots

Les tableaux obtenus

samedi 4 février 2012

5ème script : le contexte avec la commande egrep

vendredi 3 février 2012

4ème script : reconnaître l'encodage de la page aspirée : commandes file et iconv

mercredi 18 janvier 2012

3ème script (le retour !) : Lynx -dump avec curl