samedi 4 février 2012

5ème script : le contexte avec la commande egrep

Avec la commande egrep nous allons extraire le contexte de notre mot choisi "avancer/vansé". Nous pourrons ainsi observer dans quel contexte le mot est utilisé dans les URLs que nous avons récoltés.

Egrep va nous donner la ligne dans laquelle notre mot se situe et l'imprimer dans un fichier .txt. Il va faire le même traitement pour toutes les URLs.

La commande cat va concaténer toutes les lignes et les regrouper dans le fichier Contextes-globaux.txt. Cela va former un texte que nous utiliserons lors la création des nuages de mots, car il nous permettra de mettre en évidence les mots qui reviennent régulièrement autour de notre motif.

Le motif est l'ensemble des déclinaisons de notre verbe que nous avons trouvé dans nos URLs : avanc(e|es|er|ent|é|ée|és|ées|.|,)|vans(e|é|.|,).

Voici l'extrait de notre script traitant le contexte de notre verbe :






Voici l'exemple d'une ligne obtenue, contenant notre motif :




Voici une partie du contexte global obtenu :

















Nous verrons ensuite comment utiliser les résultats obtenus pour réaliser des nuages et des arbres de mots.


Aucun commentaire:

Enregistrer un commentaire