mercredi 30 novembre 2011

3ème script : Lynx -dump

Lynx est navigateur en mode texte, c'est-à-dire sans image, uniquement du texte. Il s'utilise directement dans le terminal. Nous allons lui ajouter l'option -dump afin d'extraire le contenu textuel de nos URLs précédemment aspirées.

Voici le script utilisé :










Dans le dossier "DUMP-TEXT", de nouveaux fichiers .txt on été créés, contenant les textes de nos URLs :














Pour finir voici le tableau obtenu :












Remarque :
Il y a le contenu de l'URL dans le fichier texte et ce même si la page n'a pas été aspirée.

Prochaines étapes :
- convertir en UTF-8 le contenu textuel des pages qui ne le sont pas, grâce à la commande iconv
- embellir nos tableaux

1 commentaire: