toTALment-langues: 3ème script : Lynx -dump

mercredi 30 novembre 2011

3ème script : Lynx -dump

Lynx est navigateur en mode texte, c'est-à-dire sans image, uniquement du texte. Il s'utilise directement dans le terminal. Nous allons lui ajouter l'option -dump afin d'extraire le contenu textuel de nos URLs précédemment aspirées.

Voici le script utilisé :

Dans le dossier "DUMP-TEXT", de nouveaux fichiers .txt on été créés, contenant les textes de nos URLs :

Pour finir voici le tableau obtenu :

Remarque :
Il y a le contenu de l'URL dans le fichier texte et ce même si la page n'a pas été aspirée.

Prochaines étapes :
- convertir en UTF-8 le contenu textuel des pages qui ne le sont pas, grâce à la commande iconv
- embellir nos tableaux

1 commentaire:

SFgg30 novembre 2011 à 07:34
ok
on attend donc la prochaine étape..
RépondreSupprimer
Réponses

Ajouter un commentaire