mercredi 18 janvier 2012

3ème script (le retour !) : Lynx -dump avec curl

Nous avions précédemment utilisé lynx avec la commande wget, nous allons renouveler l'opération avec la commande curl, car c'est avec cette commande que nous poursuivrons l'écriture de nos scripts.

Donc voici le script comprenant :
- la commande curl pour l'aspiration de pages
- la commande lynx avec l'option -dump pour extraire le contenu textuel de nos urls











En faisant tourner le script nous obtenons :

1-) Les pages aspirées :


2-) Le contenu textuel des pages aspirées dans des fichiers.txt :















Et voici le tableau obtenu :












Après vérification, nous avons pu constater que les liens vers les pages aspirées et le contenu textuel donnaient bien les résultats attendus :

1-) Une page aspirée :












2-) Son contenu textuel :












Nous pouvons maintenant passer à l'étape suivante !


Aucun commentaire:

Enregistrer un commentaire