Donc voici le script comprenant :
- la commande curl pour l'aspiration de pages
- la commande lynx avec l'option -dump pour extraire le contenu textuel de nos urls
En faisant tourner le script nous obtenons :
1-) Les pages aspirées :
2-) Le contenu textuel des pages aspirées dans des fichiers.txt :
Et voici le tableau obtenu :
Après vérification, nous avons pu constater que les liens vers les pages aspirées et le contenu textuel donnaient bien les résultats attendus :
1-) Une page aspirée :
2-) Son contenu textuel :
Nous pouvons maintenant passer à l'étape suivante !
Aucun commentaire:
Enregistrer un commentaire