mercredi 30 novembre 2011

3ème script : Lynx -dump

Lynx est navigateur en mode texte, c'est-à-dire sans image, uniquement du texte. Il s'utilise directement dans le terminal. Nous allons lui ajouter l'option -dump afin d'extraire le contenu textuel de nos URLs précédemment aspirées.

Voici le script utilisé :










Dans le dossier "DUMP-TEXT", de nouveaux fichiers .txt on été créés, contenant les textes de nos URLs :














Pour finir voici le tableau obtenu :












Remarque :
Il y a le contenu de l'URL dans le fichier texte et ce même si la page n'a pas été aspirée.

Prochaines étapes :
- convertir en UTF-8 le contenu textuel des pages qui ne le sont pas, grâce à la commande iconv
- embellir nos tableaux

2ème script : Aspiration de pages, deuxième solution avec curl

Etant légèrement en retard sur le programme nous reviendrons sur cette étape un peu plus tard.

Nous passons donc directement à lynx.

mardi 29 novembre 2011

2ème script : Aspiration de pages, première solution avec wget


La commande wget permet d'aspirer les pages de nos URLs récoltées précédemment.

Voici le script contenant cette commande :










Les pages ont bien été aspirées (pour la plupart), et ont créé un dossier .html par fichier d'URLs :



Pour finir voici le tableau obtenu :












Lorsque que nous cliquons sur "Page aspirée", si celle-ci a bien été aspirée, nous sommes dirigées vers l'URL adéquate.

Dans un prochain billet, nous tenterons l'aspiration avec la commande curl.
Elle n'existait pas dans le terminal d'Ubuntu, mais le terminal de ce dernier nous a toutefois indiqué la marche à suivre : taper "sudo apt-get install curl".

lundi 21 novembre 2011

1er script : création d'un tableau de liens

Après avoir collecté une cinquantaine d'URLs sur le mot "Avancer", nous sommes fin prêtes à faire tourner notre premier script. Ce premier script nous l'avons récupéré sur le site du cours. Comme nous travaillons dans un environnement Ubuntu, nous avons changé { } par "do" et "done" :








Testons le avec le fichier d'URLs en français. Voici les premiers résultats obtenus :



Le script a bien tourné, il a créé comme convenu un tableau avec les liens, mais il y a quelques ajustements à faire. En effet, le chiffre 1 est présent à toutes les lignes et la deuxième colonne n'est pas assez large.

Après quelques modifications dans le script, nous avons pu changer la largeur des colonnes, comme vous pourrez le constater un peu plus bas.

En ce qui concerne le problème du chiffre 1, il s'agit de la commande "let" qui n'a pas été interprétée par le terminal.
Nous avons ainsi échangé la formule : let "i+=1" par l'une des deux variantes que nous avons trouvées dans le cours ou les différents blogs :
i=$((i+1))
i=`expr $i+1`.

Nous avons retenu la première variante. Voici le script terminé :













Et voici le résultat du script :