mercredi 30 novembre 2011

3ème script : Lynx -dump

Lynx est navigateur en mode texte, c'est-à-dire sans image, uniquement du texte. Il s'utilise directement dans le terminal. Nous allons lui ajouter l'option -dump afin d'extraire le contenu textuel de nos URLs précédemment aspirées.

Voici le script utilisé :










Dans le dossier "DUMP-TEXT", de nouveaux fichiers .txt on été créés, contenant les textes de nos URLs :














Pour finir voici le tableau obtenu :












Remarque :
Il y a le contenu de l'URL dans le fichier texte et ce même si la page n'a pas été aspirée.

Prochaines étapes :
- convertir en UTF-8 le contenu textuel des pages qui ne le sont pas, grâce à la commande iconv
- embellir nos tableaux

2ème script : Aspiration de pages, deuxième solution avec curl

Etant légèrement en retard sur le programme nous reviendrons sur cette étape un peu plus tard.

Nous passons donc directement à lynx.

mardi 29 novembre 2011

2ème script : Aspiration de pages, première solution avec wget


La commande wget permet d'aspirer les pages de nos URLs récoltées précédemment.

Voici le script contenant cette commande :










Les pages ont bien été aspirées (pour la plupart), et ont créé un dossier .html par fichier d'URLs :



Pour finir voici le tableau obtenu :












Lorsque que nous cliquons sur "Page aspirée", si celle-ci a bien été aspirée, nous sommes dirigées vers l'URL adéquate.

Dans un prochain billet, nous tenterons l'aspiration avec la commande curl.
Elle n'existait pas dans le terminal d'Ubuntu, mais le terminal de ce dernier nous a toutefois indiqué la marche à suivre : taper "sudo apt-get install curl".

lundi 21 novembre 2011

1er script : création d'un tableau de liens

Après avoir collecté une cinquantaine d'URLs sur le mot "Avancer", nous sommes fin prêtes à faire tourner notre premier script. Ce premier script nous l'avons récupéré sur le site du cours. Comme nous travaillons dans un environnement Ubuntu, nous avons changé { } par "do" et "done" :








Testons le avec le fichier d'URLs en français. Voici les premiers résultats obtenus :



Le script a bien tourné, il a créé comme convenu un tableau avec les liens, mais il y a quelques ajustements à faire. En effet, le chiffre 1 est présent à toutes les lignes et la deuxième colonne n'est pas assez large.

Après quelques modifications dans le script, nous avons pu changer la largeur des colonnes, comme vous pourrez le constater un peu plus bas.

En ce qui concerne le problème du chiffre 1, il s'agit de la commande "let" qui n'a pas été interprétée par le terminal.
Nous avons ainsi échangé la formule : let "i+=1" par l'une des deux variantes que nous avons trouvées dans le cours ou les différents blogs :
i=$((i+1))
i=`expr $i+1`.

Nous avons retenu la première variante. Voici le script terminé :













Et voici le résultat du script :

lundi 31 octobre 2011

Les URLs en créole

  • Même démarche en créole, nous avons répertorié, avec davantage de difficultés il faut le dire, la cinquantaine d'URLs mentionnant le verbe "Vansé" dans différents contextes :
http://agreg-ink.net/sahai/caribreconn.html
http://www.litterature-creole.com/415.html
http://www.e-karbe.com/evenements/journee-internationale-du-creole-dans-lhexagone-aussi-le-28-octobre/
http://kepkaa.com/moisducreole/2011/articles2011/article_guelil.html
http://kawann.k1.online.fr/atilye-uit.htm
http://www.creatcaraibes.net/index.php?option=com_content&task=view&id=95&Itemid=76
http://www.ibisrouge.fr/livre.php?ref=125
http://www.montraykreyol.org/spip.php?article560
http://www.gensdelacaraibe.org/index.php?option=com_content&view=category&layout=blog&id=49&Itemid=167
http://creoles.free.fr/Cours/glossai3.htm
http://indiscretions.over-blog.fr/article-mois-du-creole-le-discours-de-jacques-gillot-21-10-10-59355598.html
http://www.ciscoshow.com/cours-de-creole-avec-hector-poulet-7
http://www.uoh.fr/front/document/964dccff/e9fc/413a/964dccff-e9fc-413a-987b-ffff0284676c/co/Contenu5_1_3.html
http://www.latribunedesantilles.net/index.php?option=com_content&task=view&id=2203&Itemid=56
http://remue.net/spip.php?article4483
http://www.pyepimanla.com/octobre-novembre/articles/art-culture/kod-yanm.html
http://kepkaa.com/moisducreole/2011/articles2011/article_delannon.html
http://www.madinin-art.net/litterature/six_chansons_amour.htm
http://www.lameca.org/dossiers/graphie_creole/k06_lire_ecrire.htm
http://membres.multimania.fr/fdl/Blagues.htm
http://cms.ac-martinique.fr/lpsaintjames/articles.php?lng=fr&pg=48
http://www.numilog.com/LIVRES/FICHES/89920.Livre
http://kawann.k1.online.fr/atilye-sis.htm
http://ugtg.org/spip/IMG/IMG/article_239.html
http://www.assemblee-martinique.com/nuke/html/modules.php?name=News&file=article&sid=174
http://www.e-karbe.com/tag/creole/
http://judeduranty.over-blog.net/article-27908242.html
http://espas-ayisyen-toulouse.blogspot.com/2009_10_01_archive.html
http://www.montraykreyol.org/spip.php?article4549
http://sakafetmatinik.fr/sakifet/1110/journee-internationale-du-creole-dans-l-hexagone-aussi-le-28-octobre,181.html
http://www.caraibcreolenews.com/news/guadeloupe/1,3136,10-03-2011-guadeloupe-attention-l-ugtg-est-de-retour-.html
http://www.greatsong.net/PAROLES-ERIK,CHAYE-KOW,104822898.html
http://lekamag.tumblr.com/page/2
http://www.gwadayouth.com/2007/10/16/flo-premiere-francophone-aux-bet-hip-hop-awards/
http://creolica.net/Grammaticalisations-en-creole
http://www.lematinhaiti.com/contenu.php?idtexte=22537&idtypetexte=
http://www.narcisseenvol.com/2011/07/
http://autredestination.over-blog.com/5-categorie-11333217.html
http://creolemagazine.com/2011/11/le-president-martelly-conference-de-presse-au-salon-diplomatique-de-l-aeroport-toussaint-louverture/
http://www.mesopinions.com/Reponse-a-Monsieur-Pepin-petition-petitions-f1c28868a20d0792d5b0976f469020a9.html
http://www.antilla.fr/modules.php?name=News&file=article&sid=547
http://www.karibbeantv.com/flv,Traditionnel-Ralph_Tamar_Orlane_and_Malavoi-Fayalobi.html
http://www.websters-dictionary-online.org/Creole/fitting
http://creoles.free.fr/Cours/corpusmoderne.htm
http://www.montraykreyol.org/spip.php?article5112
http://judeduranty.over-blog.net/255-index.html
http://www.potomitan.info/poullet/kreyol.php
http://www.kepkaa.com/moisducreole2011/articles2011/alexandra.html
http://www.etatsgenerauxdeloutremer.fr/nous-accepter-complexes
http://www.paperblog.fr/1692187/cours-de-creole-avec-hector-poulet-7/
http://www.guadeloupe.franceantilles.fr/regions/departementales/kreyol-e-jenn-24-10-2009-54080.php
http://fr.groups.yahoo.com/group/potomitan-info/message/3089http://lerus-sellin.over-blog.fr/
http://www.fondationpyb.org/histoire.html
http://91.121.122.80/martinique/28-a-la-une/2918-krl-tout-kotsou-la-t.html
http://www.ciscoshow.com/tag/creole
http://fr.groups.yahoo.com/group/potomitan-info/message/3089
http://fr.wikipedia.org/wiki/Fred_Edson_Lafortune
http://www.kepkaa.com/moisducreole2011/articles2011/delannon.html
http://chien-creole2.blogspot.com/2010/02/communique-du-lkp-programme-daction.html
http://www.latribunedesantilles.net/index.php?option=com_content&task=view&id=1646&Itemid=57
http://kapeskreyol.potomitan.info/
http://www.terrelocale.net/Titim-du-mercredi-a-vous-de-jouer.html
http://boukanissy.free.fr
http://joel.lasnier.free.fr/tchek.htm
http://martiniklite.net/Chimen-a-Prejije.html


  • Ces URLs ont été directement enregistrées dans un fichier .txt :

Les URLs en français

  • Notions préalables :
Une URL, qu'est-ce-que c'est ?

Il n'est pas évident de faire le tri parmi les nombreuses définitions que nous fournissent les moteurs de recherche. Souvent gonflées de mots barbares, elles ne sont pas toujours compréhensibles des néophytes. Nous vous avons donc mis en lien une petite définition plutôt concise mais néanmoins très claire de ce qu'est une URL.

  • Procédons maintenant à la recherche de nos URLs en français :
Le verbe "Avancer" est très présent dans l'actualité nationale et internationale, et ce quelque soit le temps de conjugaison. Deux contextes se démarquent particulièrement : le contexte politico-financier et le contexte sportif.
Il y a quelques exceptions, nous l'avons effectivement trouvé à plusieurs reprises dans un contexte de loisirs (informatique, jeux vidéos) mais également dans un contexte d'enquêtes policières.

Voici quelques URLs significatives :

Politique :
http://www.lexpress.fr/actualite/politique/l-ump-veut-faire-avancer-son-projet-pour-2012_1037407.html
http://www.20minutes.fr/politique/804054-france-avance-pions-immense-chantier-reconstruction-libye
http://www.liberation.fr/monde/01012366142-l-armee-kenyane-avance-en-somalie
http://www.la-croix.com/Actualite/S-informer/Monde/Les-reparations-d-urgence-pour-faire-avancer-l-Europe-_NG_-2011-10-19-725156
http://www.lepost.fr/article/2011/10/10/2610193_segolene-ou-celle-qui-a-fait-avancer-les-socialistes.html

Sport :
http://www.sport.fr/football/coupe-de-la-ligue-psg-kombouare-il-faut-avancer-239002.shtm
http://www.leparisien.fr/psg-foot-paris-saint-germain/ca-avance-avec-beckham-21-10-2011-1677975.php
http://www.lavoixdessports.com/RC-Lens/2011/10/26/article_les-lensois-n-ont-pas-avance-d-un-pouce.shtml
http://tempsreel.nouvelobs.com/sport/20111020.REU0753/rugby-medard-est-pret-a-faire-avancer-le-xv-de-france-en-finale.html
http://www.lefigaro.fr/football-ligue-1-et-2/2011/10/14/02013-20111014ARTSPO00560-le-groupe-donne-la-force-d-avancer.php

Loisirs :
http://www.lemondeinformatique.fr/actualites/lire-la-mise-a-jour-mango-avance-mais-certains-mobiles-samsung-doivent-attendre-42149.html
http://www.cinemateaser.com/2011/10/34834-la-serie-de-scorsese-et-mick-jagger-pour-hbo-avance

Enquêtes policières :
http://www.francesoir.fr/actualite/faits-divers/nimes-l-enquete-sur-meurtre-du-champ-cannabis-avance-146331.html
http://www.laprovence.com/actu/region-en-direct/dauphins-tues-lenquete-avance-selon-la-gendarmerie

Etape préliminaire : création de l'arborescence de travail

Avant d'entamer notre projet, nous devons déterminer un environnement de travail. Ainsi, notre ordinateur va comporter un répertoire spécifique que l'on créera et nommera "PROJET-MOT-SUR-LE-WEB".

Nous travaillons avec l'éditeur de texte Gedit.
Voici notre 1ère initiation à la rédaction d'un mini script en langage bash qui nous préparera notre arborescence de travail :

In fine, ce script bash permettra d'exécuter la création de notre répertoire "PROJET-MOT-SUR-LE-WEB". Dans le terminal de commandes, avant de lancer le programme, il est important de se placer dans le bon répertoire (cf chemin ci dessous):


La vérification se fait ensuite via la commande ls qui va nous afficher le contenu du répertoire "PROJET-MOT-SUR-LE-WEB", tel que :

CONTEXTES : les fichiers texte qui comportent les contextes restreints d’apparition de notre verbe
DUMP-TEXT : les copies des textes tirés des pages web (sans balise)
IMAGES : les éventuelles images des pages web qui hébergent notre verbe
PAGES-ASPIREES : les copies des pages web correspondant à nos URLs et enregistrées en local
PROGRAMMES : l'ensemble des scripts réalisés tout au long du projet
TABLEAUX : les différentes versions du tableau html final à réaliser
URLS : la liste des URLs choisies par nous contenant notre verbe

Visualisons cette arborescence :