vendredi 3 février 2012

4ème script : reconnaître l'encodage de la page aspirée : commandes file et iconv

Une fois nos URLs aspirées, grâce à la commande curl, et la récupération du contenu textuel que nous avons obtenue grâce à la commande lynx (moteur de recherche qui affiche uniquement le texte), nous souhaitons connaître l'encodage de la page aspirée et la changer si elle n'est pas en utf-8.
Pour cela nous utilisons deux commandes :

file : détermine le type de la page que nous avons aspirée précédemment et nous indique l'encodage utilisé.

iconv : convertit le fichier dans l'encodage que nous souhaitons, s'il le connaît. Avec l'option -f nous précisons à la commande iconv, l'encodage dans lequel nous souhaitons que le fichier soit converti (ici, en utf-8).


Procédure :

Si le fichier est déjà en utf-8, on ne fait rien




Si le fichier n'est pas en utf-8 et que la commande iconv connaît l'encodage, on convertit






Si le fichier n'est pas en utf-8 et que le commande iconv ne connaît pas l'encodage, on ne fait rien. Sinon on convertit.





Aucun commentaire:

Enregistrer un commentaire