Une fois nos URLs aspirées, grâce à la commande curl, et la récupération du contenu textuel que nous avons obtenue grâce à la commande lynx (moteur de recherche qui affiche uniquement le texte), nous souhaitons connaître l'encodage de la page aspirée et la changer si elle n'est pas en utf-8.
Pour cela nous utilisons deux commandes :
file : détermine le type de la page que nous avons aspirée précédemment et nous indique l'encodage utilisé.
iconv : convertit le fichier dans l'encodage que nous souhaitons, s'il le connaît. Avec l'option -f nous précisons à la commande iconv, l'encodage dans lequel nous souhaitons que le fichier soit converti (ici, en utf-8).
Procédure :
Si le fichier est déjà en utf-8, on ne fait rien
Si le fichier n'est pas en utf-8 et que la commande iconv connaît l'encodage, on convertit
Si le fichier n'est pas en utf-8 et que le commande iconv ne connaît pas l'encodage, on ne fait rien. Sinon on convertit.