Samedi 6 décembre 2008 6 06 /12 /Déc /2008 18:46

1) Je viens de découvrir que lynx ne récupère pas cette page : www.rakdee.net\young_arom.html

En fait IE accepte le lien mais pas Lynx à cause du caractère \ ( IE le transforme automatiquement en / )

2)Les pages dumpées par lynx avec des caractères thais peuvent être "lues" par IE même  si elles ne sont plus des pages html correctes. IE affiche les balises html et le texte thai.

Pour une page récupérée avec Lynx et contenant des caractères thais , il n' y a pas de problèmes si on lit la page avec IE  , par contre Notepad ++ n' affiche pas les caractètes thais si on ne spécifie pas le format utf 8 !!

Donc elles peuvent  être clickable dans un tableau  mais avec  l' extension . txt ( qui n' est pas attachée à IE ) elles seront ouvertes par Notepad qui n' affiche pas le thai.

3)Sous Vista: ne pas oublier de donner toutes les autorisations nécessaires  pour écrire dans le dossier projet.

4)Avec certaines pages comme :  www.novabizz.com/NovaAce/Spiritual/Spirituality.htm qui est lue sans problème par IE

avec Lynx on ne récupère pas la page et on obtient  un message d' erreur lors de l' exécution

sous XP : pas de message

sous  Vista  : "la zone de données passée lors d' un appel système est insuffisante"  en anglais  "the data area passed to a system call is too small"

sous Cygwin :   the requested URL :  /novaace/spiritual/spirituality.htm  does not exist    404 not found

avec wget  on obtient  : error 404 not found

 

le Lynx est fait sur les pages Internet , on peut envisager de le faire sur la page aspirée par wget

mais il n' empêche que le texte obtenu après Lynx est trop pollué par les balises html pour être utilisable.

 

Pour lire le résultat du dump par Lynx , le meilleur outil est Wordpad !!

Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Retour à l'accueil

Présentation

Créer un Blog

Recherche

Calendrier

Juin 2012
L M M J V S D
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  
<< < > >>
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus