Jeudi 13 novembre 2008 4 13 /11 /Nov /2008 20:43
Wget a une version "Unix" et une version "Windows".
La version Windows ne fonctionne pas sous Windows 2000

la commande que je veux utiliser est :

wget -i urls_esprit.txt -x -P “PAGES-ASPIREES”

wget  recupere les urls dans le fichier urls_esprit.txt  puis  aspire les pages correspondantes et les stocke dans des sous dossiers du dossier "Pages aspirées" .
chaque sous dossier a pour nom le nom du site .
chaque fichier dans le sous dossier a pour nom le reste de l' url.

−x
−−force−directories
The opposite of −nd−−−create a hierarchy of directories, even if one would not have been created
otherwise. E.g. wget −x http://fly.srk.fer.hr/robots.txt will save the downloaded file to
fly.srk.fer.hr/robots.txt.

−P prefix
−−directory−prefix=prefix
Set directory prefix to prefix. The directory prefix is the directory where all other files and subdirectories
will be saved to, i.e. the top of the retrieval tree. The default is . (the current directory).
GNU

−i file
−−input−file=file
Read URLs from file. If − is specified as file, URLs are read from the standard input. (Use ./− to
read from a file literally named −.)
If this function is used, no URLs need be present on the command line. If there are URLs both on
the command line and in an input file, those on the command lines will be the first ones to be
retrieved. The file need not be an HTML document (but no harm if it is)−−−it is enough if the
URLs are just listed sequentially.
However, if you specify −−force−html, the document will be regarded as html. In that case you
may have problems with relative links, which you can solve either by adding <base
href="url"> to the documents or by specifying −−base=url on the command line.


il est également possible de concatener tous les fichiers aspirés en un seul fichier pour traitement ultérieur.

WGET peut stocker toutes les pages dans le même dossier mais toutes les pages qui portent le même nom sont renommées .html.1 .html.2  ce qui perturbe les browsers.  


 

Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Jeudi 13 novembre 2008 4 13 /11 /Nov /2008 20:00
A l'aide de Google , j' ai récupéré des liens vers des pages ( une cinquantaine pour chaque langue )

Dans les liens en langue thai , j' ai supprimé les urls contenant des caracteres thais

ex / www.ryt9.com/tag/ไมเนอร์+คอร์ปอเรชั่น/ 

 ( ils me posent des problèmes dans le fichier .txt !!!   entre autres  )
Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Jeudi 13 novembre 2008 4 13 /11 /Nov /2008 19:25


จันทร์พิณาวรรณ ทฺริยานนท์

Comme je fais de la traduction français - thai et thai- français et que j' ai fait mes études en Thailande en langue anglaise , j'ai choisi de traiter le mot esprit  en français , spirit en anglais et   จิตใจ       ความคิด    จิต      en  thai .

Je vais retracer les étapes de mon projet.

J' utilise un PC portable avec Windows Vista . Le disque est partitionné avec C: et D: mais D est limité à contenir la restauration du systeme.

J'ai installé Cygwin mais la version CYGWIN-X n'est pas supportée par mon precesseur Intel "64" bits .

Donc je suis réduite à Cygwin "basic" pas très ergonomique:
L' écran noir et les caractères blancs .
Les lignes de commande .
Pas de copier/coller
Pas de souris .

Juste les touches curseur du clavier dont  "^" pour récupérer les commandes précédentes .

Free va bientôt me fournir ma connexion Internet , j' attends leur Freebox.

Par tukta
Ecrire un commentaire - Voir les 0 commentaires

Présentation

Créer un Blog

Recherche

Calendrier

Juin 2012
L M M J V S D
        1 2 3
4 5 6 7 8 9 10
11 12 13 14 15 16 17
18 19 20 21 22 23 24
25 26 27 28 29 30  
<< < > >>
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus