La version Windows ne fonctionne pas sous Windows 2000
la commande que je veux utiliser est :
wget -i urls_esprit.txt -x -P “PAGES-ASPIREES”
wget recupere les urls dans le fichier urls_esprit.txt puis aspire les pages correspondantes et les stocke dans des sous dossiers du dossier "Pages aspirées" .
chaque sous dossier a pour nom le nom du site .
chaque fichier dans le sous dossier a pour nom le reste de l' url.
−x
−−force−directories
The opposite of −nd−−−create a hierarchy of directories, even if one would not have been created
otherwise. E.g. wget −x http://fly.srk.fer.hr/robots.txt will save the downloaded file to
fly.srk.fer.hr/robots.txt.
−P prefix
−−directory−prefix=prefix
Set directory prefix to prefix. The directory prefix is the directory where all other files and subdirectories
will be saved to, i.e. the top of the retrieval tree. The default is . (the current directory).
GNU
−i file
−−input−file=file
Read URLs from file. If − is specified as file, URLs are read from the standard input. (Use ./− to
read from a file literally named −.)
If this function is used, no URLs need be present on the command line. If there are URLs both on
the command line and in an input file, those on the command lines will be the first ones to be
retrieved. The file need not be an HTML document (but no harm if it is)−−−it is enough if the
URLs are just listed sequentially.
However, if you specify −−force−html, the document will be regarded as html. In that case you
may have problems with relative links, which you can solve either by adding <base
href="url"> to the documents or by specifying −−base=url on the command line.
il est également possible de concatener tous les fichiers aspirés en un seul fichier pour traitement ultérieur.
WGET peut stocker toutes les pages dans le même dossier mais toutes les pages qui portent le même nom sont renommées .html.1 .html.2 ce qui perturbe les browsers.