On peut me demander leur envoi par mail.
Comme le mot "esprit" ne donnait pas de résultats satisfaisants ( trop de pollution par des marques commerciales ) , je vais tester le mot "galuchat" "shargreen" et puis cela peut toujours servir !!
Aussi j' ai écrit un programme pour récupérer les liens url contenus dans une page de recherche de G**gle. ( enfin une page sauvegardée sur mon disque parce que G**gle ..... ) avec des filtres qui me conviennent .
note: un peu brut et pas fini mais efficace .
programme ( supprimé ; me demander l' envoi par mail )
sous Active Perl Windows XP et Vista ?
Telecharger nmake de Microsoft dans le dossier perl/lib/html )
http://download.microsoft.com/downlo...US/Nmake15.exe
Quand vous avez nmake15.exe, son execution va créer 3 fichiers (nmake.exe, nmake.err, & a readme).
Maintenant vous pouvez installer le module .
Exemple:
Pour installer the SimpleLinkExtor module, telecharger le tar.gz
et extraire ( avec 7Zip ) les fichiers dans le dossier perl/lib/html .
Puis "Executer" cmd /k :
perl Makefile.PL
c:\nmake\nmake.exe
c:\nmake\nmake.exe test
c:\nmake\nmake.exe install
c:\nmake\nmake.exe clean
la doc originale : ( supprimée ; me demander l' envoi par mail )
-------------------------------------------------------------------------------
1) Je viens de découvrir que lynx ne récupère pas cette page : www.rakdee.net\young_arom.html
En fait IE accepte le lien mais pas Lynx à cause du caractère \ ( IE le transforme automatiquement en / )
2)Les pages dumpées par lynx avec des caractères thais peuvent être "lues" par IE même si elles ne sont plus des pages html correctes. IE affiche les balises html et le texte thai.
Pour une page récupérée avec Lynx et contenant des caractères thais , il n' y a pas de problèmes si on lit la page avec IE , par contre Notepad ++ n' affiche pas les caractètes thais si on ne spécifie pas le format utf 8 !!
Donc elles peuvent être clickable dans un tableau mais avec l' extension . txt ( qui n' est pas attachée à IE ) elles seront ouvertes par Notepad qui n' affiche pas le thai.
3)Sous Vista: ne pas oublier de donner toutes les autorisations nécessaires pour écrire dans le dossier projet.
4)Avec certaines pages comme : www.novabizz.com/NovaAce/Spiritual/Spirituality.htm qui est lue sans problème par IE
avec Lynx on ne récupère pas la page et on obtient un message d' erreur lors de l' exécution
sous XP : pas de message
sous Vista : "la zone de données passée lors d' un appel système est insuffisante" en anglais "the data area passed to a system call is too small"
sous Cygwin : the requested URL : /novaace/spiritual/spirituality.htm does not exist 404 not found
avec wget on obtient : error 404 not found
le Lynx est fait sur les pages Internet , on peut envisager de le faire sur la page aspirée par wget
mais il n' empêche que le texte obtenu après Lynx est trop pollué par les balises html pour être utilisable.
Pour lire le résultat du dump par Lynx , le meilleur outil est Wordpad !!
Pour le thaï, le texte est fait en longueur, très longue suite de caractères, sans espace entre les mots mais retour à la ligne à la fin du dernier mot sur la ligne . Et il peut avoir des "accents" représentant les voyelles ou les tons en dessus et en dessous des caractères qui sont sur la ligne..
Texte sans blanc de séparation
พระพุทธเจ้าของเราตรัสว่าธรรมะของเราเป็นธรรมะที่ฝืนโลกคือธรรมะที่รักษาโรคบางคนเป็นแผลแล้วก็ไม่อยากใส่ยาเพราะมันแสบทั้งๆที่รู้ว่าใส่ยาแล้วก็จะหายแต่ก็ไม่ยอมใส่แล้วแผลนั้นก็เน่าเฟะเพราะฉะนั้นการใส่ยาให้แก่ตัวเองก็ถือว่าเป็นการเดินเข้าไปสู่มัชฌิมาปฏิปทาเริ่มต้นด้วยความคับแคบต่างจาก สัตว์นรก เทวดา พรหม อันมีหนทางที่กว้าง
Texte avec blanc de séparation
พระพุทธเจ้าของเราตรัสว่า ธรรมะของเราเป็นธรรมะที่ฝืนโลก คือ ธรรมะที่รักษาโรค บางคนเป็นแผลแล้วก็ไม่อยากใส่ยา เพราะมันแสบ ทั้งๆ ที่รู้ว่าใส่ยาแล้วก็จะหาย แต่ก็ไม่ยอมใส่ แล้วแผลนั้นก็เน่าเฟะ เพราะฉะนั้น การใส่ยาให้แก่ตัวเองก็ถือว่าเป็นการเดินเข้าไปสู่มัชฌิมาปฏิปทา เริ่มต้นด้วยความคับแคบต่างจากสัตว์นรก เทวดา พรหม อันมีหนทางที่กว้าง
Un exemple de texte thai ( style de document officiel ) 65 mots
เรา, พันธมิตรประชาชนเพื่อประชาธิปไตย เชื่อว่ารัฐบาลของท่าน จะได้กระทำผิดพลาดอย่างร้ายแรงที่ได้ยินยอมให้อดีตนายกรัฐมนตรี พ.ต.ท.ทักษิณ ชินวัตร พร้อมด้วยภรรยา, คุณหญิงพจมาน ชินวัตร ลี้ภัยอยู่ในสหราชอาณาจักร เราขอให้ ฯพณฯ ได้ส่งผ่านจดหมายฉบับนี้ไปยังนายกรัฐมนตรี นายกอร์ดอน บราวน์ และสมาชิกสภาผู้แทนราษฎรในสหราชอาณาจักร เพื่อนำไปพิจารณาตัดสินใจอย่างรอบคอบ
et sa traduction française
Nous, l'Alliance populaire pour la démocratie, croyons que votre gouvernement va faire une grave erreur en permettant à l' ancien Premier ministre Thaksin Shinawatra et à son épouse, Pojamarn Shinawatra, de trouver asile au Royaume-Uni. Nous vous demandons de transmettre cette lettre au Premier ministre Gordon Brown et aux membres du Parlement du Royaume-Uni et d' examiner soigneusement votre décision.
Dans un autre exemple , le bloc phrasal :จะได้กระทำผิดพลาดอย่างร้ายแรงที่ได้ยินยอมให้อดีตนายกรัฐมนตรี
peut être segmenté en : จะ ได้ กระทำ ผิดพลาด อย่าง ร้ายแรง ที่ ได้ ยินยอม ให้ อดีต นายกรัฐมนตรี
( à noter que l' outil statistique de Word donne le nombre correct de mots dans le bloc non segmenté !!!)
Sur les pages faites en thai pour internet , les auteurs séparent généralement les mots .
pour donner une idée de la difficulté un exemple équivalent en français : jaimemere pourrait être interprété : "j' aime mère" ou "j' ai méméré".( c' est du Québecois !!)
Attention , le fichier motif.txt doit contenir le prefixe MOTIF= devant la forme à rechercher
| Février 2012 | ||||||||||
| L | M | M | J | V | S | D | ||||
| 1 | 2 | 3 | 4 | 5 | ||||||
| 6 | 7 | 8 | 9 | 10 | 11 | 12 | ||||
| 13 | 14 | 15 | 16 | 17 | 18 | 19 | ||||
| 20 | 21 | 22 | 23 | 24 | 25 | 26 | ||||
| 27 | 28 | 29 | ||||||||
|
||||||||||