Vendredi 9 janvier 2009 5 09 /01 /Jan /2009 14:35
Pour améliorer la visibilté des articles , j' ai supprimé les sources.
On peut me  demander leur envoi par mail.
Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Vendredi 19 décembre 2008 5 19 /12 /Déc /2008 14:13

Comme le mot "esprit" ne donnait pas de résultats satisfaisants ( trop de pollution par des marques commerciales ) , je vais tester le mot "galuchat" "shargreen" et puis cela peut toujours servir !!

Aussi j' ai écrit un programme pour récupérer les liens url contenus dans une page de recherche de G**gle. ( enfin une page sauvegardée sur mon disque parce que G**gle ..... ) avec des filtres qui me conviennent .

note: un peu brut et pas fini mais efficace .

programme ( supprimé ;  me demander l' envoi par mail  )

Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Mercredi 17 décembre 2008 3 17 /12 /Déc /2008 15:45

 

 

 

sous Active Perl Windows XP  et Vista ?

Telecharger nmake de Microsoft  dans le dossier perl/lib/html )
http://download.microsoft.com/downlo...US/Nmake15.exe
Quand vous avez nmake15.exe, son execution  va créer 3 fichiers  (nmake.exe, nmake.err, & a readme).

Maintenant vous pouvez installer le module .
Exemple:
Pour installer the SimpleLinkExtor module, telecharger le tar.gz

HTML-SimpleLinkExtor

et  extraire ( avec 7Zip ) les fichiers dans le dossier  perl/lib/html  .

Puis "Executer"  cmd /k  :
perl Makefile.PL
c:\nmake\nmake.exe
c:\nmake\nmake.exe test
c:\nmake\nmake.exe install
c:\nmake\nmake.exe clean


 

la doc originale :  ( supprimée ;  me demander l' envoi par mail  )

-------------------------------------------------------------------------------

Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Samedi 6 décembre 2008 6 06 /12 /Déc /2008 18:46

1) Je viens de découvrir que lynx ne récupère pas cette page : www.rakdee.net\young_arom.html

En fait IE accepte le lien mais pas Lynx à cause du caractère \ ( IE le transforme automatiquement en / )

2)Les pages dumpées par lynx avec des caractères thais peuvent être "lues" par IE même  si elles ne sont plus des pages html correctes. IE affiche les balises html et le texte thai.

Pour une page récupérée avec Lynx et contenant des caractères thais , il n' y a pas de problèmes si on lit la page avec IE  , par contre Notepad ++ n' affiche pas les caractètes thais si on ne spécifie pas le format utf 8 !!

Donc elles peuvent  être clickable dans un tableau  mais avec  l' extension . txt ( qui n' est pas attachée à IE ) elles seront ouvertes par Notepad qui n' affiche pas le thai.

3)Sous Vista: ne pas oublier de donner toutes les autorisations nécessaires  pour écrire dans le dossier projet.

4)Avec certaines pages comme :  www.novabizz.com/NovaAce/Spiritual/Spirituality.htm qui est lue sans problème par IE

avec Lynx on ne récupère pas la page et on obtient  un message d' erreur lors de l' exécution

sous XP : pas de message

sous  Vista  : "la zone de données passée lors d' un appel système est insuffisante"  en anglais  "the data area passed to a system call is too small"

sous Cygwin :   the requested URL :  /novaace/spiritual/spirituality.htm  does not exist    404 not found

avec wget  on obtient  : error 404 not found

 

le Lynx est fait sur les pages Internet , on peut envisager de le faire sur la page aspirée par wget

mais il n' empêche que le texte obtenu après Lynx est trop pollué par les balises html pour être utilisable.

 

Pour lire le résultat du dump par Lynx , le meilleur outil est Wordpad !!

Par tukta
Ecrire un commentaire - Voir les 0 commentaires
Samedi 6 décembre 2008 6 06 /12 /Déc /2008 00:53

 

Pour le thaï, le texte est fait en longueur, très longue suite de caractères, sans espace entre les mots mais  retour à la ligne à la fin du dernier mot sur la ligne . Et il peut avoir des "accents" représentant les voyelles ou les tons en dessus et en dessous des caractères qui sont sur la ligne..

Texte sans blanc de séparation

พระพุทธเจ้าของเราตรัสว่าธรรมะของเราเป็นธรรมะที่ฝืนโลกคือธรรมะที่รักษาโรคบางคนเป็นแผลแล้วก็ไม่อยากใส่ยาเพราะมันแสบทั้งๆที่รู้ว่าใส่ยาแล้วก็จะหายแต่ก็ไม่ยอมใส่แล้วแผลนั้นก็เน่าเฟะเพราะฉะนั้นการใส่ยาให้แก่ตัวเองก็ถือว่าเป็นการเดินเข้าไปสู่มัชฌิมาปฏิปทาเริ่มต้นด้วยความคับแคบต่างจาก สัตว์นรก เทวดา พรหม อันมีหนทางที่กว้าง

Texte avec blanc de séparation

พระพุทธเจ้าของเราตรัสว่า ธรรมะของเราเป็นธรรมะที่ฝืนโลก คือ ธรรมะที่รักษาโรค บางคนเป็นแผลแล้วก็ไม่อยากใส่ยา เพราะมันแสบ ทั้งๆ ที่รู้ว่าใส่ยาแล้วก็จะหาย แต่ก็ไม่ยอมใส่ แล้วแผลนั้นก็เน่าเฟะ เพราะฉะนั้น การใส่ยาให้แก่ตัวเองก็ถือว่าเป็นการเดินเข้าไปสู่มัชฌิมาปฏิปทา เริ่มต้นด้วยความคับแคบต่างจากสัตว์นรก เทวดา พรหม อันมีหนทางที่กว้าง

Un exemple de texte thai ( style de document officiel ) 65 mots

เรา, พันธมิตรประชาชนเพื่อประชาธิปไตย เชื่อว่ารัฐบาลของท่าน จะได้กระทำผิดพลาดอย่างร้ายแรงที่ได้ยินยอมให้อดีตนายกรัฐมนตรี พ.ต.ท.ทักษิณ ชินวัตร พร้อมด้วยภรรยา, คุณหญิงพจมาน ชินวัตร ลี้ภัยอยู่ในสหราชอาณาจักร เราขอให้ ฯพณฯ ได้ส่งผ่านจดหมายฉบับนี้ไปยังนายกรัฐมนตรี นายกอร์ดอน บราวน์ และสมาชิกสภาผู้แทนราษฎรในสหราชอาณาจักร เพื่อนำไปพิจารณาตัดสินใจอย่างรอบคอบ

et sa traduction française

Nous, l'Alliance populaire pour la démocratie, croyons que votre gouvernement va faire une grave erreur en permettant à l' ancien Premier ministre Thaksin Shinawatra et à son épouse, Pojamarn Shinawatra, de trouver asile au Royaume-Uni. Nous vous demandons de transmettre cette lettre au Premier ministre Gordon Brown et aux membres du Parlement du Royaume-Uni et d' examiner soigneusement votre décision.

Dans un autre exemple , le bloc phrasal  :จะได้กระทำผิดพลาดอย่างร้ายแรงที่ได้ยินยอมให้อดีตนายกรัฐมนตรี

peut être segmenté en :                          จะ ได้ กระทำ ผิดพลาด อย่าง ร้ายแรง ที่ ได้ ยินยอม ให้ อดีต นายกรัฐมนตรี

( à noter que l' outil statistique de Word donne le nombre correct de mots dans le bloc non segmenté !!!)

Sur les pages faites en thai pour internet , les auteurs séparent généralement les mots .

pour donner une idée de la difficulté un exemple équivalent en français  : jaimemere  pourrait être interprété :  "j' aime mère" ou  "j' ai méméré".( c' est du Québecois !!)

 

Attention , le fichier motif.txt doit contenir le prefixe MOTIF= devant la forme à rechercher

Par tukta
Ecrire un commentaire - Voir les 0 commentaires

Présentation

Créer un Blog

Recherche

Calendrier

Février 2012
L M M J V S D
    1 2 3 4 5
6 7 8 9 10 11 12
13 14 15 16 17 18 19
20 21 22 23 24 25 26
27 28 29        
<< < > >>
Créer un blog gratuit sur over-blog.com - Contact - C.G.U. - Rémunération en droits d'auteur - Signaler un abus