Path: csiph.com!news.redatomik.org!nntpfeed.proxad.net!proxad.net!feeder1-2.proxad.net!cleanfeed3-b.proxad.net!nnrp3-2.free.fr!not-for-mail Newsgroups: fr.comp.sys.mac.programmation Subject: Re: [AS] Coup de pouce From: benoit@com.invalid (Benoit) Date: Mon, 16 May 2016 23:55:51 +0200 Message-ID: <1mnd7pp.mxkyk99ciukgN%benoit@com.invalid> References: <1mnbc65.1rxu8md1me4668N%benoit@com.invalid> <1mnc6nw.1n5yv0e18sa2igN%josephb@nowhere.invalid> <1mncbcg.19osbfiplxyy1N%benoit@com.invalid> <1mncblt.1i3cpjy1t1bcsgN%josephb@nowhere.invalid> <1mnccys.ydvxf2r0n8saN%benoit@com.invalid> <1mncenj.1sv7o7c1wi8qucN%josephb@nowhere.invalid> <1mncnvs.lbhy0g1h37ffmN%benoit@com.invalid> <1mncsv6.gn5kmt1sshkq7N%josephb@nowhere.invalid> <1mncyjv.1lflex5fkgrh6N%benoit@com.invalid> <1mnd1nq.akf5oxyzqec9N%josephb@nowhere.invalid> MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit X-No-Archive: Yes User-Agent: MacSOUP/2.8.4 (6da4d6e6d0) (Mac OS X version 10.11.4 (x86)) Lines: 73 Organization: Guest of ProXad - France NNTP-Posting-Date: 16 May 2016 23:55:51 CEST NNTP-Posting-Host: 78.194.239.15 X-Trace: 1463435751 news-4.free.fr 19740 78.194.239.15:51277 X-Complaints-To: abuse@proxad.net Xref: csiph.com fr.comp.sys.mac.programmation:1414 Joseph-B wrote: > > Sinon, je viens de retrouver sur mon disque un dossier qui contient pas > > loin de 50 000 pages html avec des expressions et des « traductions ». > > > > Je n'arrive pas à transcoder les pages html en .txt, je travaille dessus > > puisque Textedit sait les ouvrir en .rtf, puis les modifier en txt. Mais > > je n'ai rien trouver dans le dictionnaire de TextEdit qui permette de le > > faire. > > Ton amie est la commande shell > va lire le man de textutil. > mais intégré dans un script AppleScript ça donne ça : > Pour les besoins de la démonstration j'ai exporté les signets de Safari > sur le bureau, au format .html > ∞∞∞∞∞∞∞∞∞∞∞∞∞∞∞ > set myHtmlFile to "/Users/macpro/Desktop/Signets Safari.html" > do shell script ("textutil -convert txt " & quoted form of myHtmlFile) > ∞∞∞∞∞∞∞∞∞∞∞∞∞∞∞ > L'original n'est pas écrasé, un fichier .txt de même nom est créé avec > les données débarrssées des balise html Merci beaucoup, un cmd-shift-L a immédiatement été effectué. > > Si j'arrive à le faire, je suis sûr de pouvoir avoir un « repeat with > > every file in selection » qui me transcode le tout en txt puis fais des > > actions pour ramener ça dans un seul fichier que je nettoie avant de > > l'exploser. > > Voilà, tu as l'outil pour, maintenant il te reste à faire ta cuisine ;-) M'en parle pas, je viens de terminer mon cheesecake. Il sera prêt demain pour le petit déjeuner. Heuresement que la semaine ne fait que quatre jours. On est en mai n'oublions pas ;) > > Avec ma dizaine de sources d'info et la redondance qui en découle (même > > mot/nom de fichier mais plusieurs sources) j'ai plutôt envie de n'avoir > > qu'une seule entrée (le moins possible), avec plusieurs définitions > > dedans plutôt que plusieurs fichiers avec une seule et même définition. > > Si le nom du fichier existe, je rajoute ce que j'ai à la suite. Ce sera > > mieux que numéroter, et dans l'aperçu de SpotLight j'aurai une preview > > plus intéressante. Ce n'est pas top de faire défiler les fichiers et > > voir la même chose. > > Si tu as plusieurs définitions donc plusieurs paragraphes par entrée, le > script que je t'ai fait ne marche plus… > Non seulement parce que plusieurs paragraphes pour un nom, mais aussi > parce que chaque définition va être introduite par une ou plusieurs > tabulations, dans un souci d'alignement et lisibilité, non ? Non, pas de pb. Le format retenu est trois « colonnes » : Nom genre définition/synonymes... Alors d'avoir plusieurs blocs comme ça les uns en-dessous des autres ne me gène pas. Si le nom apparaît plusieurs fois ce n'est pas grave. > > La barre ne cesse de grimper :) > > Oui, ilfaut que tu mettes ça bien au carré avant de te lancer, et > préparer le/les scripts qui vont t'aider à automatiser ces tâches. C'est justement ça, j'ai déjà mis tous mes autres fichiers sur le même format nom/genre/déf. J'ai encore trois paquets de html à transformer, dont le monstre. Ceux sur lesquels j'ai recommencé à bosser datent de 2010 et je retrouve des scripts à droite et à gauche. Comme je n'ai mis aucun commentaire dans le code... pas facile de savoir ce qu'ils font sans lire et relire ce foutu code :) -- "La théorie, c'est quand on sait tout et que rien ne fonctionne. La pratique, c'est quand tout fonctionne et que personne ne sait pourquoi. Ici, nous avons réuni théorie et pratique : Rien ne fonctionne... et personne ne sait pourquoi !" [ Albert Einstein ]