Groups | Search | Server Info | Login | Register


Groups > fr.comp.applications.editeurs-de-texte > #270

Re: tri ou sélection spéciale

From Benoit Izac <use.reply.to@INVALID.ADDRESS>
Newsgroups fr.comp.applications.editeurs-de-texte
Subject Re: tri ou sélection spéciale
Date 2017-01-02 13:57 +0100
Message-ID <8737h1hb5b.fsf@izac.org> (permalink)
References <c2d7e7c8266839cbcb40bb4bbeb0599b96ba36c1@news.nemoweb.net> <alpine.LSU.2.20.13.1701021244570.2543@coulomb.u-pec.fr> <c461f35a61490395376eba93cb6b0d2fc16f6bfd@news.nemoweb.net>

Show all headers | View raw


Bonjour,

Le 02/01/2017 à 13:29, siger a écrit dans le message
<c461f35a61490395376eba93cb6b0d2fc16f6bfd@news.nemoweb.net> :

>>> Ce que je voudrais faire : extraire les adresses mél de manière
>>> automatique. J'ai mis "XML" dans Notepad++, ça met des choses en
>>> couleur, mais je ne vois pas comment ne sélectionner que ce qu'il
>>> y a dans la couleur choisie.
>>>
>>> Y a t-il une possibilité, avec un éditeur ou un traitement de texte
>>> ou autre chose, avec les expressions régulières, ... ?
>  
>> Es-tu prêt à installer MinGW pour ça, si tu ne l'as pas déjà ? Parce
>> que ça devrait se faire assez facilement avec des outils en ligne de
>> commande tels que grep, sort, uniq...
>
> (comme il se doit, j'ai oublié de dire que j'utilise XP)
> Je ne connais pas, mais pourquoi pas ? J'en trouverai peut-être d'autres
> usages.
>
>>> Le but est d'avoir ce qu'il y a après le @ afin de trier sur ça et
>>> repérer les redondances afin d'affiner mes tris de spam, car mon
>>> courrielleur ne me permet que de trier pas adresse mél complète.
>
>> Tu devrais donner un bout de fichier typique et le résultat escompté.
>
> Extrait du texte :
> 0cf6ce3157e8b001Sujet_spam_1 <adresse@spameur-1>
> moi@moi<1b212fdc175e00678ba558bc8a92231e@www.blablabla.com>57e89bc557e89be257e8e74e1dc3012001030UTF-8;;0
> 1dc6cf6ce3957e8b001Sujet_spam_2 <adresse@spameur-2>
> moi@moi<1473481220.gm3dqljzhe2c2mztga2daoa@blobloblo.com>57d38a0457d3c2ba57e8e7137d22012009030UTF-8;;0
> 9aebcf6ce3c57e8b001Sujet_spam_3 <adresse@spameur-3>
> <moi@moi><201609071316.11dzawil07wx3j@bliblibli.fr>57cff71b57d02d1c57e8e70b12b0b012009030UTF-8;;0

Les différents champs ne sont pas clairement définis :

 1. comment différencier la partie hexadécimale du sujet ? Dans ton
 exemple, la partie hexadécimale n'a pas la même longueur entre les
 trois lignes.
 2. c'est « moi@moi » ou « <moi@moi> » ?
 3. y a-t-il des retours à la ligne ou est-ce coupé par ton logiciel de
 news ?

> Je cherche à extraire les adresses mél. Je pourrai facilement supprimer
> la mienne, puis utiliser l'@ comme séparateur pour faire un tableau des
> autres adresses. C'est une méthode.
>
> Le but est d'arriver à lister :
> spameur-1
> spameur-2
> spameur-3

En considérant que l'adresse du spammeur est toujours la première entre
les « <> » et que tout est sur une seule ligne, c'est assez facile
à faire avec sed :

% sed -e 's/^[^<]*<[^@]*@\([^>]*\)>.*$/\1/' < input
spameur-1
spameur-2
spameur-3

Explications :

depuis le début de la ligne (^)
0 ou plusieurs caractères différents de « < » ([^<]*)
un « < » (<)
0 ou plusieurs caractères différents de « @ » ([^@]*)
un « @ » (@)
0 ou plusieurs caractères différents de « > » que l'on capture (\([^>]*\))
un « > » (>)
0 ou plusieurs caractères jusqu'à la fin de la ligne (.*$)
et finalement, on remplace tout cela par la capture (\1)


Pour trier, rajouter « | sort ». Pour supprimer les redondances,
rajouter (après le tri) « | uniq ». L'option « -c » d'uniq permet
d'avoir également un compteur pour chaque domaine.

sed -e 's/^[^<]*<[^@]*@\([^>]*\)>.*$/\1/' < input | sort | uniq -c

Sous Windows, j'ai plutôt tendance à installer Cygwin pour faire ce
genre de choses.

-- 
Benoit Izac

Back to fr.comp.applications.editeurs-de-texte | Previous | NextPrevious in thread | Next in thread | Find similar


Thread

tri ou sélection spéciale siger <guinness@hic.invalid> - 2017-01-01 20:52 +0000
  Re: tri ou sélection spéciale Lucas Levrel <lucas.levrel@u-pec.fr> - 2017-01-02 12:47 +0100
    Re: tri ou sélection spéciale siger <guinness@hic.invalid> - 2017-01-02 12:29 +0000
      Re: tri ou sélection spéciale Benoit Izac <use.reply.to@INVALID.ADDRESS> - 2017-01-02 13:57 +0100
        Re: tri ou sélection spéciale siger <guinness@hic.invalid> - 2017-01-02 13:35 +0000
          Re: tri ou sélection spéciale siger <guinness@hic.invalid> - 2017-01-02 13:48 +0000
            Re: tri ou sélection spéciale Benoit Izac <use.reply.to@INVALID.ADDRESS> - 2017-01-02 16:53 +0100
              Re: tri ou sélection spéciale Benoit Izac <use.reply.to@INVALID.ADDRESS> - 2017-01-02 16:55 +0100
          Re: tri ou sélection spéciale Lucas Levrel <lucas.levrel@u-pec.fr> - 2017-01-02 15:07 +0100
            Re: tri ou sélection spéciale siger <guinness@hic.invalid> - 2017-01-02 14:08 +0000
  Re: tri ou sélection spéciale siger <guinness@hic.invalid> - 2017-01-28 13:53 +0000

csiph-web