Groups | Search | Server Info | Keyboard shortcuts | Login | Register [http] [https] [nntp] [nntps]
Groups > de.comp.os.unix.programming > #2988
| Path | csiph.com!fu-berlin.de!uni-berlin.de!individual.net!not-for-mail |
|---|---|
| From | Stefan Reuther <stefan.news@arcor.de> |
| Newsgroups | de.comp.os.unix.programming |
| Subject | Re: utf8 + character classification |
| Date | Thu, 18 Nov 2021 17:42:20 +0100 |
| Lines | 26 |
| Message-ID | <sn639t.5jg.1@stefan.msgid.phost.de> (permalink) |
| References | <sn31uq$2u6$1@dont-email.me> |
| Mime-Version | 1.0 |
| Content-Type | text/plain; charset=utf-8 |
| Content-Transfer-Encoding | 8bit |
| X-Trace | individual.net TwdB1/pVHbfi18jWjUerHwPsjfteIHj9MHT7v+eQcdj4GmIMSk |
| Cancel-Lock | sha1:FmilojmQms0OmDRUYjxtKz1tJjY= |
| User-Agent | Mozilla/5.0 (Windows NT 6.1; WOW64; rv:68.0) Gecko/20100101 Thunderbird/68.12.1 Hamster/2.1.0.1538 |
| In-Reply-To | <sn31uq$2u6$1@dont-email.me> |
| Xref | csiph.com de.comp.os.unix.programming:2988 |
Show key headers only | View raw
Am 17.11.2021 um 15:00 schrieb Markus Schaaf:
> ich schreibe gerade ein paar Minitools, die XML-Dateien lesen. Ich
> möchte keine der üblichen Parser-Libs benutzen. Die sind viel zu komplex
> und schwergewichtig. Mir reichen mmap(), memchr() und memcmp(). XML ist
> per Default UTF-8, und ich bräuchte ein Unicode-fähiges isalpha(), um
> Element-Namen zu prüfen, unabhängig vom Locale. Was ist da die
> empfehlenswerte Variante, wenn ich etwas haben will, das fast überall
> verfügbar ist, oder leichtgewichtig genug, um es mitzubringen? Letztlich
> würde mir eine Liste mit Code-Points, die ich eincompiliere, auch
> reichen.
Wenn du dich für die "Liste mit Code-Points" entscheidest, da sollte
sich aus der UnicodeData.txt mit ein paar regulären Ausdrücken was
generieren lassen.
awk -F ';' '$3 ~ /L/ {print "case 0x" $1 ":"}' < UnicodeData.txt
Die Frage wäre: muss man in einem "Minitool" wirklich die Element-Namen
prüfen? Mir reicht ja, die Daten an Metazeichen (<>"&=) und Leerzeichen
aufzuspalten, und ob das, was da zwischen den <> steht, nur ein
unbekannter oder gar ein ungültiger Tag-Name ist, ist mir egal. Da
braucht's dann nur eine Liste der gültigen Leerzeichen, die ist deutlich
übersichtlicher.
Stefan
Back to de.comp.os.unix.programming | Previous | Next — Previous in thread | Next in thread | Find similar
utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:00 +0100
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:12 +0100
Re: utf8 + character classification Christian Schumacher <cs.spam@nurfuerspam.de> - 2021-11-17 16:17 +0000
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:10 +0100
Re: utf8 + character classification Michael Bäuerle <michael.baeuerle@stz-e.de> - 2021-11-17 16:35 +0100
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:02 +0100
Re: utf8 + character classification Stefan Reuther <stefan.news@arcor.de> - 2021-11-18 17:42 +0100
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-18 21:22 +0100
Re: utf8 + character classification Bonita Montero <Bonita.Montero@gmail.com> - 2021-11-18 20:32 +0100
Re: utf8 + character classification Markus Franzke <opa-krempel@web.de> - 2021-11-21 11:13 +0100
csiph-web