Groups > de.comp.os.unix.programming > #2988

Re: utf8 + character classification

From	Stefan Reuther <stefan.news@arcor.de>
Newsgroups	de.comp.os.unix.programming
Subject	Re: utf8 + character classification
Date	2021-11-18 17:42 +0100
Message-ID	<sn639t.5jg.1@stefan.msgid.phost.de> (permalink)
References	<sn31uq$2u6$1@dont-email.me>

Show all headers | View raw

Am 17.11.2021 um 15:00 schrieb Markus Schaaf:
> ich schreibe gerade ein paar Minitools, die XML-Dateien lesen. Ich
> möchte keine der üblichen Parser-Libs benutzen. Die sind viel zu komplex
> und schwergewichtig. Mir reichen mmap(), memchr() und memcmp(). XML ist
> per Default UTF-8, und ich bräuchte ein Unicode-fähiges isalpha(), um
> Element-Namen zu prüfen, unabhängig vom Locale. Was ist da die
> empfehlenswerte Variante, wenn ich etwas haben will, das fast überall
> verfügbar ist, oder leichtgewichtig genug, um es mitzubringen? Letztlich
> würde mir eine Liste mit Code-Points, die ich eincompiliere, auch
> reichen.

Wenn du dich für die "Liste mit Code-Points" entscheidest, da sollte
sich aus der UnicodeData.txt mit ein paar regulären Ausdrücken was
generieren lassen.

    awk -F ';' '$3 ~ /L/ {print "case 0x" $1 ":"}' < UnicodeData.txt

Die Frage wäre: muss man in einem "Minitool" wirklich die Element-Namen
prüfen? Mir reicht ja, die Daten an Metazeichen (<>"&=) und Leerzeichen
aufzuspalten, und ob das, was da zwischen den <> steht, nur ein
unbekannter oder gar ein ungültiger Tag-Name ist, ist mir egal. Da
braucht's dann nur eine Liste der gültigen Leerzeichen, die ist deutlich
übersichtlicher.


  Stefan

Back to de.comp.os.unix.programming | Previous | Next — Previous in thread | Next in thread | Find similar

Thread

utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:00 +0100
  Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:12 +0100
    Re: utf8 + character classification Christian Schumacher <cs.spam@nurfuerspam.de> - 2021-11-17 16:17 +0000
      Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:10 +0100
  Re: utf8 + character classification Michael Bäuerle <michael.baeuerle@stz-e.de> - 2021-11-17 16:35 +0100
    Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:02 +0100
  Re: utf8 + character classification Stefan Reuther <stefan.news@arcor.de> - 2021-11-18 17:42 +0100
    Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-18 21:22 +0100
  Re: utf8 + character classification Bonita Montero <Bonita.Montero@gmail.com> - 2021-11-18 20:32 +0100
  Re: utf8 + character classification Markus Franzke <opa-krempel@web.de> - 2021-11-21 11:13 +0100

csiph-web