Re: utf8 + character classification

From	Markus Franzke <opa-krempel@web.de>
Newsgroups	de.comp.os.unix.programming
Subject	Re: utf8 + character classification
Date	2021-11-21 11:13 +0100
Message-ID	<snd657$fpq$1@solani.org> (permalink)
References	<sn31uq$2u6$1@dont-email.me>

Show all headers | View raw

Am 17.11.21 um 15:00 schrieb Markus Schaaf:
> Hallo,
> 
> ich schreibe gerade ein paar Minitools, die XML-Dateien lesen. Ich 
> möchte keine der üblichen Parser-Libs benutzen. Die sind viel zu komplex 
> und schwergewichtig. Mir reichen mmap(), memchr() und memcmp(). XML ist 
> per Default UTF-8, und ich bräuchte ein Unicode-fähiges isalpha(), um 
> Element-Namen zu prüfen, unabhängig vom Locale. Was ist da die 
> empfehlenswerte Variante, wenn ich etwas haben will, das fast überall 
> verfügbar ist, oder leichtgewichtig genug, um es mitzubringen? Letztlich 
> würde mir eine Liste mit Code-Points, die ich eincompiliere, auch 
> reichen. (Spielen Combining-Characters eine Rolle für XML-Tags? Oder 
> müssen die immer in Normalform sein?)
> 
> Danke & MfG

Hi.

Ich konnte nicht feststellen, mit welcher Sprache du arbeitest, und gehe 
mal von C aus.

Ich nutze die C-Version von ezxml (momentan ezxml-0.8.6 - schon älter), 
die dir Elemente und Attribute recht simpel zugänglich macht.

Ich lese damit relativ kleine XMLs ein, die komplett im Speicher liegen.

Ob man, wie bei anderen Libraries, Callback Funktionen vorsehen kann, um 
größere XMLs in einem Durchgang zu verarbeiten, kann ich spontan nicht 
sagen. Falls ja, nutze ich es so nicht.

Das 'Werk' ist jedenfalls sehr klein.

M

Back to de.comp.os.unix.programming | Previous | Next — Previous in thread | Find similar

Thread

utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:00 +0100
  Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:12 +0100
    Re: utf8 + character classification Christian Schumacher <cs.spam@nurfuerspam.de> - 2021-11-17 16:17 +0000
      Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:10 +0100
  Re: utf8 + character classification Michael Bäuerle <michael.baeuerle@stz-e.de> - 2021-11-17 16:35 +0100
    Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:02 +0100
  Re: utf8 + character classification Stefan Reuther <stefan.news@arcor.de> - 2021-11-18 17:42 +0100
    Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-18 21:22 +0100
  Re: utf8 + character classification Bonita Montero <Bonita.Montero@gmail.com> - 2021-11-18 20:32 +0100
  Re: utf8 + character classification Markus Franzke <opa-krempel@web.de> - 2021-11-21 11:13 +0100

csiph-web