Groups | Search | Server Info | Login | Register


Groups > de.comp.os.unix.programming > #2991

Re: utf8 + character classification

From Markus Franzke <opa-krempel@web.de>
Newsgroups de.comp.os.unix.programming
Subject Re: utf8 + character classification
Date 2021-11-21 11:13 +0100
Message-ID <snd657$fpq$1@solani.org> (permalink)
References <sn31uq$2u6$1@dont-email.me>

Show all headers | View raw


Am 17.11.21 um 15:00 schrieb Markus Schaaf:
> Hallo,
> 
> ich schreibe gerade ein paar Minitools, die XML-Dateien lesen. Ich 
> möchte keine der üblichen Parser-Libs benutzen. Die sind viel zu komplex 
> und schwergewichtig. Mir reichen mmap(), memchr() und memcmp(). XML ist 
> per Default UTF-8, und ich bräuchte ein Unicode-fähiges isalpha(), um 
> Element-Namen zu prüfen, unabhängig vom Locale. Was ist da die 
> empfehlenswerte Variante, wenn ich etwas haben will, das fast überall 
> verfügbar ist, oder leichtgewichtig genug, um es mitzubringen? Letztlich 
> würde mir eine Liste mit Code-Points, die ich eincompiliere, auch 
> reichen. (Spielen Combining-Characters eine Rolle für XML-Tags? Oder 
> müssen die immer in Normalform sein?)
> 
> Danke & MfG

Hi.

Ich konnte nicht feststellen, mit welcher Sprache du arbeitest, und gehe 
mal von C aus.

Ich nutze die C-Version von ezxml (momentan ezxml-0.8.6 - schon älter), 
die dir Elemente und Attribute recht simpel zugänglich macht.

Ich lese damit relativ kleine XMLs ein, die komplett im Speicher liegen.

Ob man, wie bei anderen Libraries, Callback Funktionen vorsehen kann, um 
größere XMLs in einem Durchgang zu verarbeiten, kann ich spontan nicht 
sagen. Falls ja, nutze ich es so nicht.

Das 'Werk' ist jedenfalls sehr klein.

M

Back to de.comp.os.unix.programming | Previous | NextPrevious in thread | Find similar


Thread

utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:00 +0100
  Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:12 +0100
    Re: utf8 + character classification Christian Schumacher <cs.spam@nurfuerspam.de> - 2021-11-17 16:17 +0000
      Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:10 +0100
  Re: utf8 + character classification Michael Bäuerle <michael.baeuerle@stz-e.de> - 2021-11-17 16:35 +0100
    Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:02 +0100
  Re: utf8 + character classification Stefan Reuther <stefan.news@arcor.de> - 2021-11-18 17:42 +0100
    Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-18 21:22 +0100
  Re: utf8 + character classification Bonita Montero <Bonita.Montero@gmail.com> - 2021-11-18 20:32 +0100
  Re: utf8 + character classification Markus Franzke <opa-krempel@web.de> - 2021-11-21 11:13 +0100

csiph-web