Groups | Search | Server Info | Login | Register
Groups > de.comp.os.unix.programming > #2991
| From | Markus Franzke <opa-krempel@web.de> |
|---|---|
| Newsgroups | de.comp.os.unix.programming |
| Subject | Re: utf8 + character classification |
| Date | 2021-11-21 11:13 +0100 |
| Message-ID | <snd657$fpq$1@solani.org> (permalink) |
| References | <sn31uq$2u6$1@dont-email.me> |
Am 17.11.21 um 15:00 schrieb Markus Schaaf: > Hallo, > > ich schreibe gerade ein paar Minitools, die XML-Dateien lesen. Ich > möchte keine der üblichen Parser-Libs benutzen. Die sind viel zu komplex > und schwergewichtig. Mir reichen mmap(), memchr() und memcmp(). XML ist > per Default UTF-8, und ich bräuchte ein Unicode-fähiges isalpha(), um > Element-Namen zu prüfen, unabhängig vom Locale. Was ist da die > empfehlenswerte Variante, wenn ich etwas haben will, das fast überall > verfügbar ist, oder leichtgewichtig genug, um es mitzubringen? Letztlich > würde mir eine Liste mit Code-Points, die ich eincompiliere, auch > reichen. (Spielen Combining-Characters eine Rolle für XML-Tags? Oder > müssen die immer in Normalform sein?) > > Danke & MfG Hi. Ich konnte nicht feststellen, mit welcher Sprache du arbeitest, und gehe mal von C aus. Ich nutze die C-Version von ezxml (momentan ezxml-0.8.6 - schon älter), die dir Elemente und Attribute recht simpel zugänglich macht. Ich lese damit relativ kleine XMLs ein, die komplett im Speicher liegen. Ob man, wie bei anderen Libraries, Callback Funktionen vorsehen kann, um größere XMLs in einem Durchgang zu verarbeiten, kann ich spontan nicht sagen. Falls ja, nutze ich es so nicht. Das 'Werk' ist jedenfalls sehr klein. M
Back to de.comp.os.unix.programming | Previous | Next — Previous in thread | Find similar
utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:00 +0100
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 15:12 +0100
Re: utf8 + character classification Christian Schumacher <cs.spam@nurfuerspam.de> - 2021-11-17 16:17 +0000
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:10 +0100
Re: utf8 + character classification Michael Bäuerle <michael.baeuerle@stz-e.de> - 2021-11-17 16:35 +0100
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-17 19:02 +0100
Re: utf8 + character classification Stefan Reuther <stefan.news@arcor.de> - 2021-11-18 17:42 +0100
Re: utf8 + character classification Markus Schaaf <mschaaf@elaboris.de> - 2021-11-18 21:22 +0100
Re: utf8 + character classification Bonita Montero <Bonita.Montero@gmail.com> - 2021-11-18 20:32 +0100
Re: utf8 + character classification Markus Franzke <opa-krempel@web.de> - 2021-11-21 11:13 +0100
csiph-web