Path: csiph.com!weretis.net!feeder8.news.weretis.net!eternal-september.org!news.eternal-september.org!.POSTED!not-for-mail
From: Andreas Borutta <borumat@gmx.de>
Newsgroups: de.comp.lang.javascript
Subject: Re: Bestimmte Unicodezeichen in HTML finden und "behandeln"
Date: Sun, 4 Jun 2023 17:54:06 +0200
Organization: A noiseless patient Spider
Lines: 55
Message-ID: <17be99lfzd3wy$.dlg@borumat.de>
References: <15w1w7buq1bbf$.dlg@borumat.de> <srp-20230527193341@ram.dialup.fu-berlin.de> <seen-20230527200122@ram.dialup.fu-berlin.de> <14jvgfoghdlhe$.dlg@borumat.de> <Skript-20230527223545@ram.dialup.fu-berlin.de> <10ete9dqz19k2$.dlg@borumat.de> <innerHTML-20230528174155@ram.dialup.fu-berlin.de> <h92ey3rekj9z$.dlg@borumat.de> <1u61d8n45af7h$.dlg@borumat.de> <Elementtyp-20230528204202@ram.dialup.fu-berlin.de> <tbf1euk0alca.dlg@borumat.de> <Aenderungen-20230529104058@ram.dialup.fu-berlin.de> <oz65ya400y2h.dlg@borumat.de> <Elementtyp-20230529130608@ram.dialup.fu-berlin.de> <11sawgiw92age.dlg@borumat.de> <Skript-20230530182445@ram.dialup.fu-berlin.de> <1mocdy1jutiqn$.dlg@borumat.de> <indirekt-20230530193027@ram.dialup.fu-berlin.de> <pid89yi9zupg$.dlg@borumat.de> <1bs094m3qinaz.dlg@borumat.de> <Script-20230604160449@ram.dialup.fu-berlin.de>
MIME-Version: 1.0
Content-Type: text/plain; charset="iso-8859-1"
Content-Transfer-Encoding: 8bit
Injection-Info: dont-email.me; posting-host="fb8b5f42176714c66023442d437b0eb1"; logging-data="16835"; mail-complaints-to="abuse@eternal-september.org";	posting-account="U2FsdGVkX18jCuN75UR3Yd2I9N9fOqTMCOdRHmm3AXE="
User-Agent: 40tude_Dialog/2.0.15.41de (ac61d80f.250.277)
Cancel-Lock: sha1:3YXl3Ywe11cJsGi8cyoXJbx1Dis=
Xref: csiph.com de.comp.lang.javascript:5411

Stefan Ram:

> Andreas Borutta <borumat@gmx.de> writes:
>>Beispiele mit Zeilennummern mit aus dem Quelltext:
>>513: 250&#8239;%
> 
>   Inzwischen habe ich nun eine neue Version des Skriptes erstellt,
>   bei der dieses Problem hoffentlich nicht mehr auftritt. 

Dafür erstmal Danke.

>   Dabei habe ich die Schreibweise zur Definition der zu suchenden
>   Texte etwas verändert:
> 
> const typeForString =
> { /* String - Doppelpunkt - Elementtyp - Komma */
>   [ String.fromCharCode( 0x00A0 /* sedezimal */ )]: "x-nbsp",
>   [ String.fromCharCode( 0x2009 /* sedezimal */ )]: "x-tsp",
>   [ String.fromCharCode(   8239 /*   dezimal */ )]: "x-nnbsp"
>   /* =&#x202F; */, };

Verstehe ich es richtig, dass jetzt mit Hilfe von regulären Ausdrücken
gesucht wird?

Falls ja:

1 Ist das wirklich robust? Ich kann die kritischen Situationen nicht
übersehen.

2 Müsste man jedes Vorkommen des Strings "8239" irgendwo im
HTML-Quelltext, was nicht Teil von "&#8239;" ist, speziell
"behandeln"? Müsste man also an sowas "denken"?

3 Würden verschiedene Entities desselben Unicodezeichens und das
Unicodezeichen selbst (ich kann es hier im Usenet-Posting leider nicht
darstellen) ebenfalls vom Skript erfasst?
Beispiel:
&#8239;
&#x202F;
[Unicodezeichen U+202F] 

Wenn ich den regEx oben richtig interpretiere, vermutlich nicht, oder?
Man müsste jedes denkbare Entity und das Unicodezeichen selbst in
einem ODER-Ausdruck auflisten, richtig?

4 Falls sich die Verwendung von regulären Ausdrücken für das Skript
nicht vermeiden lässt, kann man den Anwendungsbereich auf den Inhalt
von HTML-Elementen beschränken?




Andreas
-- 
http://fahrradzukunft.de