Path: csiph.com!weretis.net!feeder8.news.weretis.net!eternal-september.org!news.eternal-september.org!.POSTED!not-for-mail From: Andreas Borutta Newsgroups: de.comp.lang.javascript Subject: Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Date: Sun, 4 Jun 2023 17:54:06 +0200 Organization: A noiseless patient Spider Lines: 55 Message-ID: <17be99lfzd3wy$.dlg@borumat.de> References: <15w1w7buq1bbf$.dlg@borumat.de> <14jvgfoghdlhe$.dlg@borumat.de> <10ete9dqz19k2$.dlg@borumat.de> <1u61d8n45af7h$.dlg@borumat.de> <11sawgiw92age.dlg@borumat.de> <1mocdy1jutiqn$.dlg@borumat.de> <1bs094m3qinaz.dlg@borumat.de> MIME-Version: 1.0 Content-Type: text/plain; charset="iso-8859-1" Content-Transfer-Encoding: 8bit Injection-Info: dont-email.me; posting-host="fb8b5f42176714c66023442d437b0eb1"; logging-data="16835"; mail-complaints-to="abuse@eternal-september.org"; posting-account="U2FsdGVkX18jCuN75UR3Yd2I9N9fOqTMCOdRHmm3AXE=" User-Agent: 40tude_Dialog/2.0.15.41de (ac61d80f.250.277) Cancel-Lock: sha1:3YXl3Ywe11cJsGi8cyoXJbx1Dis= Xref: csiph.com de.comp.lang.javascript:5411 Stefan Ram: > Andreas Borutta writes: >>Beispiele mit Zeilennummern mit aus dem Quelltext: >>513: 250 % > > Inzwischen habe ich nun eine neue Version des Skriptes erstellt, > bei der dieses Problem hoffentlich nicht mehr auftritt. Dafür erstmal Danke. > Dabei habe ich die Schreibweise zur Definition der zu suchenden > Texte etwas verändert: > > const typeForString = > { /* String - Doppelpunkt - Elementtyp - Komma */ > [ String.fromCharCode( 0x00A0 /* sedezimal */ )]: "x-nbsp", > [ String.fromCharCode( 0x2009 /* sedezimal */ )]: "x-tsp", > [ String.fromCharCode( 8239 /* dezimal */ )]: "x-nnbsp" > /* =  */, }; Verstehe ich es richtig, dass jetzt mit Hilfe von regulären Ausdrücken gesucht wird? Falls ja: 1 Ist das wirklich robust? Ich kann die kritischen Situationen nicht übersehen. 2 Müsste man jedes Vorkommen des Strings "8239" irgendwo im HTML-Quelltext, was nicht Teil von " " ist, speziell "behandeln"? Müsste man also an sowas "denken"? 3 Würden verschiedene Entities desselben Unicodezeichens und das Unicodezeichen selbst (ich kann es hier im Usenet-Posting leider nicht darstellen) ebenfalls vom Skript erfasst? Beispiel:     [Unicodezeichen U+202F] Wenn ich den regEx oben richtig interpretiere, vermutlich nicht, oder? Man müsste jedes denkbare Entity und das Unicodezeichen selbst in einem ODER-Ausdruck auflisten, richtig? 4 Falls sich die Verwendung von regulären Ausdrücken für das Skript nicht vermeiden lässt, kann man den Anwendungsbereich auf den Inhalt von HTML-Elementen beschränken? Andreas -- http://fahrradzukunft.de