Re: Bestimmte Unicodezeichen in HTML finden und "behandeln"

From	Andreas Borutta <borumat@gmx.de>
Newsgroups	de.comp.lang.javascript
Subject	Re: Bestimmte Unicodezeichen in HTML finden und "behandeln"
Date	2023-05-28 00:36 +0200
Organization	A noiseless patient Spider
Message-ID	<10ete9dqz19k2$.dlg@borumat.de> (permalink)
References	<15w1w7buq1bbf$.dlg@borumat.de> <srp-20230527193341@ram.dialup.fu-berlin.de> <seen-20230527200122@ram.dialup.fu-berlin.de> <14jvgfoghdlhe$.dlg@borumat.de> <Skript-20230527223545@ram.dialup.fu-berlin.de>

Show all headers | View raw

Stefan Ram:

> Andreas Borutta <borumat@gmx.de> writes:

>>Das Skript funktionierte nicht mit mehr als einem <p>. Daher habe ich
>>erstmal die <br> eingefügt.
>>Falls Du noch Muße hast, füge doch bitte noch eine Option zum Ersetzen
>>der anderen Leerzeichen ein.
> 
>   Dieses Skript hier ersetzt auch in mehreren Absätzen. Allerdings
>   kann es sein, daß die hier eingesetzte Technik bei anderem
>   oder komplizierterem Aufbau des Dokuments doch versagt.

Gäbe es denn andere Techniken, die vorhersagbar zuverlässig bei
umfangreichem und komplexem HTML sind?

Wichtig wäre auch, dass es nicht mit anderen JS kollidiert.

Wir setzen z.B. MathJax für hochwertigen Formelsatz ein. 
https://de.wikipedia.org/wiki/MathJax

Das produziert gewaltige Mengen Markup.
https://borumat.de/-/fahrradzukunft/mathjax-latex

Ideal wäre es, wenn die Technik des Skriptes (wir könnten es
"invisibles.js" nennen) z.B. erlaubt Elemente (und ihre Kinder)
auszuschließen.

>   Jetzt werden auch "202F" und "2009" modifiziert. Dabei sucht das
>   Skript entweder nach numerischen Entitätsreferenzen genau der
>   angegebenen Form oder nach den entsprechenden Unicode-Zeichen.
>   Es würde also Varianten von Entitätsreferenzen nicht finden.
> 
> <!DOCTYPE html><html xmlns="http://www.w3.org/1999/xhtml"
> lang="de" xml:lang="de">
> <head><meta charset="UTF-8" /><title>Programm 2023-05-27T19:59</title>
> </head><body><p>Durch&nbsp;die Verwendung&nbsp;nicht-trennbarer
> Leerzeichen heben wir uns deutlich von anderen Radfahrer-Magazinen
> ab.</p><p>Durch&nbsp;die Verwendung&nbsp;nicht-trennbarer
> Leerzeichen heben wir uns deutlich von anderen Radfahrer-Magazinen
> ab.</p><p>Nach <i>Kursivschrif</i>&#x202F; wird noch etwas Leerraum
> hinzugef&uuml;gt</p><p>Subtile Ver&auml;nderungen erleichtern das Lesen
> des Wortes "Schiff&#x2009;fahrt".</p><script
> type="text/javascript">
> 
> function srp( parent, code )
> {
>   parent.innerHTML = parent.innerHTML.replace
>   ( new RegExp( "\\#x" + code + ";" ),
>     "<span style='background: rgb(190,190,190);'>" + "&#x" + code +
>     ";" + "</span>" );
> 
>   n = new Number( "0x" + code )
>   c = String.fromCharCode( n )
>   parent.innerHTML = parent.innerHTML.replace
>   ( c,
>     "<span style='background: rgb(190,190,190);'>" + c + "</span>" ); }
> 
> function processNode( node )
> { if( node.nodeType == Node.TEXT_NODE )
>   { parent = node.parentElement;
>     ok = parent.nodeName in{ "P":0, "H1":0 /* ... */ }
>     if( ok )
>     {
>       parent.innerHTML = parent.innerHTML.replace
>       ( /&nbsp;/g,
>         "<span style='background: rgb(190,190,190);'>" +
>         String.fromCharCode( 160 )+ "</span>" );
> 
>       srp( parent, "202F" );
>       srp( parent, "2009" ); }}}
> 
> function walk( domObject, extractorCallback )
> { if( !domObject )return;
>   processNode( domObject );
>   if( domObject.nodeType != Node.ELEMENT_NODE )return;
>   const childs = domObject.childNodes;
>   for( let i = 0; i < childs.length; ++i )walk( childs[ i ]); }
> 
> walk( document.body )
> 
> </script></body></html>

Ich verstehe den Code mangels Kenntnissen nicht, sehe aber, dass 
"<span ...>" dreimal vorkommt.
Das erschwert etwas die Wartbarkeit.
Ich schrieb ja im letzten Posting, dass ich "Custom Elements"
verwende, statt "<span>", weil das die moderne, prägnantere und besser
lesbare Technik ist.

Und auch für die Wartbarkeit und Lesbarkeit des Skriptes bezüglich der
verschiedenen Leerzeichen, wäre es ideal, wenn jedes Leerzeichen ein
anderes "Custom Element" bekommen kann. Denn sonst wären sie ja nicht
mehr unterscheidbar.

IMHO sowas in der Art:

// Nicht anwenden in diesen Elementen:
// mjx-container

[Skriptcode]

// Unicode: U+00A0 
// Name: NO-BREAK SPACE
// Entity: &nbsp;
// HTML Custom Element: <fz-nbsp>

[Skriptcode] 

// Unicode: U+202F 
// Name: NARROW NO-BREAK SPACE
// Entity: &#x202F;
// Custom Element: <fz-nbsp>

[Skriptcode] 

// Unicode: U+2009 
// Name: THIN SPACE
// Entity: &#x2009;
// Custom Element: <fz-nsp>

[Skriptcode] 

Was denkst Du bitte zu diesen Ideen?

Andreas
-- 
http://fahrradzukunft.de

Back to de.comp.lang.javascript | Previous | Next — Previous in thread | Next in thread | Find similar

Thread

Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-27 13:02 +0200
  Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-27 21:54 +0200
    Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-28 00:36 +0200
      Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-28 12:53 +0200
      Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-28 20:42 +0200
        Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-28 21:09 +0200
          Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-28 22:56 +0200
          Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-29 10:13 +0200
            Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-29 12:35 +0200
              Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-29 19:48 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-05-29 22:16 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-29 23:06 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-30 20:12 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-30 20:55 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-31 11:36 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-31 13:22 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-31 20:24 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-02 16:38 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-02 17:36 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-30 20:25 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-30 20:59 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-04 11:42 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-04 13:23 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-04 17:54 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-04 19:15 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-05 00:36 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-05 15:48 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-05 18:17 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-05 23:47 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-06 00:07 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-06 00:17 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-06 00:12 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-06 00:35 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-06 00:37 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-06 08:33 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-06 11:58 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-06 15:52 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-06 16:29 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-07 00:15 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-07 08:51 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-07 09:43 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-07 10:01 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-08 09:06 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" "Peter J. Holzer" <hjp-usenet3@hjp.at> - 2023-06-06 00:35 +0200
                Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-06 00:40 +0200
        Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-28 23:14 +0200
          Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-05-29 10:25 +0200
  Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-07 12:39 +0200
    Re: Bestimmte Unicodezeichen in HTML finden und "behandeln" Andreas Borutta <borumat@gmx.de> - 2023-06-08 09:16 +0200

csiph-web