Path: csiph.com!weretis.net!feeder8.news.weretis.net!news.mb-net.net!open-news-network.org!.POSTED.178.197.201.249!not-for-mail
From: Thomas 'PointedEars' Lahn <PointedEars@web.de>
Newsgroups: de.comp.lang.javascript
Subject: Re: String-Literals automatisiert in ASCII konvertieren?
Supersedes: <5613867.DvuYhMxLoT@PointedEars.de>
Date: Thu, 29 Sep 2022 20:40:33 +0200
Organization: PointedEars Software (PES)
Lines: 64
Message-ID: <5870471.lOV4Wx5bFT@PointedEars.de>
References: <877d1pm8w6.fsf@vagabond.tim-landscheidt.de> <ASCII-20220927121648@ram.dialup.fu-berlin.de> <12070813.O9o76ZdvQC@PointedEars.de> <87sfka2vyg.fsf@vagabond.tim-landscheidt.de>
Reply-To: Thomas 'PointedEars' Lahn <usenet@PointedEars.de>
Mime-Version: 1.0
Content-Type: text/plain; charset="UTF-8"
Content-Transfer-Encoding: 8Bit
Injection-Info: gwaiyur.mb-net.net; posting-host="178.197.201.249"; logging-data="997257"; mail-complaints-to="abuse@open-news-network.org"
User-Agent: KNode/4.14.10
Cancel-Key: sha1:xzzZaYJ2pCvyKKNFaXuYRgHWJ+k=
Cancel-Lock: sha1:VY+QIi7n1FhhJ2Bu9Ja0pkfk+vk=
X-Face: %i>XG-yXR'\"2P/C_aO%~;2o~?g0pPKmbOw^=NT`tprDEf++D.m7"}HW6.#=U:?2GGctkL,f89@H46O$ASoW&?s}.k+&.<b';Md8`dH6iqhT)6C^.Px|[=M@7=Ik[_w<%n1Up"LPQNu2m8|L!/3iby{-]A+#YE}Kl{Cw$\U!kD%K}\2jz"QQP6Uqr],./"?;=4v
Face: iVBORw0KGgoAAAANSUhEUgAAADAAAAAwBAMAAAClLOS0AAAAGFBMVEXTxa4RFk5dUWANED8PFEfy7+MGBiW+n3ZNF/QuAAACaElEQVQ4jVXUwVOcMBQG8Dc7Rc4PUntdWV2uxjDpGaGeozOp1woar4jd5t/v9wLstMwsA/ntlxdCAgUc1hjTc9/JCZfGoo3wG3HdmdAWrIJRHe7GM/TmpY5VFefuVcAkkPbLIaN8rmPmjloyZxgyR3GuJ4K0AGtJ2htz8o7yqikm759fldQXaMpbDzjKAG+8v+AugVTOPO5DOjLvGtUYQwh0CPjnVMyGd+8/GfUB5nLKJDD2aLDh5HYyMDJGDwQIo2ZmZcKbowNmAdB/AzyFhrmF2MHRb0QJJfaAnwGB6orZhoykLzJtGwF/xpYxI1dswomiUj3gTuAIqCn/4C7cULwGNBtwMTk3Y4LfKB5YUaOKBKYtpplm7u0vip8tU1NWWyI/7XdcSuIDoMt6rVHMWT0DbjHPGqDqZVSa6zleLcUTcIKLoMv3ueJluALtAo9B302zPPlrtiVScRdCjXvVh3e3JpYa/jjkuC9N+LrBMlz/eAN4eQijX2EdLo6c5tGGHwLyHFtXk89dDGHwCVhG9T0S/j55AhRZgkMCmUQXJ49TnS1wnQDvw0eAh9ICeMmEFbCnPMFzjAvsWoEWEFdYEx+S0MoUZ1gT1wId8+AF3Bl2OoEu906AUHx5VLw/gXYg/x84loOah/2UYNrgiwSwGO7RfUzVBbx/kgpckumGOi6QirtD6gkLTitbnxNol47S2jVc2vsN5kPqaAHT8uUdAJM4v/DanjYOwmUjWznGfwB7sGtAtor5BgofDuzaRj4kSQAqDakTsKORa3Q3xKi3gE1fhl71KRMqrdZ2AWNNg/YOhQyrVBnb+i+nEg4bsDA+egAAAABJRU5ErkJggg==
X-User-ID: U2FsdGVkX1/bd+Cy6u5UxJlyRdqAiGr8ltTHryYDbtZeOA/y3ahYgQ==
Xref: csiph.com de.comp.lang.javascript:5330

Tim Landscheidt wrote:

> Thomas 'PointedEars' Lahn <PointedEars@web.de> wrote:
>>>>                                             gibt es einen
>>>>„Präprozessor“, der JavaScript-Dateien einliest, String-Lit-
>>>>erals gegebenenfalls nach ASCII umwandelt und dann wieder
>>>>ausgibt?
> 
>>>   Falls Nicht-ASCII-Zeichen nur in Zeichenfolgenliteralen
>>>   (und vielleicht noch in Kommentaren) vorkommen sollten,
>>>   können wir einfach alle Zeichen nach ASCII wandeln.
> 
>>>   Das sollte ein geeignetes Python-3.9-Skript sein:
> 
>>> with open( 'example.txt', mode='r', encoding='utf-8' )as stream:
>>>     source = stream.read()
>>>     for ch in source:
>>>         print( end=ch if ord( ch )<= 127 else rf'\u{ord(ch):04x}' )
> 
>> “\u{…}” ist (im Unterschied zu “\u…”, welches schon mit ECMAScript
>> Edition 2
>> [1998] eingeführt wurde) ein relativ neues syntaktisches Konstrukt'𐀀
>> (eingeführt mit ECMAScript Ed. 6 [2015]).  Das Ergebnis wird daher nurက
>> von neueren Script-Engines korrekt interpretiert werden können.  Bei
>> anderen führt es entweder dazu, dass die Escape-Sequenz angezeigt wird,
>> oder zu einem Syntaxfehler (Script kann nicht mehr compiliert werden).
> 
>> […]
> 
> Die geschweiften Klammern werden hier von Python verarbeitet
> (https://docs.python.org/3/reference/lexical_analysis.html#f-strings),
> wie auch Stefans Beispiel zeigte.

Richtig, das war mir später selbst aufgefallen (ich war nur noch nicht dazu 
gekommen, es zu erwähnen).

Richtig bleibt jedoch auch, dass Unicode heutzutage *weitaus* mehr 
Codepunkte enthält als nur die der Basic Multilingual Plane (BMP: U+0000 bis 
U+FFFF), was von Python spätestens ab Version 3.0 auch unterstützt wird.  
Daher erzeugt obiger Code falshce ECMAScript-Escape-Sequenzen für Zeichen 
ausserhalb der BMP (z. B. '\u10000', was als '\u1000' gefolgt von '0' 
interpretiert wird, also äquivalent zu 'က0' ist statt zu '𐀀' (Original).

Um diese Zeichen auch noch zu erfassen, müsste die generierte Escape-Sequenz
die Form '\u{…}' haben (in Python: rf'\u{{{ord(ch):x}}}'); das führt aber zu 
den von mir erwähnten Inkompatibilitäten.  Es gibt zwar einen Workaround 
über die Zerlegung in Surrogate Pairs (wie das mit meinem 
JSX:string/unicode.js:WideString möglich ist¹), das ist aber wiederum in 
diesem Fall in der Codierung nicht effizient.

Grundsätzlich ist Dein ganzer Ansatz in der Umsetzung fehlerträchtig und 
ineffizient; er bläht auch den Quelltext unnötig auf (im Worst Case auf das 
Neunfache) was auch die Ausführung des so modifizierten Codes ineffizient 
macht.  Es ist daher ein Ansatz vorzuziehen, der das tatsächliche Problem 
löst, d. h. die korrekte Serverkonfiguration.  Dieser hat auch den Vorteil, 
weitaus einfacher realisierbar zu sein (nämlich im Best Case lediglich eine 
.htaccess-Datei mit “AddCharset utf8 .js”).

_______
¹ <https://github.com/PointedEars/JSX/blob/master/string/unicode.js>
-- 
PointedEars
<https://github.com/PointedEars> | <http://PointedEars.de/wsvn/>
Twitter: @PointedEars2
Please do not cc me. /Bitte keine Kopien per E-Mail.