Groups | Search | Server Info | Keyboard shortcuts | Login | Register [http] [https] [nntp] [nntps]


Groups > de.comp.text.misc > #90

Re: Normalisierung? - Was geschieht hierbei? - do not ignore

From Heiko Rost <heiko.rost@gmx.de>
Newsgroups de.comp.text.misc
Subject Re: Normalisierung? - Was geschieht hierbei? - do not ignore
Date 2023-07-02 17:40 +0200
Organization Der kleine Hamsterstall
Message-ID <u7scr4.bfg.1@ID-23555.user.uni-berlin.de> (permalink)
References (10 earlier) <20230702su090059@o15.ybtra.de> <AABkoXymtIsAAAqB.A3.flnews@WStation7.micha.freeshell.org> <b034.c538.dt.1180flnews@barghahn-online.de> <u7s8fb.9pc.1@ID-23555.user.uni-berlin.de> <b034.d19e.dt.1182flnews@barghahn-online.de>

Show all headers | View raw


[Fullquote wegen Gruppenwechsel]

Thomas Barghahn schrieb:

> *Heiko Rost* meinte:
>> Thomas Barghahn schrieb:
> 
>>> Bei solchen Schritten (Normalisierung) muss ich dann wirklich immer
>>> ehrlich bleiben und zugeben, dass ich es (noch) nicht richtig verstanden
>>> habe! Was genau passiert bei einer Normalisierung eigentlich und was ist
>>> das Ziel einer solchen Normalisierung?
> 
>> Zum Beispiel um ö und ö (wird hoffentlich richtig verschickt) als den
>> selben Buchstaben zu interpretieren. Das erste ist der im deutschen
>> üblicherweise benutze Umlaut, das andere sind zwei Unicodepoints: ein o
>> und das diakritische Zeichen U+0308 (also nur die Punkte darüber).
> 
> Soweit ist es mir klar. Stelle ich bspw. einen Satz auf den Kopf, dann
> nutze auch ich diese Vorgehensweise.
> 
> Beispiel: „uǝso̤l ǝqɐƃɟnⱯ ǝuı̣ǝ„
> 
> In diesem Beispiel besteht das auf dem Kopf stehende "ö" aos /zwei/
> Zeichen.
> Was ist denn nun aber die Normalisierung? ;-)

Normal ist in dem Fall, was für Deine Zwecke zielführend ist. 

> Vielleicht will der Autor ja, dass seine Umlaute grundsätzlich aus zwei
> Zeichen bestehen. Hmm ...

Das kann der eine Autor wollen, der andere will es nicht und dann geht
die Sache beim Vergleich schief. Das Thema hat sich aus 

| Deswegen meinte ich ja, daß das gesamte Subject zunächst de-
| kodiert werden muß. Dann kann man problemlos vergleichen.

entwickelt. Der Vergleich kann fehlschlagen, wenn Du zwei Zeichenketten
vergleichst, die den Umlaut unterschiedlich darstellen. Für den Leser
sind die beiden Zeilen 

Die höhere Wertung
Die höhere Wertung

identisch und soll in Deinem Skript sicher auch als identisch erkannt
werden. Deshalb muß die Vergleichsroutine das irgendwie berücksichtigen.
Sonst produzierst Du bei der Subjectkorrektur möglicherweise so etwas
wie

Subject: Die höhere Wertung (was: Die höhere Wertung)

Bei dem Zitat aus meinem Vorposting hat übrigens auch irgendwer aus dem
ö ein ö gemacht. Irgendeine Nachbearbeitung meinerseits ist nicht die
Ursache, auch bei direkter Abholung mit TB vom Newsserver ist das schon
so. Möglicherweise nimmt flnews von sich aus bereits so eine
Normalisierung vor.

Gruß Heiko
-- 
Der Mensch ist gut, nur die Nerven sind schlecht.
                                                    Mose Ya'aqob Ben-Gavriêl

Back to de.comp.text.misc | Previous | NextNext in thread | Find similar


Thread

Re: Normalisierung? - Was geschieht hierbei? - do not ignore Heiko Rost <heiko.rost@gmx.de> - 2023-07-02 17:40 +0200
  Unicode-Normalisierung beim Versand (was: Normalisierung? - Was geschieht hierbei? - do not ignore) Michael Bäuerle <michael.baeuerle@gmx.net> - 2023-07-02 19:18 +0200

csiph-web