Re: Normalisierung? - Was geschieht hierbei? - do not ignore

From	Marcel Logen <333200007110-0201@ybtra.de>
Newsgroups	de.comp.text.misc
Subject	Re: Normalisierung? - Was geschieht hierbei? - do not ignore
Date	2023-07-02 17:15 +0200
Organization	Bureau Logen
Message-ID	<20230702su151532@o15.ybtra.de> (permalink)
References	(10 earlier) <20230702su090059@o15.ybtra.de> <AABkoXymtIsAAAqB.A3.flnews@WStation7.micha.freeshell.org> <b034.c538.dt.1180flnews@barghahn-online.de> <u7s8fb.9pc.1@ID-23555.user.uni-berlin.de> <b034.d209/dt/1flnews@barghahn-online.de>

Show all headers | View raw

Thomas Barghahn in de.test,de.comp.text.misc:

>*Heiko Rost* meinte:
>> Thomas Barghahn schrieb:

>>> Bei solchen Schritten (Normalisierung) muss ich dann wirklich immer
>>> ehrlich bleiben und zugeben, dass ich es (noch) nicht richtig verstanden
>>> habe! Was genau passiert bei einer Normalisierung eigentlich und was ist
>>> das Ziel einer solchen Normalisierung?

Was passiert? Codepoints werden nach bestimmten Regeln
(z. B. NFC oder NFD) umsortiert.

Das Ziel? Anschließend kann man verschiedene Unicode-
Strings byteweise vergleichen.

>> Zum Beispiel um ö und ö (wird hoffentlich richtig verschickt) als den
>> selben Buchstaben zu interpretieren. Das erste ist der im deutschen
>> üblicherweise benutze Umlaut, das andere sind zwei Unicodepoints: ein o
>> und das diakritische Zeichen U+0308 (also nur die Punkte darüber).
>
>Soweit ist es mir klar. Stelle ich bspw. einen Satz auf den Kopf, dann
>nutze auch ich diese Vorgehensweise.
>
>Beispiel: „uǝso̤l ǝqɐƃɟnⱯ ǝuı̣ǝ„
>
>In diesem Beispiel besteht das auf dem Kopf stehende "ö" aos /zwei/
>Zeichen.
>Was ist denn nun aber die Normalisierung? ;-)

Normalisierung nach NFD wäre hier die Zwei-Codepoint-
Variante: <U+006F><U+0308>.

Normalisierung nach NFC (composed) wäre die
Ein-Codepoint-Variante: <U+00F6>.

Siehe auch in der UnicodeData.txt:

| 006F;LATIN SMALL LETTER O;Ll;0;L;;;;;N;;;004F;;004F
| 00F6;LATIN SMALL LETTER O WITH DIAERESIS;Ll;0;L;006F 0308;;;;N;LATIN SMALL LETTER O DIAERESIS;;00D6;;00D6
| 0308;COMBINING DIAERESIS;Mn;230;NSM;;;;;N;NON-SPACING DIAERESIS;;;;

>Vielleicht will der Autor ja, dass seine Umlaute grundsätzlich aus zwei
>Zeichen bestehen. Hmm ...

Kann sein, aber das ist für einen String-Vergleich evtl.
schlecht. Deshalb die Umformung in einen definierten Zu-
satnd - das ist die Normalisierung.

Marcel
-- 
        ╭────╮     ╭──────╮                      ..50..╭────╮ ╭────────╮
╭───────╯  ╭─╯     ╰───╮  │                      ..50..╰──╮ ╰─╯  ╭─────╯
│      ╭───╯ ╭─╮ ╭───╮ │  ╰───────────╮     ╭──╮   ╭──╮ ╭─╯..60..╰──────
╯      ╰─────╯ ╰─╯   ╰─╯              ╰─────╯  ╰───╯  ╰─╯         ..67..

Back to de.comp.text.misc | Previous | Next — Previous in thread | Find similar

Thread

Re: Normalisierung? - Was geschieht hierbei? - do not ignore Thomas Barghahn <Th.Barghahn@t-online.de> - 2023-07-02 16:56 +0200
  Re: Normalisierung? - Was geschieht hierbei? - do not ignore Marcel Logen <333200007110-0201@ybtra.de> - 2023-07-02 17:15 +0200

csiph-web