Groups | Search | Server Info | Keyboard shortcuts | Login | Register


Groups > de.comp.lang.python > #6221

[Python-de] Codepage-Methode vs. UTF8

From "Wolli Buechel" <wjb131@web.de>
Newsgroups de.comp.lang.python
Subject [Python-de] Codepage-Methode vs. UTF8
Date 2024-08-15 21:58 +0000
Message-ID <172375911751.15839.16205450762327727397@mail.python.org> (permalink)

Show all headers | View raw


Hallo Herr Schnoor,

wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens.

Hier noch mal zur Erinnerung:

> In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 Bytes 
> sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. https://en.wikipedia.org/wiki/UTF-8#Encoding ):
> 
> Code point ↔ UTF-8 conversion
> First code point		Last code point		Byte 1		Byte 2		Byte 3		Byte 4
> U+0000		U+007F		0xxxxxxx
> U+0080		U+07FF		110xxxxx	10xxxxxx
> U+0800		U+FFFF		1110xxxx	10xxxxxx	10xxxxxx
> U+010000		U+10FFFF		11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

> Dieser Geheimcode ist doch clever gemacht von den Entwicklern der UTF8-Codierung der Unicode-Zeichen, oder?

Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM):

Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei  (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl.

Ein konkretes Beispiel:

Angenommen, der Ziffernstring für das 4096-er System lautet schlicht

ziffern = ''.join( [ chr(x) for x in range(1,4097) ] )

und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl.

Wie löst Ihr CPM-Programm dieses Problem?

W. Büchel

Back to de.comp.lang.python | Previous | Next | Find similar


Thread

[Python-de] Codepage-Methode vs. UTF8 "Wolli Buechel" <wjb131@web.de> - 2024-08-15 21:58 +0000

csiph-web