Groups | Search | Server Info | Keyboard shortcuts | Login | Register
Groups > de.comp.lang.python > #6221
| From | "Wolli Buechel" <wjb131@web.de> |
|---|---|
| Newsgroups | de.comp.lang.python |
| Subject | [Python-de] Codepage-Methode vs. UTF8 |
| Date | 2024-08-15 21:58 +0000 |
| Message-ID | <172375911751.15839.16205450762327727397@mail.python.org> (permalink) |
Hallo Herr Schnoor, wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens. Hier noch mal zur Erinnerung: > In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 Bytes > sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. https://en.wikipedia.org/wiki/UTF-8#Encoding ): > > Code point ↔ UTF-8 conversion > First code point Last code point Byte 1 Byte 2 Byte 3 Byte 4 > U+0000 U+007F 0xxxxxxx > U+0080 U+07FF 110xxxxx 10xxxxxx > U+0800 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx > U+010000 U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx > Dieser Geheimcode ist doch clever gemacht von den Entwicklern der UTF8-Codierung der Unicode-Zeichen, oder? Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM): Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl. Ein konkretes Beispiel: Angenommen, der Ziffernstring für das 4096-er System lautet schlicht ziffern = ''.join( [ chr(x) for x in range(1,4097) ] ) und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl. Wie löst Ihr CPM-Programm dieses Problem? W. Büchel
Back to de.comp.lang.python | Previous | Next | Find similar
[Python-de] Codepage-Methode vs. UTF8 "Wolli Buechel" <wjb131@web.de> - 2024-08-15 21:58 +0000
csiph-web