Groups | Search | Server Info | Keyboard shortcuts | Login | Register [http] [https] [nntp] [nntps]
Groups > de.comp.lang.python > #6221
| Path | csiph.com!fu-berlin.de!uni-berlin.de!not-for-mail |
|---|---|
| From | "Wolli Buechel" <wjb131@web.de> |
| Newsgroups | de.comp.lang.python |
| Subject | [Python-de] Codepage-Methode vs. UTF8 |
| Date | Thu, 15 Aug 2024 21:58:37 -0000 |
| Lines | 33 |
| Message-ID | <172375911751.15839.16205450762327727397@mail.python.org> (permalink) |
| Mime-Version | 1.0 |
| Content-Type | text/plain; charset="utf-8" |
| Content-Transfer-Encoding | 8bit |
| X-Trace | news.uni-berlin.de mVB4Zzxu8cDw7CT+rm4b2wftGyoJ+CqP3+brSIe4xF2g== |
| Cancel-Lock | sha1:dl8HbsGKUfR0Eg2ZhUjodHbJaYw= sha256:x3PcNdleBcj2CEZsigKWX+ohVp6UoNFmcn3qz97tYaM= |
| Authentication-Results | mail.python.org; dkim=none reason="no signature"; dkim-adsp=none (unprotected policy); dkim-atps=neutral |
| User-Agent | HyperKitty on https://mail.python.org/ |
| Message-ID-Hash | UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7 |
| X-Message-ID-Hash | UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7 |
| X-MailFrom | wjb131@web.de |
| X-Mailman-Rule-Misses | dmarc-mitigation; no-senders; approved; loop; banned-address; header-match-python-de.python.org-0; emergency; member-moderation; nonmember-moderation; administrivia; implicit-dest; max-recipients; max-size; news-moderation; no-subject; digests; suspicious-header |
| X-Mailman-Version | 3.3.10b1 |
| Precedence | list |
| List-Id | Die Deutsche Python Mailingliste <python-de.python.org> |
| Archived-At | <https://mail.python.org/archives/list/python-de@python.org/message/UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7/> |
| List-Archive | <https://mail.python.org/archives/list/python-de@python.org/> |
| List-Help | <mailto:python-de-request@python.org?subject=help> |
| List-Owner | <mailto:python-de-owner@python.org> |
| List-Post | <mailto:python-de@python.org> |
| List-Subscribe | <mailto:python-de-join@python.org> |
| List-Unsubscribe | <mailto:python-de-leave@python.org> |
| Xref | csiph.com de.comp.lang.python:6221 |
Show key headers only | View raw
Hallo Herr Schnoor, wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens. Hier noch mal zur Erinnerung: > In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 Bytes > sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. https://en.wikipedia.org/wiki/UTF-8#Encoding ): > > Code point ↔ UTF-8 conversion > First code point Last code point Byte 1 Byte 2 Byte 3 Byte 4 > U+0000 U+007F 0xxxxxxx > U+0080 U+07FF 110xxxxx 10xxxxxx > U+0800 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx > U+010000 U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx > Dieser Geheimcode ist doch clever gemacht von den Entwicklern der UTF8-Codierung der Unicode-Zeichen, oder? Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM): Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl. Ein konkretes Beispiel: Angenommen, der Ziffernstring für das 4096-er System lautet schlicht ziffern = ''.join( [ chr(x) for x in range(1,4097) ] ) und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl. Wie löst Ihr CPM-Programm dieses Problem? W. Büchel
Back to de.comp.lang.python | Previous | Next | Find similar
[Python-de] Codepage-Methode vs. UTF8 "Wolli Buechel" <wjb131@web.de> - 2024-08-15 21:58 +0000
csiph-web