Groups | Search | Server Info | Keyboard shortcuts | Login | Register [http] [https] [nntp] [nntps]


Groups > de.comp.lang.python > #6221

[Python-de] Codepage-Methode vs. UTF8

Path csiph.com!fu-berlin.de!uni-berlin.de!not-for-mail
From "Wolli Buechel" <wjb131@web.de>
Newsgroups de.comp.lang.python
Subject [Python-de] Codepage-Methode vs. UTF8
Date Thu, 15 Aug 2024 21:58:37 -0000
Lines 33
Message-ID <172375911751.15839.16205450762327727397@mail.python.org> (permalink)
Mime-Version 1.0
Content-Type text/plain; charset="utf-8"
Content-Transfer-Encoding 8bit
X-Trace news.uni-berlin.de mVB4Zzxu8cDw7CT+rm4b2wftGyoJ+CqP3+brSIe4xF2g==
Cancel-Lock sha1:dl8HbsGKUfR0Eg2ZhUjodHbJaYw= sha256:x3PcNdleBcj2CEZsigKWX+ohVp6UoNFmcn3qz97tYaM=
Authentication-Results mail.python.org; dkim=none reason="no signature"; dkim-adsp=none (unprotected policy); dkim-atps=neutral
User-Agent HyperKitty on https://mail.python.org/
Message-ID-Hash UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7
X-Message-ID-Hash UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7
X-MailFrom wjb131@web.de
X-Mailman-Rule-Misses dmarc-mitigation; no-senders; approved; loop; banned-address; header-match-python-de.python.org-0; emergency; member-moderation; nonmember-moderation; administrivia; implicit-dest; max-recipients; max-size; news-moderation; no-subject; digests; suspicious-header
X-Mailman-Version 3.3.10b1
Precedence list
List-Id Die Deutsche Python Mailingliste <python-de.python.org>
Archived-At <https://mail.python.org/archives/list/python-de@python.org/message/UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7/>
List-Archive <https://mail.python.org/archives/list/python-de@python.org/>
List-Help <mailto:python-de-request@python.org?subject=help>
List-Owner <mailto:python-de-owner@python.org>
List-Post <mailto:python-de@python.org>
List-Subscribe <mailto:python-de-join@python.org>
List-Unsubscribe <mailto:python-de-leave@python.org>
Xref csiph.com de.comp.lang.python:6221

Show key headers only | View raw


Hallo Herr Schnoor,

wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens.

Hier noch mal zur Erinnerung:

> In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 Bytes 
> sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. https://en.wikipedia.org/wiki/UTF-8#Encoding ):
> 
> Code point ↔ UTF-8 conversion
> First code point		Last code point		Byte 1		Byte 2		Byte 3		Byte 4
> U+0000		U+007F		0xxxxxxx
> U+0080		U+07FF		110xxxxx	10xxxxxx
> U+0800		U+FFFF		1110xxxx	10xxxxxx	10xxxxxx
> U+010000		U+10FFFF		11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

> Dieser Geheimcode ist doch clever gemacht von den Entwicklern der UTF8-Codierung der Unicode-Zeichen, oder?

Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM):

Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei  (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl.

Ein konkretes Beispiel:

Angenommen, der Ziffernstring für das 4096-er System lautet schlicht

ziffern = ''.join( [ chr(x) for x in range(1,4097) ] )

und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl.

Wie löst Ihr CPM-Programm dieses Problem?

W. Büchel

Back to de.comp.lang.python | Previous | Next | Find similar


Thread

[Python-de] Codepage-Methode vs. UTF8 "Wolli Buechel" <wjb131@web.de> - 2024-08-15 21:58 +0000

csiph-web