[Python-de] Codepage-Methode vs. UTF8

Path	csiph.com!fu-berlin.de!uni-berlin.de!not-for-mail
From	"Wolli Buechel" <wjb131@web.de>
Newsgroups	de.comp.lang.python
Subject	[Python-de] Codepage-Methode vs. UTF8
Date	Thu, 15 Aug 2024 21:58:37 -0000
Lines	33
Message-ID	<172375911751.15839.16205450762327727397@mail.python.org> (permalink)
Mime-Version	1.0
Content-Type	text/plain; charset="utf-8"
Content-Transfer-Encoding	8bit
X-Trace	news.uni-berlin.de mVB4Zzxu8cDw7CT+rm4b2wftGyoJ+CqP3+brSIe4xF2g==
Cancel-Lock	sha1:dl8HbsGKUfR0Eg2ZhUjodHbJaYw= sha256:x3PcNdleBcj2CEZsigKWX+ohVp6UoNFmcn3qz97tYaM=
Authentication-Results	mail.python.org; dkim=none reason="no signature"; dkim-adsp=none (unprotected policy); dkim-atps=neutral
User-Agent	HyperKitty on https://mail.python.org/
Message-ID-Hash	UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7
X-Message-ID-Hash	UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7
X-MailFrom	wjb131@web.de
X-Mailman-Rule-Misses	dmarc-mitigation; no-senders; approved; loop; banned-address; header-match-python-de.python.org-0; emergency; member-moderation; nonmember-moderation; administrivia; implicit-dest; max-recipients; max-size; news-moderation; no-subject; digests; suspicious-header
X-Mailman-Version	3.3.10b1
Precedence	list
List-Id	Die Deutsche Python Mailingliste <python-de.python.org>
Archived-At	<https://mail.python.org/archives/list/python-de@python.org/message/UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7/>
List-Archive	<https://mail.python.org/archives/list/python-de@python.org/>
List-Help	<mailto:python-de-request@python.org?subject=help>
List-Owner	<mailto:python-de-owner@python.org>
List-Post	<mailto:python-de@python.org>
List-Subscribe	<mailto:python-de-join@python.org>
List-Unsubscribe	<mailto:python-de-leave@python.org>
Xref	csiph.com de.comp.lang.python:6221

Show key headers only | View raw

Hallo Herr Schnoor,

wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens.

Hier noch mal zur Erinnerung:

> In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 Bytes 
> sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. https://en.wikipedia.org/wiki/UTF-8#Encoding ):
> 
> Code point ↔ UTF-8 conversion
> First code point		Last code point		Byte 1		Byte 2		Byte 3		Byte 4
> U+0000		U+007F		0xxxxxxx
> U+0080		U+07FF		110xxxxx	10xxxxxx
> U+0800		U+FFFF		1110xxxx	10xxxxxx	10xxxxxx
> U+010000		U+10FFFF		11110xxx	10xxxxxx	10xxxxxx	10xxxxxx

> Dieser Geheimcode ist doch clever gemacht von den Entwicklern der UTF8-Codierung der Unicode-Zeichen, oder?

Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM):

Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei  (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl.

Ein konkretes Beispiel:

Angenommen, der Ziffernstring für das 4096-er System lautet schlicht

ziffern = ''.join( [ chr(x) for x in range(1,4097) ] )

und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl.

Wie löst Ihr CPM-Programm dieses Problem?

W. Büchel

Back to de.comp.lang.python | Previous | Next | Find similar

Thread

[Python-de] Codepage-Methode vs. UTF8 "Wolli Buechel" <wjb131@web.de> - 2024-08-15 21:58 +0000

csiph-web