Path: csiph.com!fu-berlin.de!uni-berlin.de!not-for-mail From: "Wolli Buechel" Newsgroups: de.comp.lang.python Subject: =?utf-8?q?=5BPython-de=5D_Codepage-Methode_vs=2E_UTF8?= Date: Thu, 15 Aug 2024 21:58:37 -0000 Lines: 33 Message-ID: <172375911751.15839.16205450762327727397@mail.python.org> Mime-Version: 1.0 Content-Type: text/plain; charset="utf-8" Content-Transfer-Encoding: 8bit X-Trace: news.uni-berlin.de mVB4Zzxu8cDw7CT+rm4b2wftGyoJ+CqP3+brSIe4xF2g== Cancel-Lock: sha1:dl8HbsGKUfR0Eg2ZhUjodHbJaYw= sha256:x3PcNdleBcj2CEZsigKWX+ohVp6UoNFmcn3qz97tYaM= Authentication-Results: mail.python.org; dkim=none reason="no signature"; dkim-adsp=none (unprotected policy); dkim-atps=neutral User-Agent: HyperKitty on https://mail.python.org/ Message-ID-Hash: UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7 X-Message-ID-Hash: UK6FNWKSX4DZXFKWA7KF73ADLMUJ5OQ7 X-MailFrom: wjb131@web.de X-Mailman-Rule-Misses: dmarc-mitigation; no-senders; approved; loop; banned-address; header-match-python-de.python.org-0; emergency; member-moderation; nonmember-moderation; administrivia; implicit-dest; max-recipients; max-size; news-moderation; no-subject; digests; suspicious-header X-Mailman-Version: 3.3.10b1 Precedence: list List-Id: Die Deutsche Python Mailingliste Archived-At: List-Archive: List-Help: List-Owner: List-Post: List-Subscribe: List-Unsubscribe: Xref: csiph.com de.comp.lang.python:6221 Hallo Herr Schnoor, wie ich zuletzte dargelegt habe, verwendet UTF8 einen "Geheimcode" der Bytes eines Zeichens, mit dem diese Bytes markiert werden als Solo-Bytes oder als zusammengehörige Bytes eines Mehr-Byte-Zeichens. Hier noch mal zur Erinnerung: > In der folgenden Tabelle sind die Intervalle der Ordnungszahlen für 1/2/3/4 Bytes > sowie die geheime Bit-Struktur des Codes dargestellt ( vgl. https://en.wikipedia.org/wiki/UTF-8#Encoding ): > > Code point ↔ UTF-8 conversion > First code point Last code point Byte 1 Byte 2 Byte 3 Byte 4 > U+0000 U+007F 0xxxxxxx > U+0080 U+07FF 110xxxxx 10xxxxxx > U+0800 U+FFFF 1110xxxx 10xxxxxx 10xxxxxx > U+010000 U+10FFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx > Dieser Geheimcode ist doch clever gemacht von den Entwicklern der UTF8-Codierung der Unicode-Zeichen, oder? Jetzt meine Frage an sie als Schöpfer der Codepage-Methode (CPM): Wie löst Ihre CPM dieses Problem, ob ein Zeichen in einem Indexstring ein Solo-Zeichen ist oder ob zwei (oder mehr ?) Zeichen zusammengehören als Codierung einer Systemzahl. Ein konkretes Beispiel: Angenommen, der Ziffernstring für das 4096-er System lautet schlicht ziffern = ''.join( [ chr(x) for x in range(1,4097) ] ) und ich habe den Indexstring 'èé '. Das könnten theoretisch zwei einziffrige Zahlzeichen sein oder eine zweiziffrige Systemzahl. Wie löst Ihr CPM-Programm dieses Problem? W. Büchel