Groups | Search | Server Info | Login | Register


Groups > de.comp.lang.perl > #546

Re: Tief in den Gräben von UTF-8

From Thomas Dorner <dclp241222.dorner@spamgourmet.com>
Newsgroups de.comp.lang.perl
Subject Re: Tief in den Gräben von UTF-8
Date 2024-12-22 18:14 +0100
Message-ID <6efrmf1vyl.fsf@th-dorner.de> (permalink)
References (5 earlier) <6ezfm8v4t1.fsf@th-dorner.de> <slrnvivtn2.3gqtu.hjp-usenet4@trintignant.hjp.at> <6ebjynyrw0.fsf@th-dorner.de> <vk97vj$6bmh$1@news1.tnib.de> <slrnvmgblq.1f7a.hjp-usenet4@trintignant.hjp.at>

Show all headers | View raw


"Peter J. Holzer" <hjp-usenet4@hjp.at> writes:
> On 2024-12-22 14:33, Marc Haber <mh+usenetspam1118@zugschl.us> wrote:
>> Ich denke, die docs sind da zu sich selbst inkonsistent. Denn weiter
>> unten in perlunicode(1) steht: "Here  are  the  ways  that Perl knows
>> that a string should be treated as unicode: (...) Within the scope of
>> "use v5.12" or higher", also reicht es eine aktuelle perl-version zu
>> "usen" und man müsste nicht mehr explizit use utf8 sagen.
>
> Nein, da geht es um »use feature 'unicode_strings'«.
> Das wird mit »use v5.12« und höher eingeschaltet (siehe auch »perldoc
> feature«). Das ist aber etwas ganz anderes als »use utf8«.
>
> »use utf8« beeinflusst nur[1] den Parser. Es sagt dem Parser, dass das
> Source-File UTF-8-kodiert ist und er es entsprechend dekodieren soll.
> Das betrifft nicht nur Strings, sondern auch z.B. Variablennamen:
[...]
> [1] Ok, das ist jetzt vielleicht ein bisschen zu vereinfacht. Aber es
>     ist der einzige Effekt der mir ad hoc einfällt, und ich habe zu dem
>     Thema seinerzeit unzählige Diskussionen geführt.

Ich denke, das trifft es ziemlich gut.  Sobald der Parser "use utf8"
erfolgreich verarbeitet hat, setzt er ein Bit in einer internen Variable
($^H), die den (Nitpick ;-) Scanner anweist, ab sofort fgetwc statt
fgetc zu verwenden.

Das ist zumindest meine Vermutung, wobei meine Beiträge zum Perl Parser
sich auf ein paar Änderungen in Bleeding Perl 5.5 (also für 5.6)
beschränken (und ich bin froh, bei der weiteren UTF-8 Entwicklung in 5.7
nur Tests im EBCDIC Umfeld machen mußte ;-).

> Ohne »use utf8« ist das ein Syntexfehler:
>
> Unrecognized character \xC3; marked by <-- HERE after my $k<-- HERE near column 6 at ./foo line 4.

Die Fehlermeldung sieht auch noch genauso aus wie früher. :-)

Viele Grüße, Thomas
-- 
Adresse gilt nur kurzzeitig!

Back to de.comp.lang.perl | Previous | NextPrevious in thread | Next in thread | Find similar


Thread

Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam202445@zugschlus.de> - 2024-11-06 21:58 +0100
  Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241106.dorner@spamgourmet.com> - 2024-11-06 22:34 +0100
    Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-06 23:08 +0100
      Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241107.dorner@spamgourmet.com> - 2024-11-07 14:40 +0100
        Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-07 19:05 +0100
  Re: Tief in den Gräben von UTF-8 Tim Landscheidt <tim@tim-landscheidt.de> - 2024-11-06 22:01 +0000
    Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-07 19:12 +0100
      Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-07 19:54 +0100
      Re: Tief in den Gräben von UTF-8 Tim Landscheidt <tim@tim-landscheidt.de> - 2024-11-09 12:32 +0000
        Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-09 14:29 +0100
  Re: Tief in den Gräben von UTF-8 Marcel Mueller <news.5.maazl@spamgourmet.org> - 2024-11-06 23:47 +0100
    Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-07 19:22 +0100
      Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-07 20:23 +0100
        Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-08 06:53 +0100
          Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-08 14:45 +0100
            Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-08 16:36 +0100
              Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241108.dorner@spamgourmet.com> - 2024-11-08 18:37 +0100
                Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-08 19:10 +0100
                Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241109.dorner@spamgourmet.com> - 2024-11-09 15:48 +0100
                Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-08 21:31 +0100
                Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-08 22:57 +0100
      Re: Tief in den Gräben von UTF-8 Marcel Mueller <news.5.maazl@spamgourmet.org> - 2024-11-08 04:34 +0100
        Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-08 14:30 +0100
          Re: Tief in den Gräben von UTF-8 Thomas Hochstein <thh@thh.name> - 2024-11-09 14:28 +0100
          Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-09 19:25 +0100
      Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241108.dorner@spamgourmet.com> - 2024-11-08 18:55 +0100
        Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-08 19:58 +0100
          Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241109.dorner@spamgourmet.com> - 2024-11-09 15:51 +0100
            Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-10 00:57 +0100
              Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241110.dorner@spamgourmet.com> - 2024-11-10 17:29 +0100
                Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-12-22 15:33 +0100
                Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-12-22 16:22 +0100
                Re: Tief in den Gräben von UTF-8 Thomas Dorner <dclp241222.dorner@spamgourmet.com> - 2024-12-22 18:14 +0100
  Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-08 23:49 +0100
    Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-09 09:00 +0100
      Re: Tief in den Gräben von UTF-8 Ulli Horlacher <framstag@rus.uni-stuttgart.de> - 2024-11-09 09:26 +0000
      Re: Tief in den Gräben von UTF-8 "Peter J. Holzer" <hjp-usenet4@hjp.at> - 2024-11-09 14:47 +0100
        Re: Tief in den Gräben von UTF-8 Marc Haber <mh+usenetspam1118@zugschl.us> - 2024-11-09 15:35 +0100

csiph-web