Groups | Search | Server Info | Keyboard shortcuts | Login | Register [http] [https] [nntp] [nntps]


Groups > de.comp.os.unix.shell > #14658

Re: System und Shell-Scripte: Latin-1 zu UTF-8

From Stefan Wiens <s.wi@gmx.net>
Newsgroups de.comp.os.unix.shell
Subject Re: System und Shell-Scripte: Latin-1 zu UTF-8
Date 2026-03-08 06:14 +0100
Organization none
Message-ID <87h5qrq61l.fsf@s-bot.de> (permalink)
References <g0ht7m-qer.ln1@tempo.martinkl.dialup.fu-berlin.de> <87ms0jqp7f.fsf@s-bot.de> <1ppu7m-b4u.ln1@tempo.martinkl.dialup.fu-berlin.de> <83fr6b11ti.fsf@helmutwaitzmann.news.arcor.de>

Show all headers | View raw


Helmut Waitzmann <nn.throttle@erine.email> writes:

> Martin Klaiber <usenet.martinkl@gmx.de>:
>> Stefan Wiens <s.wi@gmx.net> wrote:
>>
>>> Abgesehen vom Konvertieren der Skripte mittels iconv sollte man
>>> auch darauf achten, dass sämtliche dort verwendeten Tools
>>> UTF-8-kompatibel sind und auf die locale, insbesondere LC_CTYPE
>>> adäquat reagieren. 
>>
>> Ja, danke, guter Tipp! Denkst Du an ein bestimmtes Szenario?
> [...]
> Alternativ könnte man auch die Ausgabe von „bc“ durch „tr“  schieben,
> um jegliche Punkte durch Kommata zu ersetzen:    printf '%s\n' '4/3' |
> [...]

tr(1) ist ein gutes Beispiel, wo es hakeln könnte.
Hier (GNU coreutils) 9.1:

,----[ (coreutils) Character arrays ]
|    The interpretation of STRING1 and STRING2 depends on locale.  GNU
| ‘tr’ fully supports only safe single-byte locales, where each possible
| input byte represents a single character.  Unfortunately, this means GNU
| ‘tr’ will not handle commands like ‘tr $'\u7530' $'\u68EE'’ the way you
| might expect, since (assuming a UTF-8 encoding) this is equivalent to
| ‘tr '\347\224\260' '\346\243\256'’ and GNU ‘tr’ will simply
| transliterate all ‘\347’ bytes to ‘\346’ bytes, etc.  POSIX does not
| clearly specify the behavior of ‘tr’ in locales where characters are
| represented by byte sequences instead of by individual bytes, or where
| data might contain invalid bytes that are encoding errors.  To avoid
| problems in this area, you can run ‘tr’ in a safe single-byte locale by
| using a shell command like ‘LC_ALL=C tr’ instead of plain ‘tr’.
`----

$ echo klöä | LC_ALL=de_DE.UTF8 tr [:lower:] [:upper:]
KLöä
§


sed (GNU sed) 4.9 scheint hingegen mit
LC_CTYPE_de_DE.UTF-8 klarzukommen
(dort gibt es aber keine Zeichenklassen).

-- 
Stefan

Back to de.comp.os.unix.shell | Previous | NextPrevious in thread | Next in thread | Find similar


Thread

System und Shell-Scripte: Latin-1 zu UTF-8 Martin Klaiber <usenet.martinkl@gmx.de> - 2026-03-07 13:07 +0100
  Re: System und Shell-Scripte: Latin-1 zu UTF-8 Tim Ritberg <tim@server.invalid> - 2026-03-07 13:17 +0100
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Martin Klaiber <usenet.martinkl@gmx.de> - 2026-03-07 16:34 +0100
  Re: System und Shell-Scripte: Latin-1 zu UTF-8 Ralph Aichinger <ra@h5.or.at> - 2026-03-07 12:35 +0000
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Martin Klaiber <usenet.martinkl@gmx.de> - 2026-03-07 16:33 +0100
  Re: System und Shell-Scripte: Latin-1 zu UTF-8 Thomas Hochstein <thh@thh.name> - 2026-03-07 14:04 +0100
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Urs Janßen <urs@niko.tin.org> - 2026-03-07 15:36 +0000
      Re: System und Shell-Scripte: Latin-1 zu UTF-8 ram@zedat.fu-berlin.de (Stefan Ram) - 2026-03-07 16:38 +0000
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 ram@zedat.fu-berlin.de (Stefan Ram) - 2026-03-07 16:48 +0000
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Urs Janßen <urs@niko.tin.org> - 2026-03-07 16:51 +0000
      Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan+Usenet@Froehlich.Priv.at (Stefan Froehlich) - 2026-03-07 20:02 +0000
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Urs Janßen <urs@niko.tin.org> - 2026-03-07 20:45 +0000
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Urs Janßen <urs@niko.tin.org> - 2026-03-07 20:50 +0000
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Helmut Waitzmann <nn.throttle@erine.email> - 2026-03-08 01:25 +0100
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Martin Klaiber <usenet.martinkl@gmx.de> - 2026-03-07 16:29 +0100
  Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-07 23:12 +0100
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Martin Klaiber <usenet.martinkl@gmx.de> - 2026-03-08 00:42 +0100
      Re: System und Shell-Scripte: Latin-1 zu UTF-8 Helmut Waitzmann <nn.throttle@erine.email> - 2026-03-08 03:40 +0100
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 06:14 +0100
          Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 10:47 +0100
          Re: System und Shell-Scripte: Latin-1 zu UTF-8 Helmut Waitzmann <nn.throttle@erine.email> - 2026-03-08 19:05 +0100
            Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 20:40 +0100
              Re: System und Shell-Scripte: Latin-1 zu UTF-8 Helmut Waitzmann <nn.throttle@erine.email> - 2026-03-08 22:29 +0100
                Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 23:27 +0100
      Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 09:36 +0100
  Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 07:17 +0100
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 09:56 +0100
      Re: System und Shell-Scripte: Latin-1 zu UTF-8 Ralph Aichinger <ra@h5.or.at> - 2026-03-08 09:11 +0000
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 10:19 +0100
          Re: System und Shell-Scripte: Latin-1 zu UTF-8 Ralph Aichinger <ra@h5.or.at> - 2026-03-08 10:25 +0000
            Re: System und Shell-Scripte: Latin-1 zu UTF-8 Ulli Horlacher <framstag@rus.uni-stuttgart.de> - 2026-03-08 10:41 +0000
            Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 11:52 +0100
  Re: System und Shell-Scripte: Latin-1 zu UTF-8 Hergen Lehmann <hlehmann-usenet26@snafu.de> - 2026-03-08 10:03 +0100
    Re: System und Shell-Scripte: Latin-1 zu UTF-8 Michael Bäuerle <michael.baeuerle@gmx.net> - 2026-03-08 10:56 +0100
      Re: System und Shell-Scripte: Latin-1 zu UTF-8 Stefan Wiens <s.wi@gmx.net> - 2026-03-08 11:19 +0100
        Re: System und Shell-Scripte: Latin-1 zu UTF-8 Michael Bäuerle <michael.baeuerle@gmx.net> - 2026-03-08 14:09 +0100

csiph-web