Re: LANG und UTF-8

From: Oliver Fromme <olli(at)lurza.secnetix.de>
Date: Mon, 5 Dec 2005 17:17:46 +0100 (CET)

Rocco Rutte <pdmef(at)cs.tu-berlin.de> wrote:
> * Bernd Walter [05-12-05 15:38:05 +0100] wrote:
> > Wir reden hier von einer _zusätzlichen_ Kodierung!
>
> Und genau das "zusätzlich" sehe ich als Problem.

Du hast immer noch kein konkretes Problem genannt.

> > Eine Anwendung muss auch in 20 Jahren noch in der Lage sein mit
> > heutigen Terminals zurecht zu kommen.
>
> Daraus ergibt sich aber ein Teufelskreis, wenn es komplett für alle
> Terminals und alle Anwendungen gelten soll. Dass hiesse nämlich, dass
> wir aus Gründen der Kompatibilität alle heutigen Interfaces behalten
> müssten und, soweit notwendig, erweitern.

Nein. Eine Anwendung, die Unicode bzw. Unicode-Kodierungen
(wie z.B. UTF-8) unterstützt, hat keine Probleme damit,
auch z.B. ISO8859-1 zu unterstützen, schließlich ist das
ja auch nur ein Unicode-Subset. Singlebyte-Kodierungen
sind auch nur ein reduzierter Sonderfall von Multibyte-
Kodierungen, d.h. man braucht keinen speziellen Support da-
für (außer vielleicht einer trivialen Shortcut-Abfrage).

Ich nehme an, Du bist kein Anwendungsprogrammierer, da Du
offenbar nur eine schwammige Vorstellung von den Zusammen-
hängen hast.

> [syscons und UTF-8]
> > > Darf ich raten, dass die Motivation dafür ziemlich gering ist? Weil es
> > > eh keiner wirklich haben will?
>
> > Sorry, bislang konnte mir keiner den Sinn erklären.
> > Ohne Sinn kann man kaum eine echte Motivation erwarten.
>
> Es muss dich persönlich nicht motivieren, aber es ist zum Beispiel der
> einzige Grund, warum ich X11 und den ganzen Rattenschwanz an Anwendungen
> permanent benutzen muss.
>
> Aber wenn du das Vorhandensein von verschiedenen und der Erschaffung
> evtl. weiterer Kodierungen als Dauest, wird dir vermutlich
> auch niemand gute Argumente für UTF-8 in syscons liefern können.

Um's mal ganz provokant zu sagen: UTF8-Support hat in
syscons nichts verloren. Es hat damit einfach nichts zu
schaffen. Wenn wir über Unicode-Support oder ISO10646
sprechen, dann ist das was anderes -- es mag sicherlich
sinnvoll sein, die interne Zeichendarstellung von syscons
auf 32bit aufzubohren.

Man _könnte_ allerdings darüber diskutieren, ob es Sinn
ergäbe, dem PTY-Treiber eine Übersetzungsschicht für UTF-8
(und dann aber auch andere wie UTF-16) zu spendieren. Das
ist dann aber nur ein kleiner Nebenschauplatz. Entschei-
dend ist erstmal nur, daß syscons Multibyte-fähig wird.

> > Letzlich verschiebt man nur die Kodierung von der Anwendung ins
> > Terminal, wobei es in der Anwendung aber aus Kompatibilität immer
> > noch vorhanden sein muss.
>
> Wenn überhaupt, dann sollte das IMHO transparent im System implementiert
> werden, so dass die Anwendung damit überhaupt nichts zu tun hat.

In Sprachen, die native Unicode verwenden (z.B. Python),
ist das schon seit Jahren kein Problem.

Aber Anwendungen, die mit Low-Level-Strings hantieren müs-
sen, wie es in C üblich ist, müssen sie sich über deren
Kodierung im Klaren sein und diese unterstützen. Natür-
lich gibt es in C Library-Funktionen für Stringbehandlung,
aber die wenigsten Programme kommen damit aus.

Klar, das ist suboptimal, aber so sieht die Praxis aus.

Gruß
Olli

-- 
Oliver Fromme,  secnetix GmbH & Co. KG, Marktplatz 29, 85567 Grafing
Dienstleistungen mit Schwerpunkt FreeBSD: http://www.secnetix.de/bsd
Any opinions expressed in this message may be personal to the author
and may not necessarily reflect the opinions of secnetix in any way.
"If Java had true garbage collection, most programs
would delete themselves upon execution."
        -- Robert Sewell
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message

Received on Mon 05 Dec 2005 - 17:53:02 CET