Re: Kodierung von Datei- und Verzeichnisnamen

From: Polytropon <freebsd(at)edvax.de>
Date: Sat, 25 May 2013 06:59:17 +0200

An dieser Stelle eine Folgefrage zum Thema Zeichencodierung
insgesamt:

On Fri, 24 May 2013 14:32:32 +0200 (CEST), Oliver Fromme wrote:
> UTF-8 erkennt man ganz einfach daran, dass bei Umlauten
> mehrere Bytes codiert sind, bei ISO8859-* ist es nur eines.
> Bei UCS-2 wiederum wird _jedes_ Zeichen mit zwei Bytes
> codiert.

Netter Trick!

> Hier kann man sehen, dass die Umlaute durch einzelne Bytes
> repräsentiert werden (f6 = 'ö', e4 = 'ä'), also handelt es
> sich um ISO8859-*.
>
> Die Hex-Codes für ISO8859-1 (das weitgehend identisch ist
> mit ISO8859-15) kann man übrigens auch in der Datei
> /usr/share/misc/latin1 nachschlagen. Oder bei Google.

Was ist denn eigentlich der (aktuell) für den deutschsprachigen
Raum (also Deutschland) die "vorgeschriebene" Einstellung?
ISO8859-1, ISO8859-15 oder UTF-8?

Ich meine, für meine Muttersprache möchte ich ungern 2 Byte
für Umlaute und Eszett verquackern, aber immer wieder der
Zeichenfolge "Klotz Klotz" (wegen UTF-8) zu begegnen, ist
auch unschön. Gibt es nicht zufällig ein Mittel, daß alle
2-Byte-Zeichen ordnungsgemäß mit ihrem Äquivalent angezeigt
werden, bei _Eingabe_ jedoch das 1-Byte-Zeichen verwendet
wird?

Die Einstellungen de_DE.ISO8859-1 und de_DE.ISO8859-15
unterscheiden sich ja (effektiv) nur im Euro-Zeichen,
bei de_DE.UTF-8 gehen aber die "Inkompatibilitäten" los.

Von Ärgereien wie "byteweises != zeichenweises Seeking"
oder "Suche nach Sonderzeichen" (verschiedenste Binde-
strichvarianten, Apostrophe, Akute usw.) will ich erst
gar nicht anfangen. Und darauf, daß im Textmodus vieles
sowieso nicht "UTF-8-fest" ist, gehe ich auch nicht
weiter ein.

> Ich persönlich halte es so, dass ich LANG und LC_ALL *nicht*
> setze, sondern die einzelnen Variablen dediziert. Das hat
> den Vorteil, dass ich mit LC_CTYPE und LC_COLLATE ein Locale
> mit deutschen Umlauten und Sortierung verwenden kann,
> während z.B. Meldungen und Zahlen (LC_MESSAGES, LC_NUMERIC)
> auf englisch ausgegeben und formatiert werden.

Mache ich auch so (da sich so die angenehmsten Aspekte von
deutsch- und englisch-geprägten Einstellungen bequem kombinieren
lassen), aber sobald man eine Datei mit "typischem" UTF-8-Inhalt
auf den Tisch bekommt, scheint bei manchen Terminalprogrammen
oder Editoren (ich glaube, _das_ ist der Knackpunkt) der Ärger
loszugehen, umgedrehtes Fragezeichen ein Viertel A-Tilde Klotz
Klotz Klotz. :-)

Also: Wie stellt man sich da am geschicktesten an?

-- 
Polytropon
Magdeburg, Germany
Happy FreeBSD user since 4.0
Andra moi ennepe, Mousa, ...
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Sat 25 May 2013 - 06:59:19 CEST

search this site