Re: Kodierung von Datei- und Verzeichnisnamen

From: Polytropon <freebsd(at)edvax.de>
Date: Sun, 26 May 2013 12:52:27 +0200

On Sun, 26 May 2013 12:13:21 +0200, Marc Santhoff wrote:
> Jetzt fragt sich nur noch, warum ein Tcl/Tk-Programm einfach so "exotisch
> kodiert"[tm] daherkommt, entweder der Interpreter ist modernisiert und mag
> $LANG nicht oder das Programm macht Murks oder nichts.

Das Dateisystem selbst interessiert es herzlich wenig, was
da als Dateiname daherkommt. Wenn also ein Programm 2-Byte-
Zeichen anfordert oder "nicht-normale" 1-Byte-Zeichen (also
etwa unsere normalen Umlaute oder Eszett), dann bekommt es
das auch. Wird der Dateiname dann "unter einer anderen Kon-
vention angezeigt", sieht er "falsch" aus. Es muß also quasi
immer "Eingabezeichensatz" und "Ausgabezeichensatz" überein-
stimmen, damit die Anzeige konsistent ist. Das Programm, das
die Anzeige vollführt, muß die Zeichen natürlich auch an-
zeigen können (z. B. chineische Zeichen im Terminalfenster,
da müssen auch die entsprechenden Schriftarten installiert
sein - aber bei unsere paar olle Umlaute ist das nicht das
Problem, da wir die auch mit ISO-8859-1 und -15 kriegen).

> Es ist übrigens das von mir schon ewig benutzte TkDesk (x11-fm/tkdesk),
> das mittlerweile sogar ganz aus den Ports rausgeflogen ist, weil es
> nicht nur keinen Maintainer sondern noch nicht mal mehr einen
> Programmierer gibt, der es noch pflegt. :P

Das könnte durchaus der Grund sein. Viele ältere Programme
gelten als "nicht UTF-8-fest", so z. B. die Datei-Dialoge
in Gtk-1-Programmen.

> Lange Suche brachte ein 'ü' als $c3 $bc hervor. Alle ISO8859-Kodierungen
> werden falsch dargestellt. Die benutze ich aber eigentlich.

Das ü mit der Darstellung "A-Tilde ein Viertel", wie im Hexdump
zu sehen, deutet auf ein 2-Byte-Zeichen hin (UTF-8), Wenn es
ein 1-Byte-Zeichen wäre, würde das ü mit hex fc angezeigt werden.

> $ hd . | grep -C2 System_
> 000001e0 65 69 74 65 72 2e 68 74 6d 6c 00 ff 00 00 00 00 |eiter.html.ÿ....|

Also wenn da mal nicht eine Entzündung vorliegt, ich meine,
wegen "eiter.html"... hoffentlich ist es "der gute, lobens-
werte" Eiter... ;-)

> 00000210 65 72 73 63 68 6c c3 bc 73 73 65 6c 6e 5f 6d 69 |erschlüsseln_mi|

Genau da ist das UTF-8-Zeichen (also _die_ Bytes).

-- 
Polytropon
Magdeburg, Germany
Happy FreeBSD user since 4.0
Andra moi ennepe, Mousa, ...
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Sun 26 May 2013 - 12:52:29 CEST

search this site