Re: Umlaute und andere Sonderzeichen in Dateinamen konvertieren?

From: Oliver Fromme <olli(at)lurza.secnetix.de>
Date: Mon, 24 Mar 2014 14:09:10 +0100 (CET)

Polytropon <freebsd(at)edvax.de> wrote:
> On Fri, 21 Mar 2014 10:44:28 +0100 (CET), Oliver Fromme wrote:
> > Das ist ganz klar ein Bug (und zwar ein eklatanter) in der
> > betreffenden Software, die ihrem Entwickler dafür um die Ohren
> > gehauen hört, damit es unverzüglich behoben wird.
>
> Sehe ich auch so, aber solcherlei Software kann man eben
> für paar tausend Euro pro Quartal sehr professionell vor-
> finden.

Als ein Kunde, der vierstellige Beträge für so ein Machwerk
abdrückt, würde ich solche Bugs beim Hersteller eskalieren,
und zwar mit Nachdruck. So ein Pfusch ist bei einer Software,
die sich "professionell" nennt, einfach nur peinlich.

> > Meine Shell-Sessions laufen (zur Zeit noch) immer mit
> > LC_CTYPE=de_DE.ISO8859-15. Wenn ich joe mit einer Datei
> > starte, die UTF-8-kodiert ist (erkennbar am BOM; er kann
> > es aber auch ohne BOM mit Hilfe einer Heuristik erkennen),
> > dann "übersetzt" er es automatisch für mein Locale, d.h.
> > ich merke es gar nicht, wie die Datei kodiert ist. So
> > sollte es ja auch idealerweise sein. Das geht sogar
> > gemischt: Ich kann in einer joe-Session gleichzeitig
> > eine UTF-8-kodierte Datei und eine ISO-8859-kodierte Datei
> > geöffnet haben.
>
> Hmmm... da ist meine Version wohl noch zu alt, ich kriege
> beim Versuch, unter ISO8859-1 eine Datei mit chinesischen
> Schriftzeichen und deutschen Umlauten zu öffnen, den
> schönsten Zeichensalat (A-Tilde Backslash oder Paragraphen-
> zeichen oder sowas wie å¯FäºQæ°?åºS).

Naja, was erwartest Du denn, wie die chinesischen Zeichen
nach ISO8859-1 konvertiert werden? Zaubern geht nur bei
Harry Potter. :-)

Wenn Dein Locale ISO8859-1 verwendet, dann können natürlich
nur Zeichen darin dargestellt bzw. dorthin konvertiert werden,
die darin enthalten sind. Wenn Du chinesische Schriftzeichen
sehen möchtest, musst Du schon ein Locale verwenden, das diese
Zeichen beinhaltet (also z.B. UTF-8), und natürlich einen
geeigneten Zeichensatz ("Font") haben.

> Vielleicht funktioniert das aber nur bei Dateien mit BOM
> verläßlich - oder meine Software ist schlichtweg zu alt,
> das kommt bei mir häufiger vor. :-)

Nach meiner Erfahrung funktioniert die Erkennung von UTF-8
zumindest bei solchen Dateien verlässlich, die Umlaute
enthalten. Auch ohne BOM. Zu chinesischen Schriftzeichen
kann ich nichts sagen. Da ich keine asiatische Sprache
spreche und solche Zeichen ohnehin nicht lesen kann, musste
ich mich bisher mit so etwas nicht auseinandersetzen.

> > Wenn ich dann irgendwann mal meine Shell-Sessions per default
> > auf UTF-8 umswitche, muss ich an joe gar nichts ändern, und in
> > meinem less-Wrapper muss ich ggf. die Konvertierungsrichtung
> > ändern.
>
> Wie machst Du diese Art der Shell-Umschaltung?

Siehe separater Thread (hast Du ja bereits gesehen).

> > > > > > Und selbst, wenn man den Umlaut nicht eingeben kann, weil
> > > > > > man eine unpassende Tastaturbelegung hat, dann tippt man halt
> > > > > > stattdessen "?" und überlässt es dem Globbing der Shell.
> > > > > > Oder man verwendet die Tab-Completion.
> > > > >
> > > > > Genau dies ist ja eine Frage der Shell, ob die das so
> > > > > macht, wie man will.
> > > >
> > > > Naja, sogar die krude csh/tcsh kann das.
> > >
> > > Plus daß zur deutlichen Darstellung auch das Terminal noch
> > > mitmachen sollte. :-)
> >
> > Damit Globbing und Tab-Completion funktionieren, muss das
> > Terminal nicht unbedingt mitmachen.
>
> Ich sagte ja: Darstellung, nicht, daß man nicht auch im
> Blindflug sein Ziel erreichen könne. :-)

Wieso Blindflug? Umlaute -- und um die ging es hier -- kommen
ja in der Sprache (und somit in Dateinamen) nur vereinzelt vor.
Wenn da ein Verzeichnis "Entw?rfe" heißt, kann man es im Notfall
immer noch erkennen und unterscheiden.

> > > > Warum sollte man für deutschsprachige Texte von UTF-8 auf UTF-16
> > > > umstellen wollen?
> > >
> > > Warum sollte man für deutschsprachige Texte von ISO-8859-1 oder -15
> > > auf UTF-8 umstellen wollen?
> >
> > Weil dann mehr Zeichen verwendet werden können, wie etwa den
> > Gedankenstrich (n-dash oder m-dash) oder die in Deutschland --
> > und auch anderswo -- üblichen gerichteten Anführungszeichen.
> > (Als Work-around verwende ich manchmal die »französischen«
> > Anführungszeichen, die es auch in ISO 8859 gibt.)
>
> Das kann man direkt in der Eingabe machen. Mit LaTeX geht
> das natürlich auch bequem, wobei die Eingabedatei dann
> "plain ASCII" bleibt - obwohl ich persönlich da auch so
> faul bin und \usepackage{german} sowie \usepackage[latin1]{inputenc}
> benutze, um Umlaute direkt und Anführungszeichen
> "`bequemer"' eingeben zu können.

Das hat nichts mit Faulheit zu tun. Das ist eine Sache der
Ergonomie und "Usability", wie man auf Neudeutsch so sagt.

Ein PC sollte so eingerichtet sein, dass man alle Zeichen, die
man im Alltag benötigt, direkt und ohne Verrenkungen eingeben
kann, und sie sollten dann auch genau so auf dem Bildschirm
angezeigt werden. Und zwar unabhängig vom Programm; es sollte
im Editor, im Browser und anderswo auf die gleiche Weise gehen.

> > Und selbstverständlich können in deutschsprachigen Texten auch
> > zahlreiche andere Zeichen vorkommen, die es in ISO 8859 nicht
> > gibt, und sei es nur, weil man den Namen eines Mitmenschen
> > korrekt wiedergeben möchte, oder ein fremdsprachliches Zitat,
> > oder ein Wort in Lautschrift, oder oder oder.
>
> Das mag ein Grund sein, warum LaTeX im kooperativen,
> länder- und sprachübergreifenden Textschaffensbereich
> so beliebt ist. :-)

Ich denke, das liegt eher an der traditionellen Stärke von TeX
bzw. LaTeX im Formelsatz. Da konnte ihm lange Zeit nichts
anderes das Wasser reichen.

> > Ja sich, wenn man's drauf anlegt, kann man jeden Fortschritt
> > durch "böse" Beispiele ausbremsen.
>
> Fortschritt ist jener Schritt, den wir machen, um die Welt
> Schritt für Schritt komplizierter zu machen - habe ich
> manchmal den Eindruck. Jedenfalls hat sich dank unserer
> Diskussion mein Meinungsbild über UTF-8 durchaus in eine
> aktuell zeitgemäßere Auffassung verschoben.
>
> Hoffentlich können unsere Nachkommen, wenn sie überhaupt
> noch digitale Daten lesen können, diese Informationen
> noch nachvollziehen.

Fortschritt bedeutet häufig eine erhöhte Komplexität, da hast
Du völlig recht. Ein Intel i7 oder ein ARM A50 ist naturgemäß
auch deutlich komplexer als ein Zilog Z80 oder ein MOS 6502.
IPv6 ist komplexer als IPv4. Der Aufbau einer DVD-ROM ist
komplexer als der einer Diskette. Ein aktueller PKW-Motor
ist komplexer als der meines 76'er Passat.

Die Herausforderung ist, diese Komplexität so zu verpacken,
dass man als Anwender nicht damit konfrontiert wird. Wenn
ich eine Datei editiere, möchte ich idealerweise gar nicht
wissen, wie die kodiert ist. Ich möchte mich gar nicht mit
Locales, Fonts, Konvertierungen usw. herumschlagen müssen.

In der Praxis klappt das nicht immer, aber mein Eindruck ist,
dass wir auf einem guten Weg dahin sind. Windows ist da
schon ein bisschen weiter, obgleich es auch dort Fälle gibt,
wo man auf die Nase fliegt.

> [... Duden ... Rechtschreibung ... Reformen ...]

Das Thema Duden haken wir jetzt lieber mal ab, das führt zu
nichts. Ich habe verstanden, dass Du eine persönliche Duden-
Aversion hast; das müssen wir nicht weiter auswalzen. :-)

Ich war auch gegen die Reformen (oder zumindest gegen einen
beträchtlichen Teil davon), und einige Regeln halte ich immer
noch für schlichtweg falsch. Aber inzwischen habe ich meinen
Frieden damit geschlossen, und der Duden ist mein Freund.

Gruß
   Olli

-- 
Oliver Fromme,  secnetix GmbH & Co. KG,  Marktplatz 29, 85567 Grafing
Handelsregister:  Amtsgericht Muenchen, HRA 74606, Geschäftsfuehrung:
secnetix Verwaltungsgesellsch. mbH, Handelsreg.: Amtsgericht München,
HRB 125758, Geschäftsführer:  Maik Bachmann,  Olaf Erb,  Ralf Gebhart
FreeBSD-Dienstleistungen/-Produkte + mehr: http://www.secnetix.de/bsd
"IRIX is about as stable as a one-legged drunk with hypothermia
in a four-hundred mile per hour wind, balancing on a banana
peel on a greased cookie sheet -- when someone throws him an
elephant with bad breath and a worse temper."
        -- Ralf Hildebrandt
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Mon 24 Mar 2014 - 14:09:21 CET

search this site