Re: Sortierung mit de_DE.UTF-8

From: Dominik Brettnacher <dominik(at)brettnacher.org>
Date: Fri, 3 Apr 2009 18:36:58 +0200 (CEST)

On Fri, 3 Apr 2009, nighthawk wrote:

>> Hier werden also die deutschen Sonderzeichen nicht richtig einsortiert.
> Ich vermute eher ein Problem mit der Testumgebung. Was macht "test" genau?

"test" macht nichts. Es ist lediglich eine Textdatei, in der zeilenweise
die genannten Wörter stehen. Das in der vorherigen Mail gezeigte Verhalten
von sort ist unabhängig davon, ob die Wörter in ISO-8859-1 oder in UTF-8
codiert sind (ich habe zwischendurch mit recode konvertiert).

>> Ich bin nun weniger von der Funktionsweise der ganzen Locale-Geschichten
>> überrascht, allerdings habe ich erwartet, dass das Setzen von de_DE.UTF-8
>> auch eine Ordnung benutzt wird, die im Deutschen üblich ist, auch wenn es
>> davon mehrere gibt.
> Ich mutmaße einfach mal, daß die Ordnung von UTF-8 Zeichen
> international standardisiert ist.

Es gibt auf www.unicode.org solche Tabellen, aber bei FreeBSD scheinen sie
nicht genutzt zu werden.

>> Man hätte ja stattdessen einen symbolischen Link auf
>> ../de_DE.ISO8859-1/LC_COLLATE setzen können.
> Das hingegen hätte sicherlich nicht den gewünschten Effekt, denn es
> würde m.W. jedes Multibyte Zeichen an unerwartete Stellen sortieren.

Aktuell ist es so, dass de_DE.UTF-8 (alias la_LN.US-ASCII) nach ein für
mich merkwürdiges und für die deutsche Sprache auch falsches Ergebnis
liefert.

Die Kollation nach de_DE.ISO8859-1 mag formal nicht für Multibyte-Zeichen
geeignet sein, liefert aber nach meiner Einschätzung ein "richtigeres"
Ergebnis, als de_DE.UTF-8.

-- 
Gruß,
Dominik
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Fri 03 Apr 2009 - 18:37:04 CEST

search this site