Re: lokale Suchmaschine

From: Alexander Langer <alex(at)big.endian.de>
Date: Tue, 18 Feb 2003 21:04:34 +0100

Also sprach Matthias Teege (matthias(at)mteege.de):

> ich habe hier einen internen Webserver mit ca. 40000 HTML Dateien
> die ich gerne indizieren und durchsuchen würde. Es gibt ja eine
> Reihe passender Tools und bevor ich die der Reihe nach ansehe,
> interessiert mich, ob hier jemand Erfahrung mit einer lokalen
> Suchmaschine auf einem BSD Server hat und eventuell eine Empfehlung
> abgeben kann.

Lokal ist nicht so prima, weil eventuelle PHP-Skripte usw. nicht richtig
indiziert werden, und sämtlicher dynamischer Inhalt (Datenbank Krams,
wie z.B. News oder sowas) nicht erfasst werden. Solltest Du also
wirklich nur statische Seiten haben, wäre es eventuell zu überlegen, ob
Du dir die Zeit nimmst, das ganze per glimpse und passendem Interface zu
indizieren - glimpse liefert hervorragende Resultate, es gibt auch
bereits mit wwwglimpse u.ä. Ansatzpunkte, dieses auf einem Webserver zu
integrieren.

Aus oben genannten Gründen verwende ich bei uns (ca. 35000 Seiten/PHP
Skripte u.ä.) allerdings ht://dig. htdig ist in den Ports, ich hab's
aber lokal compiliert, um's anzupassen (damit im HIDDEN Feld z.B. nicht
der Ort der Config-File angegeben werden muss)

htdig macht HTTP-Aufrufe an den Webserver und geht so wirklich nur über
erreichbare Seiten. Eine deutschsprachige Synomym-Datenbank (z.B. von
ispell) hilft dabei, bei Suchabfragen nach Wortstämmen zu suchen, was
sich als ungemein hilfreich erwiesen hat. Ausserdem kannst Du in der
jetzigen beta-Version auch Regular-Expressions für auszuschliessende
URLs usw. angeben, was praktisch ist, wenn Du z.B. ein Forum mit
indizieren möchtest, nicht aber verschiedene Ansichten (sprich, per GET
übergebene Parameter, wo sonst eine Seite 10-20 mal im Index auftaucht)
der einzelnen Seite.

Die beta Version läuft relativ ok, hat aber ab und zu einige Aussetzer,
so dass ich den Prozess, der die Seiten abgrast, derzeit nicht über
cronjobs starte, sondern manuell, um im Notfall zu intervenieren
(Fehlversuche resultieren leider in leeren htdig-Datenbanken, was nicht
gut ist). Früher hab ich das wöchentlich gemacht, aber irgendwie
mag er cron neuerdings nicht so, keine Ahnung, weshalb.

Eingabe, Ausgabe, Not-Found Seite usw. sind alle konfigurierbar,
wunderbar. Selbst von php aus kann man die Suche irgendwie
konfigurieren, ich nehm aber direkt das C Programm.

Die Datenbank mit den Wörtern ist bei uns momentan 50 MB gross, und
trotzdem ist htdig unheuer schnell.

Ich find htdig einfach nur klasse ;-)

HTH

Alex

To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-chat" in the body of the message
Received on Tue 18 Feb 2003 - 21:04:39 CET

search this site