Re: Filter HTML/Java

From: Oliver Fromme <olli(at)secnetix.de>
Date: Mon, 24 Feb 2003 09:58:41 +0100 (CET)

Dieter Deinert <dd(at)radio-do.ath.cx> wrote:
> ich moechte/will/muss von einem kleinen Hardwarerouter das SYS-Log holen
> und ordentlich weglegen.
>
> An sich kein Problem, aber.....
>
> leider hat diese kleine Teil nur ein Webinterface und liefert mir, wenn ich
> webcopy benutze, eine recht bunte Mischung aus HTML und Java-Script :-((
> Ausserdem ist der Log-Platz nur begrenzt,(einige K) laeuft dann nach hinten
> über und wird nur beim Reboot oder Kaltstart sicher mit der Loginsequenz
> begonnen.
>
> Der HTML/Java Teil ist aber immer als "Rahnen" dabei. Ich muss, soweit ich
> das ubersehen kann, "negativ" filtern, HTML und Java-Script rausnehmen,
> weil ich die "positiven" Meldungen nicht voraussehen kann.

Äh, was denn nun, Java oder JavaScript? Das sind zwei völ-
lig verschiedene Dinge.

Wenn es nur JavaScript ist, könntest Du »links« ausprobie-
ren. Das ist ein Textmode-Browser, der seit einiger Zeit
auch (rudimentär) JavaScript kann. Mit dem sollte es mög-
lich sein, aus HTML+JavaScript ASCII zu generieren (sofern
ich Dich richtig verstanden habe und es das ist, was Du
willst). Ist in der Ports-Collection zu finden.

Wenn der JavaScript-Teil nicht für den eigentlichen Content
notwendig ist (z.B. wenn er nur überflüssigen GUI-Schnick-
schnack macht), kannst Du den auch einfach wegfiltern bzw.
ignorieren, und den Rest mit lynx oder w3m in ASCII-Text
konvertieren.

> Wollte das Rad nicht neu erfinden. Mit sed koennte es vielleicht gehen.....

Hmm, achso, Du willst nur den HTML-Markup wegfiltern, aber
nicht darstellen? Dann reicht in der Tat sed. Wenn die
HTML-tags nicht zeilenübergreifend sind, ist es sogar aus-
gesprochen trivial: sed 's/<[^>]*>//g'

> $>webcopy -g xyz > syslog2.htm
> [...]
> minutes and 20 seconds ago.</I><PRE>
> [...]
> </PRE><A NAME=BOTTOM><HR><P><CENTER><FORM><INPUT TYPE=BUTTON VALUE="Back"
> [...]

Na, das ist ja _noch_ einfacher. :-)
Du mußt doch im Prinzip nur die Zeilen zwischen <PRE> und
</PRE> rausholen: sed '1,/<PRE>/d;/<\/PRE>/,$d'

Gruß
   Olli

-- 
Oliver Fromme, secnetix GmbH & Co KG, Oettingenstr. 2, 80538 München
Any opinions expressed in this message may be personal to the author
and may not necessarily reflect the opinions of secnetix in any way.
"All that we see or seem is just a dream within a dream" (E. A. Poe)
To Unsubscribe: send mail to majordomo(at)de.FreeBSD.org
with "unsubscribe de-bsd-questions" in the body of the message
Received on Mon 24 Feb 2003 - 09:58:45 CET

search this site