Heft-Archiv >> 2004 >> Publisher 4-04 >> Web-Publishing >> Tipps und Tricks
Artikel als PDF

Tipps und Tricks

GoLiveDreamweaver

Word-HTML bereinigen

(dl) Wenn MS Word ein Dokument als HTML abspeichert, fügt es in den Quellcode eine Menge von Zusatzinformationen ein, die nicht Bestandteil von HTML sind und das Dokument sehr unübersichtlich machen. Spezifische Formatierungen verhindern zudem, dass das Aussehen des HTML-Dokuments von einem externen Stylesheet gesteuert wird. Die Word-Zusätze können in Dreamweaver unter Word-HTML optimieren entfernt werden. Dabei lässt Dreamweaver den Benutzer genaue Angaben machen, welche Bestandteile entfernt werden sollen. Leider bleibt auch nach der Optimierung ein Problem: Word schreibt Umlaute und Sonderzeichen direkt in den Quellcode, statt ein entsprechendes Unicode-Kürzel wie «ä» einzufügen. Das kann auf anderen Computern dazu führen, dass diese Zeichen nicht richtig angezeigt werden.

Word

Word-HTML bereinigen, Teil zwei

(msc) Wer Dreamweaver nicht benützt und dennoch mit der mehr als fragwürdigen Aufgabe betraut ist, mit Word gespeicherte HTML-Seiten in brauchbaren Code umzuwandeln, hat mehrere Möglichkeiten. Zum einen bietet Microsoft selbst ein entsprechendes Tool an. Office 2000 HTML Filter entfernt einiges an Ballast. Downlad des Tools: www.microsoft.com/germany/download, dann nach «Office 2000 HTML Filter» suchen.

Auch nach der Behandlung mit diesem Tool bleiben viele unerwünschte Tags zurück, die die Bearbeitung in einem richtigen Webeditor erschweren oder sogar verunmöglichen. Eine Möglichkeit in diesem Fall ist HTML Tidy. Dieses Programm räumt HTML-Code auf und macht aus Word-Webdokumenten richtig brauchbare HTML-Seiten.

Der grosse Vorteil: HTML Tidy verschönert nicht nur das, was hinten aus Word herauskommt, sondern auch, was andere HTML-Vandalen generieren. Viele Content-Management-Systeme sind nicht eben für ihren schönen Code bekannt – wer Seiten von solcher Herkunft weiterzubearbeiten hat, dürfte mit HTML Tidy ein gutes Hilfsmittel haben. Der Nachteil: HTML Tidy ist ein Befehlszeilenprogramm, in das man sich erst einmal einarbeiten muss. Eine Kurzanleitung gibts im Artikel zu den Neuzugängen im Downloadbereich.

Eine letzte Möglichkeit bietet die Zwischenablage – und in vielen Fällen ist das der einfachste Weg. GoLive in der neuen CS-Version importiert den Inhalt der Zwischenablage nicht unformatiert, wie seine Vorgänger, sondern behält die Zeichenformate bei. Kopiert man einen Text in Word in die Zwischenablage und fügt ihn dann in GoLive in ein leeres Dokument, bleiben viele der Formatierungen bestehen. Die Word-Formate «Überschrift 1» etc. werden übrigens automatisch nach «h1» umgesetzt – mehr verlangt man bei einer Datenübernahme in aller Regel gar nicht!

Die reguläre Suche nutzen

(msc) Stellen Sie sich folgende Ausgangssituation vor: Sie haben eine Website, auf der es eine grössere Anzahl Links gibt. Nun möchten Sie diese Links bearbeiten. Sie wollen, dass alle PDF-Dateien in einem neuen Browser-Fenster geöffnet werden. Dazu müssen Sie bekanntlicherweise ein target=_blank-Attribut einfügen; dieses weist den Browser an, beim Klick auf den Link für angegebene Dokument ein neues Fenster anzulegen.

Sie könnten nun alle Links von Hand bearbeiten – was aber schnell mühsam wird und auch nicht nötig ist: GoLive enthält für Fälle wie diesen die Möglichkeit, nach regulären Ausdrücken zu suchen. Ein regulärer Ausdruck (englisch «regular expression») ist eine formelle Art, eine (Unter-)Menge von Zeichenketten zu beschreiben. Er ermöglicht, eine grosse Textmenge nach einem bestimmten Muster abzusuchen; beispielsweise eine Anzahl an HTML-Dateien nach Links, die auf «.pdf» enden. Mit bestimmten Sonderzeichen – Metazeichen genannt – kann man eine bestimmte Anzahl Zeichen suchen, Platzhalter verwenden und vieles mehr. Eine einfache Form der regulären Ausdrücke kennen alte PC-Hasen von DOS: Der Stern steht für eine beliebige Zahl Zeichen, sodass *.pdf für alle Dateien mit der Endung PDF steht.

Viele Programme verwenden reguläre Ausdrücke, darunter Perl oder PHP, und eben auch GoLive.

Mit einem regulären Ausdruck lässt sich fast alles suchen, sodass Suchen-Ersetzen per Handarbeit der Vergangenheit angehört. Über die regulären Ausdrücke können auch komplexe Veränderungen an vielen Websites automatisch durchgeführt werden, so man es denn schafft, den regulären Ausdruck wunschgemäss zu formulieren. Doch das ist für Nicht-Mathematiker alles andere als leicht! Die Hilfedatei von GoLive erklärt die grundlegenden Konzepte – und ist daher als erste Informationsquelle unverzichtbar –, sie geizt aber mit konkreten Beispielen. Entsprechende Beispiele sind zwar über das Flyout-Menü von GoLives Suchdialog abrufbar; ohne weitere Erklärungen gelingt es aber kaum, diese den eigenen Bedürfnissen anzupassen.

Um nach regulären Ausdrücken zu suchen, betrachten Sie Ihre Webseite in der Ansicht «Quellcode», gehen über Bearbeiten > Suchen > Inhalt suchen, wählen ggf. die Option «im aktuellen Dokument», blenden die Optionen ein und aktivieren das Häkchen bei «regulärer Ausdruck».

Wenn man per regulärem Ausdruck Webseiten anpassen will, dürfte man in vielen Fällen nach HTML-Code suchen. Daher ist es unverzichtbar zu wissen, mit welchem regulären Ausdruck man HTML-Tags finden kann. GoLives Hilfedatei verrät das zwar nicht, deutet aber an, mit welchem Platzhalter man sein Glück versuchen sollte: Setzt man das Caret-Symbol ^ zwischen eckige Klammern, sucht man Zeichenketten, welche die dem Caret nachgestellten Zeichen nicht enthalten. «Mit [^ab] sucht man alle Zeichen, mit Ausnahme von ‹a› und ‹b›», sagt die Hilfedatei.

Daraus leitet sich ab, dass man mit [^<>] nach Zeichenketten suchen kann, die keine spitze Klammer enthalten, zwischen denen die HTML-Tags stehen. Der Stern * wiederum sucht nach einer beliebigen Anzahl des vorangestellten Zeichens, sodass man mit [^<>]* nach Zeichenketten sucht, die keine Klammern enthalten. Ummantelt man nun diesen regulären Ausdruck mit zwei eckigen Klammern, findet man beliebigen Text, der zwischen zwei eckigen Klammern steht – sprich: HTML-Tags: <[^<>]*>

Um bestimmte HTML-Tags zu finden, kann man dieses Suchmuster anpassen: </[^<>]*> findet schliessende Tags, <td[^<>]*> findet Tabellenzellen. Links sucht man dementsprechend mit <a href[^<>]*>. Möchten Sie einen Link mit abschliessendem </a>-Tag finden, dann ist das der richtige reguläre Ausdruck:
<a href[^<>]*>[^<>]*</a>

Um nur PDF-Dateien zu finden, integrieren Sie die PDF-Endung in den regulären Ausdruck. Da Links zwischen Anführungszeichen stehen, gilt es zu bedenken, dass das diese selbst Metazeichen sind. Um nach Anführungszeichen zu suchen, stellen Sie den umgekehrten Schrägstrich voran, d.h. Sie suchen mit \". Entsprechend finden Sie mit folgendem regulären Ausdruck alle Links auf PDF-Dateien:
<a href[^<>]*.pdf\">

Mit der Suche via Reiter «im aktuellen Dokument» der GoLive-Suchfunktion werden sie zwar fündig, können die Fundstellen jedoch nicht bearbeiten – Sie könnten hier die Links auf PDF-Dateien nur komplett durch etwas anderes ersetzen oder löschen.

Um Code zu modifizieren, stellt GoLive die Suchfunktion nach «Code-Elementen» bereit. Diese benutzen Sie, indem Sie im Dialog «Inhalt suchen» in die Ansicht «In mehreren Dateien suchen», wechseln und dort die Option «Code-Element» (bei der Auswahl, bei der auch Layout- und Quellcode-Modus zur Verfügung steht) aktivieren. Wählen Sie dann das Element a und das Attribut href für den Hyperlink. Um nun nach einem Dateinamen mit der PDF-Endung suchen zu können, benötigen Sie wiederum einen regulären Ausdruck. Da GoLive die Suche unter «Code-Element» auf HTML-Tags bzw. Hyperlinks beschränkt, fällt der reguläre Ausdruck deutlich einfacher aus als in den vorherigen Beispielen, wo Sie die regulären Ausdrücke selbst so formulieren mussten, dass die Suche nur Zeichenketten zwischen eckigen Klammern berücksichtigte. Geben Sie hier [^<>]*.pdf an, was soviel heisst wie: Suche irgendwas, das auf .pdf endet.

Unter Ändern definieren Sie den Wunsch, ein Attribut target mit Ziel _blank einzufügen. Diese Suche lassen Sie nun über alle Seiten laufen und voilà: Selbst wenn Sie Tausende von PDF-Links haben, gehen nach der Bearbeitung alle in einem neuen Browserfenster auf.

 

 

Artikel als PDF