Worte für Index extrahieren

Gespeichert von Erik Wegner am/um Do., 01.04.2010 - 22:27

LaTeX
Index

Beschreibung

Nach der Fertigstellung eines LaTeX-Dokumentes steht die Frage, welche Worte in den Index aufgenommen werden sollen. Um die Beantwortung zu erleichtern, kann das folgende Befehlskonstrukt helfen, indem es alle Worte aus der LaTeX-Quelle filtert und sortiert mit der Angabe der Häufigkeit ausgibt.

pdftotext -enc UTF-8 -raw datei.pdf
gawk '{for (i=1;i<=NF;i++) print $i}' datei.txt | sort | uniq -c

Dabei passiert folgendens: Der Befehl pdftotext wandelt die fertige PDF-Datei wieder in eine Textdatei ohne Steuerzeichen um. Anschließend wird diese Ausgabe mit Hilfe von gawk zerlegt, sodass jedes Wort in einer einzelnen Zeile steht. Diese Liste wird mit sort sortiert und an uniq übergeben, das daraus eine Liste mit der Häufigkeit des Vorkommens erzeugt.