Benutzer:KMic/CatSearch

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Das folgende Bash-Skript kann dazu genutzt werden, um beliebige Zeichenfolgen im von der MediaWiki-Software generierten HTML-Code zu finden. Insbesondere können damit auch Parser-Fehler von LaTex-Formeln gefunden werden, welche ansonsten nicht auffindbar sind. Hintergründe dazu siehe [1] und [2].

Passender CatScan Mathematik, Physik und Statistik: Liefert etwa 20.000 Artikel. Das Ausgabeformat muss auf "TSV" umgestellt werden. Danach das Ergebnis lokal abspeichern, die ersten beiden Zeilen der Datei von Hand zu entfernen und dann das untenstehende Skript darauf anwenden.

Hinweis: Sollte das Skript Artikel ausgeben, bei denen während der Nachkontrolle im normalen Webbrowser keine Parserfehler angezeigt werden, so kann das Leeren des serverseitigen Caches für den betreffenden Artikel das Problem möglicherweise beheben.

Quellcode[Bearbeiten | Quelltext bearbeiten]

#!/bin/sh

# Es wird keinerlei Garantie dafür übernommen, dass dieses Skript
# das tut was es soll und nichts tut, was es nicht soll.
# Einsatz ausdrücklich auf eigene Gefahr!

# Als Eingabedatei eignet sich ein beliebiger CatScan
# (http://toolserver.org/~magnus/catscan_rewrite.php?interface_language=de)
# im Ausgabeformat "TSV", wobei dann noch die ersten beiden Zeilen von Hand entfernt
# werden müssen.

if [ $# -ne 1 ]
then
  echo "Aufruf: $0 <Artikelliste>"
  exit
fi

if test -f $1
then

  if test -f $1.out
  then
    rm $1.out
  fi

  for i in `cut -f 1 $1`; do
    lynx -source http://de.wikipedia.org/wiki/$i | grep "Fehler beim Parsen" > /dev/null
    if [ $? = "0" ] ; then
      echo \* \[\[$i\]\] | tee -a $1.out
    fi
    sleep 0.2
  done

else
  echo "Datei $1 existiert nicht"
fi