Wikipedia Diskussion:Technik/Text/Konverter/xml2sql

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

-wo kann ich das perlscript download?

Es ist als Kommentar in der Seite versteckt, du musst auf "Seite Bearbeiten" klicken, um ihn zu sehen. --SirJective 15:18, 16. Sep 2005 (CEST)

-gibt es auch ein php-script zum umwandeln? thx

Mir ist noch keins bekannt. --SirJective 15:18, 16. Sep 2005 (CEST)

Gibt es einen Unterschied zwischen dem Perl- und dem Java-Skript? Ich selbst benütze das Perl-Script und bin bisher damit gut gefahren. Nebenbei: Das Perl-Script erzeugt die MW 1.4-cur-Tabelle. Demnächst möchte ich lieber das MW 1.5-Schema benützten. Ist das möglich (ich meine, die Anpassung)? --Filzstift 07:30, 12. Okt 2005 (CEST)

Das eine ist in Perl und das andere in Java... :-)
Ich hab das Perl-Programm nicht getestet, aber wenn du beides laufen lässt, kannst du ja die Ausgabe mal vergleichen.
Nach Veränderungen des Perl-Programms fragst du Jah am besten direkt. Um meinem Java-Programm das Format beizubringen, müsste ich es erstmal kennenlernen. --SirJective 22:23, 24. Okt 2005 (CEST)

Ich koennte einen xml2pgsql converter in php, python perl oder forth gebrauchen --84.167.66.200 22:02, 15. Feb 2006 (CET)

Filtererstellung mwdumper per PHP Script[Quelltext bearbeiten]

Ich möchte in meinem Wiki alle Seiten importieren die einen direkten oder indirekten Bezug zur Informatik, Lunix etc. haben . Ich habe mir deshalb das XML-Dump heruntergeladen und es mit dem mwdumper bearbeitet. Ich habe zwar die Möglichkeit mit dem mwdumper eine Filterdatei zu nutzen um nur Seiten deren Titel ich möchte zu extrahieren, aber woher die entsprechenden Seitentitel nehmen?

  • Eine Abfrage über Wikisign ist soweit ich sehe auf 1000 Zeilen beschränkt.
  • Ich müsste um das auf dem eigenen Mysql-Server per Abfrage zu lösen erstmal das komplette Dump einspielen. Was leider daran scheitert, das sich das Dump der pagelinks bei mir irgendwann aufhängt.
  • Auch die Spezialseite welche Links auf die aktuelle Seite verweisen, hilft mir hierbei nicht wirklich weiter. Ich möchte ja die verknüpften Seiten von einer Startseite aus nicht umgekehrt.

Jedenfalls habe ich mir deshalb ein PHP-Script gebaut das per curl die entsprechende Bearbeitenseite der Statseite öffnet (in meinem Fall das Portal:Informatik) den WikiCode der Seite und anschließend die dortigen Links ausparst und die Titel der Seiten zurückliefert. Anschließend desselben mit den Ergebnisseiten bis zu einer von mir festgelegten Tiefe. Das Script erfüllt seinen Zweck, aber ich wollte noch nachfragen ob ich es überhaupt gestattet ist so an die Links heranzukommen? Die Seitenzugriffe sollten sich in grenzen halten. Jede Seite wird auch bei Mehrfachverlinkung immer nur ein mal angefragt.

Falls die Nutzung erlaubt ist, kann ich das Script auch gern zur Verfügung stellen wenn es jemand gebrauchen kann. Ich denke mir es ist einfacher die Leute selbst ihre Filter erstellen zu lassen als entsprechende SQL/XML Dumps zur Verfügung zu stellen.

Ich hab leider keine Möglichkeit es Online zur Verfügung zu stellen oder den Quellcode zu Posten (damit man sieht was es tut) scheint durch die Formatierung nicht machbar. Wäre nett wenn mir jemand sagen kann ob die Nutzung erlaubt ist bzw an wen ich die frage loswerden kann oder lieber doch eine entsprechende Anfrage für eine entsprechende SQL-Abfrage stellen sollte.

--saarworres 16:21, 1. Mär 2006 (CET)