Wikipedia Diskussion:Technik/Datenbank/Download/Archiv

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 10 Jahren von PerfektesChaos in Abschnitt Fehlerhafte Links im Artikel
Zur Navigation springen Zur Suche springen

CUR-Tabellen[Quelltext bearbeiten]

Kennt jemand die Bedetung der Spalten der cur-Tabellen? [1] ist offenbar nicht mehr aktuell. Was bedeutet z.B. "inverse_timestamp"? Ist "cur_id" für einen Artikel festgelegt oder kann sich der Wert später mal ändern? Oder kann jemand auf eine aktuelle Dokumentation verweisen?--El 21:20, 7. Sep 2003 (CEST)


Ich benutze noch immer eine Modem-Verbindung. Wäre es nicht möglich, gerade die PDA-Dateien in mehreren teilen (zB 4) zum Download anzubieten? 62.227.37.129 23:42, 29. Jan 2004 (CET)


Ich besitze leider einen etwas betagteren Linux-Server (<1GHz) der mit den riesigen SQL-Dumps hoffnungslos überfordert ist. Gibt es eine Möglichkeit, die Dumps, z.B. mit einem Shellscript, in leicht verdauliche Häppchen aufzuteilen? --sveith 18:07, 6. Apr 2004 (CEST)


Hat noch jemand Probleme beim Import von cur_table.sql?

Ich benutze OS X 10.3.4 und standard MySQL 4.0.20 und bekomme beim importieren den Fehler "Got a packet bigger than 'max_allowed_packet'" obwohl die Variable bereits per default auf dem Maximum (16M) steht. Carsten Lorenz 21:52, 3. Aug 2004 (CEST)

Neulich hatte ich einen Fall, bei dem "max_allowed_packet" zweimal in der my.cnf auftauchte, einmal unter [mysqld] und einmal unter [mysqldump]. Eigentlich sollten sich die beiden nicht ins Gehege kommen, aber in dem Fall hat es geholfen, "max_allowed_packet" unter [mysqldump] zu löschen. --Echoray 22:10, 3. Aug 2004 (CEST)
Guter Tip. Hat bei mir funktioniert, nach Neustart des mysql-Servers. Ich habe einfach beide max-Werte auf 16M gesetzt. --Mw 23:34, 30. Aug 2004 (CEST)

Umlaute und refreshlinks[Quelltext bearbeiten]

Sali,

Hat noch jemand Probleme mit Umlauten nach dem Import?

Hat jemand Probleme refreshlinks usw. aufzurufen (AdminSettings ...)

DWay 12:54, 1. Sep 2004 (CEST)

Windows? Dort ist das Problem bei mir in der Tabelle cur in der Spalte cur_title beim auslesen mit Delphi aufgetreten. (Andere Tabellen habe ich bislang nicht verwendet) Das liegt wohl daran, dass die Spalte als binary angelegt wird. Jedenfalls war das Problem bei mir verschwunden, nachdem ich mit gawk das "binary" aus der Definition entfernt habe. Bei cur_timestamp mache ich das auch und bekomme die Spalte dann auch im richtigen Format. --Berthold Werner 09:17, 3. Feb 2005 (CET)

Hab auch ein Problem mit den Umlauten, was muß den eigentlich eingestellt sein? Aus "Baden-Württemberg" macht er "Baden-Württemberg" der Browser bräuchte aber "Baden-W%C3%BCrttemberg" dann würden die Links laufen.
In PHP hilft der Befehl utf8_decode($feld) Kolossos 00:09, 19. Apr 2005 (CEST)

Keine Aktualisierung mehr?[Quelltext bearbeiten]

Die letzte Aktualisierung von Index of /archives/de war am 8.Jan. normalerweise wäre längst ein neuerer dump fällig. 07:26, 2. Feb 2005 (CET)

es gibt scheinbar seit einem monat kein update mehr. technische probleme? traffic? fragen über fragen... komA 00:28, 4. Mär 2005 (CET)

es gibt wieder eine aktuelle version: -> http://download.wikimedia.org/archives/de/cur_table.sql.bz2 *freu*


Ich erhalte beim Dump der old-Tabelle den Fehler "The table 'old' is full" vom MySQL-Server. Hatte das schonmal jemand? Wie kann man das Problem beheben?

Warum nimmst du nicht einfach die cur-Tabelle ? Stephan Herz

Ist irgendwo eine Howto, mit der ich das ganze in Access anschauen kann? (Windows)

Ich hab kein Windows und daher auch kein Access, aber wenn du die .sql nicht direkt öffnen kannst, dann probier doch mal "was geht - ist den ODBC Treiber für MYSQL von mysql runterladen und in access die DB als ODBC DB öffnen" (ergoogelt) Stephan Herz 07:50, 15. Jan 2005 (CET)
hast du da gerade "jehova" gesagt? ;) - ne, im ernst, ich finde die idee an sich irgendwie abstossend... komA 20:38, 5. Apr 2005 (CEST)

Zu dem Kommandos: *''gzip -dc de_links_table.sql.gz | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb'''' *''gzip -dc de_brokenlinks_table.sql.gz | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb'''' Wenn der browser (z.B. Firefox) die Daten beim Runterladen von sich aus entzipt (ohne die Endung .gz zu entfernen!), reicht: *''cat de_links_table.sql.gz | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb'''' *''cat de_brokenlinks_table.sql.gz | mysql -u ''wikiadmin'' -p''adminpass'' ''wikidb'''' Probleme macht noch das php rebuildlinks.php. Da mault mein php: ""MySQL functions missing, have you compiled PHP with the --with-mysql option?", was ich eigentlich mit ja beantworten würde. Mal sehen, wo es da hakt. --Mw 23:34, 30. Aug 2004 (CEST)

Nicht gezipt? Das würde mich wundern, und ein schneller Test hat gerade das Gegenteil bewiesen ;-). Hast Du die Dateien mit Mozilla Firefox downgeloadet? Der Browser ist dafür bekannt, gzip-Dateien in vorauseilendem Gehorsam zu entpacken, ohne die Dateiendung zu ändern. --Echoray 00:10, 31. Aug 2004 (CEST)
So ist es. Der Firefox hat wohl noch einige Macken. Ich habe meinen Text oben geändert, um hier keinen Unsinn zu verbreiten- --Mw 08:54, 31. Aug 2004 (CEST)

Fehlermeldung im Zusammenhang mit Sessions[Quelltext bearbeiten]

Ich habe ein System mit Linux 9.1, Apache2, MySQL und PHP4 und eine Kopie der Wikipedia (auf MediaWiki) bei mir eingerichtet. Alles läuft, nur bekomme ich folgende Nachricht, wenn ich eine Seite bearbeiten will: Call to undefined function: session_set_cookie_params()in /srv/www/htdocs/wiki/includes/User.php on line 165 Hat jemand eine Ahnung, wo das Problem liegen könnte?

Deinem PHP fehlt die Unterstützung für "Sessions". Ich weiß nicht, ob und wie man bei "Linux 9.1" (Du meinst wahrscheinlich SuSE Linux 9.1?) diese Funktionalität nachrüsten kann. Bei anderen Distributionen wie Debian ist Session-Support serienmäßig mit dabei, bei Gentoo kann man es per Use-Schalter nachrüsten, aber SuSE habe ich nicht hier und kann nicht wirklich was dazu sagen. --Echoray 21:07, 14. Dez 2004 (CET)
Habe mit yast (ja, ich meinte Suse Personal 9.1) php-sessions installiert, nun klappt alles! Vielen Dank für die prompte Hilfe!!

Bilderdownload nicht möglich[Quelltext bearbeiten]

Es scheint neuerdings kein Archiv mehr mit den Bildern zum Download auf download.wikipedia.org/archives/de zu geben. Werden diese prinzipiell nicht mehr zur Verfügung gestellt? Ich habe noch eine alte Datei (20041106_upload.tar), weiß jedoch nicht, wie ich sie in meine bestehende lokale Wikipedia-Kopie einbinden kann. Bin für jede Hilfe dankbar! --Plek2 14:16, 15. Dez 2004 (CET)

Es kan sein, dass die Bilder irgendwann wiederkommen. Sie werden im Moment nicht zum Downlad angeboten, weil die Zusammenstellung des tar-Archivs den zuständigen Server und mit ihm den ganzen Cluster in die Knie zwang. Die Bilder aus dem Archiv müssen IMO ins Verzeichnis "images" im Wikipedia-Ordner entpackt werden. --Echoray 16:16, 15. Dez 2004 (CET)
Nun ja...sie sind zwar wiedergekommen (ausweichlink), dort stopt der download aber nach 2 GB (liegt's am Server?).
Liegt wohl eher am Client - welches Betriebssystem, welches Dateisystem? -- srb  11:48, 20. Jun 2005 (CEST)

Gibt es eine Möglichkeit, die Bilder anderweitig zu laden oder den SQL-Dump so zu verändern, dass die Bilder nicht lokal gesucht werden, sondern diese aus dem Internet kommen, sprich ein lokales Wikipedia allerdings mit Online-Bildern? MarkOH 01:02, 26. Mai 2005 (CET)

Wenn man die Bilder wenigstens als Thumbnails bekämme währe das schon schön. Dann sollten auch die Datenmengen nicht das Problem sein. (3kB x 20000 Blder=60 MB) Für mein kleines Projekt (s. Benutzer:Kolossos/Sitemap) bräuchte ich die Bilder allerdings am besten in der speziellen Größe für 3D von 64x64 Pixeln mit seitlichem Rahmen. Kolossos 13:29, 5. Jun 2005 (CEST)

Nichts passiert[Quelltext bearbeiten]

Ich habe erfolgreich xampp 1.4.10a installiert und habe und sowohl den Apachen als auch den MySQL-Dienst gestartet. Möchte ich nun MediaWiki installieren, so bekomme ich nach Klick auf den Install-Button eine leere Seite. Die Datenbank wird angelegt (unter phpMyAdmin zeigt er eine Datenbank an), jedoch scheint die Installation irgendwo abzubrechen. Aktualisiere ich die leere Seite, so bekomme ich folgende Meldung:
Updating ipblocks table... Query "ALTER TABLE ipblocks ADD ipb_auto tinyint(1) NOT NULL default '0', ADD ipb_id int(8) NOT NULL auto_increment, ADD PRIMARY KEY (ipb_id)" failed with error code "Table 'dewiki.ipblocks' doesn't exist".
Kann mir jemand helfen? Benutze XPHome mit SP2 und XAMPP 1.4.10a (habe diverse Versionen von MediWiki ausprobiert, ab 1.3 immer obiges Problem)

"Die Datenbank wird angelegt (unter phpMyAdmin zeigt er eine Datenbank an), jedoch scheint die Installation irgendwo abzubrechen." Waere schoen, wenn du hier genauere Infos geben koenntest --nemonand(nicht eingeloggt)

Benutze nun MediaWiki 1.4beta3 auf der letzten xampp-beta. Bekomme diesmal andere Fehlermeldung:

Checking environment...
PHP 4.3.10: ok
Warning: PHP's register_globals option is enabled. MediaWiki will work correctly, but this
setting increases your exposure to potential security vulnerabilities in PHP-based software
running on your server. You should disable it if you are able.
PHP server API is apache2handler; ok, using pretty URLs (index.php/Page_Title)
Have XML / Latin1-UTF-8 conversion support.
PHP is configured with no memory_limit.
Have zlib support; enabling output compression.
Turck MMCache not installed, can't use object caching functions
Found GD graphics library built-in, image thumbnailing will be enabled if you enable uploads.
Installation directory: C:\apachefriends\xampp\htdocs\mediawiki-1.4beta3
Script URI path: /mediawiki-1.4beta3
Warning: $wgProxyKey is insecure
Connected as root (automatic)
Connected to database... 4.1.8; enabling MySQL 4 enhancements
Warning: $wgProxyKey is insecure
Created database mediwiki1
Creating tables... done.
Initializing data...
Granting user permissions... Sorry! The wiki is experiencing some technical difficulties, and cannot contact the database server.

Seltsam ist auch, dass mit phpMyAdmin als Sortierung latin1_swedish_ci anzeigt (habe während der Einrichtung Deutsch-Unicode angegeben). --Plek2 19:52, 27. Dez 2004 (CET)

Das mit der schwedischen Collation ist normal bei MySQL 4.1. Man kann es umstellen, wenn einem die Sortierung von Umlauten wichtig ist. Was das eigentliche Problem betrifft: Es kann sein, dass hier eine Inkompatibilität zwischen MySQL 4.1 und dem Modul php4-mysql zu Tage tritt. Es gibt jedenfalls einen entsprechenden Bug in unserer Datenbank. Ich weiß nicht, ob es das wirklich ist. --Echoray 17:56, 28. Dez 2004 (CET)


Fehler in der Datenbank?[Quelltext bearbeiten]

MySQL Meldet mir beim Versuch die cur_table vom 9.3. 2005 einzuspielen: ERROR 1062 (23000) at line 48: Duplicate entry '0-ALDI' for key 2 - was bedeuten würde, dass es zwei Artikel mit Namen Aldi gäbe. Weis jemand etwas darüber?

--Berthold Werner 15:08, 10. Mär 2005 (CET)

Ich hab's rausgefunden: es gab zwei Redirects Aldi und ALDI jeweils auf Aldi-Gruppe. Da ich die Spalte cur-title nicht als varchar(255) binary sondern als varchar(255) angelegt habe, waren beide Zeilen für MySQL identisch. Inzwischen wurde ALDI gelöscht, so dass mein Problem beim nächsten Dump behoben ist.

--Berthold Werner 14:56, 4. Mai 2005 (CEST)Beantworten

Import der vielen cur dumps (warum drop table in jedem dumpfile)[Quelltext bearbeiten]

Hallo! Warum enthält jedes der SQL dump Scripte auf http://dumps.wikimedia.org/#wikipedia ein "drop table cur if exists"? Somit ist es doch unmöglich die vielen Dumps (aa.wikipedia, ab.wikipedia, ...) zu importieren da der cur-table ja bei jedem dump-script gelöscht wird. Für Infos wäre ich wirklich sehr sehr dankbar. --Lorr 10:57, 2. Jun 2005 (CEST)

Du möchtest die Inhalte aller Sprachen in einer Datenbank speichern? --Berthold Werner 11:19, 2. Jun 2005 (CEST)
Ja genau. Nochmal in aller Deutlichkeit: Diese aa, ab und so weiter sind Sprachcodes und keine fortlaufende Nummerierung. Dumps von zwei unterschiedlichen Sprachen in einer Datenbank würden sich beißen. --Echoray 12:24, 2. Jun 2005 (CEST)
Danke, genau dass war die falsche Annahme. Ich dachte es sind die Anfangsbuchstaben der Begriffe - aufgrund der Menge der Begriffe in einzelne dumps aufgeteilt, etwas peinlich, ahem ... --Lorr 12:28, 2. Jun 2005 (CEST)

Downloadlinks[Quelltext bearbeiten]

Auf der Downloadseite wird mittlerweile darauf hingewiesen, dass europäische User den Kennisnet-Mirror verwenden sollen - sollten wir da nicht die Links im Artikel entsprechend anpassen? Oder gibt es Gründe dagegen? -- srb  10:42, 13. Jun 2005 (CEST)

unter http://dumps.wikimedia.org/#wikipedia scheint es die cur_table.sql zu geben, allerdings aufgesplittet in 100te von dateien. -> gibt es die irgendwo als eine datei (oder <10dateien) zum download? thx Ckeen 14:17, 18. Jul 2005 (CEST)

Schau mal oben unter "Import der vielen cur dumps". Ich glaube, das hilft dir weiter! --Berthold Werner 14:54, 18. Jul 2005 (CEST)

ups ok, danke ;) Ckeen 11:26, 19. Jul 2005 (CEST)

Bilder Dumps[Quelltext bearbeiten]

Hallo zusammen

Der letzte aktuelle Bilder-Dump ist ja nun schon gut 8 Monate alt. Meine Frage - wäre es möglich, diesen wieder einmal auf den neusten Stand zu bringen?

Wäre es vieleicht eine gute Idee, wenn man oder auch frau, in Zukunft Differenz-Dumps der Bilder machen würde? Ich stelle mir das so vor, dass jeweils ausgehend des letzten kompletten Dumps ein Differenz-Dump der neuen und geänderten Bilder gemacht werden könnte. Dieser würde dann zwar jedesmal etwas wachsen, wäre aber viel kleiner und vorallem aktueller.

Wenn der Differenz-Dump langsam zu gross wird, erstellt man wieder einen vollständigen Dump und das Spiel beginnt von vorne. Ich kenne die interne Infrastruktur von Wiki nicht, gehe aber davon aus, dass sich ein solches Vorgehen per Script automatisieren liesse (wie es ja jetzt mit den Daten-Dumps auch bestens klappt).

In freudiger Erwartung und Dankbarkeit http://lexikon.webliste.ch

-- SunMan 09:37, 14. Mai 2006 (CEST)Beantworten

Es gab vor kurzem, am 23.06.06., einen aktuellen Dump der Bilder der franz. Wikipedia (vgl. hier und nachfolgende mails). Dies geschah auf Zuruf, d.h. auf Wunsch eines fr: Wikipedianers. Ich bin etwas überfragt, wann und ob es ein weiteres Update für andere Sprachen geben wird. Tatsächlich meine ich gelesen zu haben, das dies irgendwann passieren wird, rechtliche Probleme (vor allem was die en: Bilder angehnt, die anteilig unfrei sind) sind auch ein Thema. Soweit ein halb-informierter --Mdangers 11:32, 5. Jul 2006 (CEST), vielleicht weiss jemand anderes mehr.
Die Bilder sollten unbedingt genauso wie die Texte zum regelmäßigen Download angeboten werden, sonst ist es mit der freien Enzyklopädie meiner Meinung nach nicht mehr weit her. Zusätzlich sollten auch Thumbs in einer üblichen Größe angeboten werden da die GB kaum noch zu shaufeln sind. Kolossos 10:58, 12. Okt. 2006 (CEST)Beantworten
Seit 1 1/2 Jahren kein Update der Bilder mehr. Ich finde das gelinde gesagt beschissen. -- SunMan 10:01, 25. Apr. 2007 (CEST)Beantworten

Weiterleitungen[Quelltext bearbeiten]

fällt mir gerade auf: in der Redirect list fehlt E=mc² (id 351900). Wieso? Die letzte Änderung war 21. Mai 2005. Und hier steht auch "redirect".

Nachtrag: also von 45 Weiterleitungen, die mit 0 beginnen, sind in der Liste 7 drin. --androl ☖☗ 01:08, 5. Mai 2007 (CEST)Beantworten

Außerdem ist die Liste etwas fehlerhaft, was Weiterleitungen auf fremde Wikipedias angeht. Da wird dann "namespace=0" behauptet und das Präfix einfach weggelassen. Beispiel: Benutzer:Rh-Kiriki zeigt auf ja:利用者:霧木諒二, in der Liste steht aber nur 利用者:霧木諒二. --androl ☖☗ 00:42, 5. Mai 2007 (CEST)Beantworten

Die aktuelle Version hat die selben Macken. --androl ☖☗ 22:10, 13. Jun. 2007 (CEST)Beantworten

Fussballartikel mit Bildern[Quelltext bearbeiten]

Hallo, ist es auch möglich nur den Bereich Fussball zu filtern und wenn ja wie bekommt man dazu die Bilder? Ich habe es mit Export schon teilweise gemacht. Das Hauptproblem ist dabei nur die Brokenlinks in den Seiten. Ich will z.B. nicht durch 500 Seiten durchnavigieren um z.B. den link 2006 rauszunehmen. Weiß da jemand einen Tipp für mich. Also Datenbank für Fussball, Bilder dazu und das Löschen von Brokenlinks. Gruß --Stefansvw07 12:36, 11. Aug. 2007 (CEST)Beantworten

Gibt es nicht. dafür ist Wikipedia:Download auch nicht vorgesehen. --BLueFiSH  (Langeweile?) 09:39, 22. Aug. 2007 (CEST)Beantworten

Problem mit dem Apache[Quelltext bearbeiten]

Auch wenn es nicht direkt hierhingehört: ich möchte unter Debian einen neuen zeitgemäßen Apache2-SSL einrichten. Den alten Apache1 kriegt man ja im wesentlichen mit

apt-get install apache mysql-server mysql-client php4 php4-mysql phpmyadmin 

ans Laufen. Wie heissen die Pakete für Apache2? Oder ist das nicht empfehlenswert? Ich will einfach ein neues sauberes LAMP-Paket nur für SSL. Da ich schon wochenlang rumsuche, hab ich gedacht ich probiere es mal hier -- Stefan Selbach 18:36, 5. Mai 2006 (CEST)Beantworten

XML vs SQL[Quelltext bearbeiten]

Die Projecktseite eklaren die methode für die XML dump, aber die beispeile ist nur für ein SQL dump. Achtung. Rich Farmbrough 18:35, 8. Nov. 2006 (CET)Beantworten

Fehlende Artikel[Quelltext bearbeiten]

Ich habe die Offline-Version heute auf meinen Rechner gebracht, habe aber zu meinem Erstaunen festgestellt, dass hier eine ganze Reihe von Artikeln fehlt! Zwei verschiedene Dateien aus der Datenbank hab ich versucht (20061130-pages-articles und 20061130-pages-meta-current), es fehlen jeweils die selben Artikel (z.b. Belgien, Frankreich, England uvm...) Sind die Datenbanken unvollständig, oder passiert hier (komischer Weise mehrmals der selbe) Fehler auf meinem Computer? Die zugehörigen Diskussionsseiten sind seltsamer Weise vorhanden ;) tw86
oO Wenn ich auf Anmelden klicken will, verschwindet der Button witzigerweise, daher mal so reinschreib Oo

Das mit den fehlenden Artikeln habe ich auch beobachtet, ins Auge gestochen wars mir bei den Jahreszahl-Artikeln. Genauer gesagt: Die Artikel sind wohl "irgendwie" vorhanden, aber es wird kein Text dazu in der Datenbank gefunden. Ich bin nicht so weit gegangen, das Problem auf den Dump oder die Software einzugrenzen. Auf jeden Fall sind die Dumps damit für meine statistischen Auswertungen wertlos. --Echoray 21:50, 6. Dez. 2006 (CET)Beantworten

SQL-Abfrage unter DB-Schema v1.5[Quelltext bearbeiten]

Frage nach Wikipedia Diskussion:Datenbankabfragen#SQL-Abfrage unter DB-Schema v1.5 verschoben, da wohl da besser aufgehoben. --BLueFiSH  (Langeweile?) 01:35, 9. Dez. 2006 (CET)Beantworten

toter Link[Quelltext bearbeiten]

der link http://dumps.wikimedia.org/images/wikipedia/de/ funktioniert nicht!!! Jakob Zink 23:48, 27. Mai 2007 (CEST)Beantworten

Tool zur Nutzung von Wikipedia offline[Quelltext bearbeiten]

hi, ich hab (als schulprojekt) ein programm geschrieben, das wikitext verarbeiten kann (wenigstens teilweise) und ein anderes, das darauf aufbauend eine einigermaßen komfortable Nutzung von Wikipedia offline ermöglicht. Es läuft allerdings im Moment nur unter Linux. Vielleicht ist jemand an dem Programm interessiert, dann würd ich mal eine Seite dafür einrichten oder so. Möglicherweise ist auch jemand an dem Quellcode interessiert, besonders an dem, der Wikitext verarbeitet, ich habe nämlich selbst nach sowas gesucht und nichts funktionierendes gefunden (der teil ist auch plattformunabhängig). Sollte interesse an dem Programm bestehen kann man es gerne von meiner Website (WikiParser) runterladen. Auf meienr Benutzerseite sind auch noch ein paar informationen.

--cypher 13:44, 14. Jun. 2007 (CEST)Beantworten

Achtung!! HTML-Export-Seite[Quelltext bearbeiten]

Auf der Seite, die Wiki-SQL als HTML exportieren soll, steht, dass das Script aufgrund von Änderungen der WikiSoftware nicht mehr funktioniert. Link noch bestehen lassen?!? --Jonaslange 11:58, 14. Jul 2005 (CEST)

Welche Seite meinst du?

Es dürfte "http://static.wikipedia.org/downloads/2008-06/de/" gemeint sein, denn die existiert nicht ! (nicht signierter Beitrag von 46.115.39.45 (Diskussion) 19:18, 18. Dez. 2011 (CET)) Beantworten

Wikipedia als Beispiel eines großen, dynamischen Graphs mit Kontext[Quelltext bearbeiten]

Hallo zusammen,

ich bin momentan dabei eine Proseminararbeit über das Paper "On Node Classification in Dynamic Content-based Networks" zu schreiben. Der darin vorgestellte Algorithmus namens "DYCOS" versucht in einem partiell gelabelten Graphen fehlende Labels zu ergänzen. Er soll auch in dynamischen Graphen, also solchen, die sich über die Zeit verändern, funktionieren. Außerdem benutzt er textuelle Inhalte, falls möglich.

Daher dachte ich mir, wäre wikipedia gut als Beispiel geeignet, um diesen Algorithmus experimentell zu überprüfen:

  • Die Artikel sind Knoten
  • Die im Artikel enthaltenen Links auf andere Wiki-Seiten sind Kanten
  • Durch die Versionsgeschichte verändert sich der Graph
  • Die Kategorien eines Artikels sind Label
  • Wikipedia (dewiki) zählt mit über 1,000,000 Knoten bestimmt zumindest als "medium sized graph"

Nun meine Fragen:

  • Gibt es beschreibungen, wie man Wikipedia für diesen Zweck nutzen kann?
  • Welche Daten benötige ich? Hier sind einige, sehr große Dateien
    • Was bedeutet "multistream"?
    • Was ist der Unterschied zwischen "All pages with complete edit history" und "All pages with complete page edit history"?
  • Gibt es Erfahrungsberichte / Tutorials wie man Wikipedia als Graph in der Wissenschaft einsetzen kann?
  • Gibt es eventuell Beispielcode in Python, Java, C++, C (mit absteigender Präferenz in dieser Reihenfolge)?
  • Gab es nicht mal eine Wiki-Seite "Wikipedia in der Wissenschaft" oder so?
  • Gibt es eventuell auch Torrents zum Downloaden von Wiki-Dumps?
  • Gibt es Qualitätsunterschiede (welcher Art auch immer) der dewiki/enwiki Dumps?

Viele Grüße, --Martin Thoma 12:45, 8. Jan. 2014 (CET)Beantworten

Ich glaube ich habe wieder gefunden, was ich gesucht habe: Wikipedia:Wikipedistik --Martin Thoma 08:50, 13. Jan. 2014 (CET)Beantworten
Bei den beiden genannten Dumps dürfte es kein Unterschied geben, außer im Komprimierungsformat.
Wikipedia hatte am 14.01.2014 2.805.004 Artikel, davon Weiterleitungen: 1.152.758; keine Weiterleitungen: 1.652.246; Insgesamt gab es 73.124.752 "Kanten", davon zeigen aber auch welche auf noch nicht vorhandene Knoten, wäre also schon groß bei der Ermittlung oder beim Aufmalen.
Die mirrors haben teilweise auch ftp, aber torrents scheint es aktuell nicht zu geben.
Die Dumps von enwiki und dewiki sind so unterschiedlich wie die Projekte selber, neben der Sprache gibt es auch unterschiedliche Kriterien für die Aufnahme von Knoten und unterschiedliche Kulturen. Die Größenunterschiede sind natürlich auch da. Vom Aufbau sind sie aber gleich. Der Umherirrende 17:38, 24. Jan. 2014 (CET)

Fehlerhafte Links im Artikel[Quelltext bearbeiten]

Im Artikel wird mehrfach auf https://releases.wikimedia.org/dewiki/ bzw. eine Unterseite davon verwiesen. Diese Links sind jedoch nicht mehr aktuell und führen zu einer Fehlermeldung. Der korrekte Link ist mir jedoch nicht bekannt. --Slick (Diskussion) 11:07, 18. Mär. 2014 (CET)Beantworten

  1. Danke für deinen Hinweis.
  2. Auf der Seite verlinken wir auf: http://dumps.wikimedia.org/ bzw. http://dumps.wikimedia.org/backup-index.html
  3. Auf diesen URL saß in den letzten Tagen ein Weiterleitungsmechanismus, der daraus die releases.wikimedia.org gemacht hatte. Das konnte ich selbst beobachten; deine Info stimmt soweit.
  4. Jetzt gerade ist diese dusslige Weiterleitung bei den Servern nicht aktiv. Hoffentlich bleibt das so.
  5. Das tatsächlich verlinkte dumps.wikimedia.org ist schon das richtige.
Liebe Grüße --PerfektesChaos 22:58, 18. Mär. 2014 (CET)Beantworten