Diskussion:Robots Exclusion Standard

Freundliche Webcrawler[Quelltext bearbeiten]

Letzter Kommentar: vor 18 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Was sind "freundliche" webcrawler?

freundliche (friendly) spider halten sich an robots.txt [1] -- Cherubino 13:59, 25. Mai 2005 (CEST)Beantworten

Meta Tag[Quelltext bearbeiten]

Letzter Kommentar: vor 8 Jahren5 Kommentare4 Personen sind an der Diskussion beteiligt

Webcrawler können auch durch HTML Meta-Tags am Indexieren einer Webseite gehindert werden.
...
<meta name="robots" content="index,follow">

Soll das heißen, dass dieser Code (im <head> plaziert) einen (freundlichen) Bot hindert, die seite zu durchsuchen? Ich denke, "index,follow" bewirkt das gegenteil, hier sollte "nofollw" hin. (Bin mir nicht sicher, hab mich mit dem Thema nicht auseinandergesetzt.) --Athalis 22:42, 21. Jan 2006 (CET)

Die Meta-Tags im Seitenquelltext dieser Seite hier lauten:. Klick im Browser auf Ansicht > Quelltext dann findest du die Zeile, denn wikipedia soll ja von den bots durchsucht werden. -- Cherubino 08:34, 22. Jan 2006 (CET)

Ich hab auf einer Homepage [2] im HTML-Code folgendes gefunden:

<meta name="robots" content="all" />

Was hat das zu bedeuten?

Weiter oben auf der selben Seite steht übrigens:

<meta name="robots" content="index,follow,noarchive" /> --MrBurns 23:57, 26. Mai 2008 (CEST)Beantworten

So etwas wie <meta name="robots" content="all" /> oder <meta name="robots" content="index,follow" /> sind Hirngespinste einzelner Webseitenbetreiber, die hoffen, so eher gecrawlt zu werden. Mit meta name="robots" kann man Webcrawler nur bitten, ihre Arbeit einzuschränken, nicht, mehr zu arbeiten. --188.107.62.28 19:50, 28. Feb. 2016 (CET)Beantworten

Das kann aber auch sinnvoll sein, damit der Autor der Webseite explizit für jede Seite festlegen kann ob sie indiziert werden soll oder nicht. Bei fehlender Angabe könnte jemand annehmen, dass die Angabe einfach vergessen wurde und somit der Wille des Erstellers unklar wäre. -- Gerd Fahrenhorst (Diskussion) 20:06, 28. Feb. 2016 (CET)Beantworten

Dann kann man auch <meta name="robots" content="bitteIndexiereMich" /> schreiben ;-) Eine Übersicht, was sinnvoll ist, findet man hier: https://support.google.com/webmasters/answer/79812?hl=de --88.68.25.182 21:31, 29. Feb. 2016 (CET)Beantworten

Im Prinzip schon, allerdings ist das Wort "ALL" standardisiert: HTML 4.1. -- Gerd Fahrenhorst (Diskussion) 19:12, 3. Mär. 2016 (CET)Beantworten

Wer hat den Standard verfasst bzw. wer maintained ihn ?[Quelltext bearbeiten]

Welches Gremium bzw. internationale Organisation ist dafür verantwortlich ?--134.155.27.210 23:23, 16. Jun 2005 (CEST)

Laut [3] war es ein unabhängiger Zusammenschluss von Robot-Entwicklern. Das Protokoll ist aus der Not heraus entstanden, weil es nichts Vergleichbares gab, und wurde schnell als De-Facto-Standard anerkannt. --TM 20:51, 22. Jan 2006 (CET)

Sitemaps?[Quelltext bearbeiten]

Letzter Kommentar: vor 17 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Gemäss heise online wurde der robots.txt-standard angepasst für sitemaps

[4] [5]

--152.96.242.6 08:31, 16. Apr. 2007 (CEST)Beantworten

Änderungen im Nachhinein?[Quelltext bearbeiten]

Letzter Kommentar: vor 16 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Auf meiner Domain habe ich einige Projekte die in Suchmaschinen aufscheinen. Inzwischen habe ich eine robots.txt geschrieben die alle Verzeichnisse ausschließt wo Daten liegen, die nicht in Suchmaschinen aufscheinen sollen. Werden diese Änderungen im Nachhinein noch wirksam? (Der vorstehende, nicht signierte Beitrag stammt von 85.126.122.243 (Diskussion • Beiträge) 21:28, 25. Jun. 2007)

Ja, natürlich. Das kann allerdings eine Weile dauern – abhängig von der Suchmaschine sogar einige Monate. Bei Google hast du zusätzlich die Möglichkeit, über die Webmaster Tools die Entfernung bestimmter Seiten ausdrücklich zu beantragen. --TM 09:36, 26. Jun. 2007 (CEST)Beantworten

Leerzeilen erlaubt?[Quelltext bearbeiten]

Letzter Kommentar: vor 14 Jahren4 Kommentare3 Personen sind an der Diskussion beteiligt

"Leerzeilen sind nur oberhalb von User-agent-Zeilen erlaubt." - Stimmt das so? Vgl. ganz ganz viele Leerzeilen in der robots.txt der Wikipedia --Oliver 11:33, 22. Sep. 2007 (CEST)Beantworten

In der Dokumentation steht ausdrücklich, dass Leerzeilen für die Trennung der Records bestimmt sind (also immer oberhalb der User-agent-Zeile) und innerhalb der Records verboten sind. Aber man kann wohl davon ausgehen, dass die meisten Suchmaschinenroboter mit zusätzlichen Leerzeilen kein Problem haben. --TM 19:13, 22. Sep. 2007 (CEST)Beantworten

--Jabiko 01:13, 7. Feb. 2010 (CET)== Wikipedia's robots.txt ==Beantworten

Ich bin dem Link gefolgt und habe u.a. folgende Zeilen gefunden:

# Don't allow the wayback-maschine to index user-pages

#User-agent: ia_archiver

#Disallow: /wiki/User

#Disallow: /wiki/Benutzer

Müssste man die Rauten ab der zweiten Zeile nicht entfernen?

Anscheinend wurde der Abschnitt für den ia_archiver auskommentiert --Jabiko 01:13, 7. Feb. 2010 (CET)Beantworten

Momentan ist die robots.txt wieder defekt: Disallow: /wiki/Wikiquote_talk:Votes_for_deletion_archive/ Disallow: /wiki/Wikiquote_talk%3AVotes_for_deletion_archive/ # enwikibooks Disallow: /wiki/Wikibooks:Votes_for_deletion

Inkorrekt?[Quelltext bearbeiten]

 Webcrawler lesen die Datei von oben nach unten und halten an, wenn sich eine Angabe auf sie bezieht.
 Ein Webcrawler würde also bei dem Eintrag User-agent: *, der alle Webcrawler anspricht, stoppen,
 ohne bis zu dem Eintrag weiterzugehen, der extra für ihn angelegt wurde.

Das scheint nicht zu stimmen. Z.B. ist auf der Original-Dokumentation ein Beispiel, wo zuerst * und dann ein spezifischer Robot kommt: http://www.robotstxt.org/orig.html

Hinweis[Quelltext bearbeiten]

Ich finde im Text sollte auch darauf hingewiesen werden, dass gerade durch den Einsatz der robots.txt jeder Besucher weiß, was er sich eigentlich nicht anschauen soll. Beispiel: Weißes Haus. So weiß jeder wo beispielswiese die Holidayfotos von 2007 liegen...obwohl man das ohne die robots.txt vielelicht nie so recht gefunden hätte.

Yahoo Slurp, crawl-delay[Quelltext bearbeiten]

Letzter Kommentar: vor 13 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

Gemäß Yahoo Help ist der maximale Wert für crawl-delay = 10, im Text ist von 120 (Sekunden) die Rede. Yahoo selbst gibt aber keinerlei Einheit für seinen Delay-Wert an. Kann das bitte jemand präzisieren? --Webschmied 17:48, 16. Jan. 2011 (CET)Beantworten

Besuch vs. Indexierung[Quelltext bearbeiten]

Letzter Kommentar: vor 9 Jahren1 Kommentar1 Person ist an der Diskussion beteiligt

„In dieser Datei kann festgelegt werden, ob und wie die Webseite von einem Webcrawler besucht werden darf.“

Geht es wirklich darum, ob die Seite besucht werden darf oder doch eher darum, ob sie indexiert werden soll? --Seth Cohen 19:53, 20. Nov. 2014 (CET)Beantworten

Diskussion:Robots Exclusion Standard

Inhaltsverzeichnis

Freundliche Webcrawler[Quelltext bearbeiten]

Meta Tag[Quelltext bearbeiten]

Wer hat den Standard verfasst bzw. wer maintained ihn ?[Quelltext bearbeiten]

Sitemaps?[Quelltext bearbeiten]

Änderungen im Nachhinein?[Quelltext bearbeiten]

Leerzeilen erlaubt?[Quelltext bearbeiten]

Inkorrekt?[Quelltext bearbeiten]

Hinweis[Quelltext bearbeiten]

Yahoo Slurp, crawl-delay[Quelltext bearbeiten]

Besuch vs. Indexierung[Quelltext bearbeiten]

Navigationsmenü

Diskussion:Robots Exclusion Standard

Freundliche Webcrawler[Quelltext bearbeiten]

Meta Tag[Quelltext bearbeiten]

Wer hat den Standard verfasst bzw. wer maintained ihn ?[Quelltext bearbeiten]

Sitemaps?[Quelltext bearbeiten]

Änderungen im Nachhinein?[Quelltext bearbeiten]

Leerzeilen erlaubt?[Quelltext bearbeiten]

Inkorrekt?[Quelltext bearbeiten]

Hinweis[Quelltext bearbeiten]

Yahoo Slurp, crawl-delay[Quelltext bearbeiten]

Besuch vs. Indexierung[Quelltext bearbeiten]

Navigationsmenü

Suche