Robots Exclusion Standard

Aus Wikipedia

Da Robots-Exclusion-Standard is a Netzweakprotokoll zum Ausspean bzw. kanalisian vo Suachbots. Dea Quasi-Standard soi dafia soang, dass a Webcrawler (Robota) beim Duachsuachn vo oana Netzseitn zeascht de Datei robots.txt im Wuazlvazeichnis (Root) vo oana Domäne lesn duat. In dera Datei ko festgelgt wean, ob und wia a Webcrawler a Netzseitn duachsuacht wean deaf. Auf de Weis hod ma de Meglichkeit ausgsuachte Bereiche vo oana Netzpresenz fia bestimmte Suachmaschina spean z lossn. Des Protokoll is owa nua a Hiweis und setzt voaraus, dass da Webcrawler si dro hoit.

Da Robots-Exclusion-Standard garantiat ned de geringste Geheimhoitung. Unfreindliche Webcrawler (z. B. vo Hackern) interessiat si grod fia soichane Seitn.

Syntax[Werkeln | Am Gwëntext werkeln]

Oweisung Bschreiwung Beispui Funktion
User-agent: Spezifiziarung vom Webcrawler User-agent: Lausbua Guit nua fian Webcrawler, dea wo „Sidewinder“ hoasst.
User-agent: * Wildcard fian User-agent; guit fia olle Webcrawler
Disallow: Auslesn ned ealaubt Disallow: Koa Ausschluss; de komplette Netzpresenz deaf duachsuacht wean.
Disallow: / De komplette Netzpresenz deaf ned duachsuacht wean.
Disallow: /Temp/
Disallow: /default.html
S Vazeichnis „Temp“ und de Datei „default.html“ deafn ned duachsuacht wean.
Disallow: /default Olle Datein und Vazeichnis, de wo mit „default“ ofonga, wean ned duachsuacht, z. B. „default.html“, „default.php“, „default-page.html“, „defaultfolder/“, usw.
$ Zeinend-Anka (nua Googlebot, Yahoo! Slurp, msnbot) Disallow: /*.pdf$ Olle PDF-Dateien wean ignoriat
? URLs mit '?' behondeln (nua Googlebot) Disallow: /*? Olle URLs de wo a '?' enthoidn wean ignoriat.
Allow: /*?$ Olle URLs de wo a '?' enthoidn san ealaubt.
Allow: Auslesn ealaum (nua Ask.com, Googlebot, Yahoo! Slurp, msnbot) Disallow: /
Allow: /public/
Nua s Vazeichnis „public“ deaf duachsuacht wean, da Rest ned
Crawl-delay: Auslesegschwindigkeit (nua Yahoo! Slurp, msnbot) Crawl-delay: 120 Nua olle 120 Sekundn deaf a neie Seite zum Auslesn aufgruafa wean
Sitemap: URL vo da Sitemap (nua Googlebot, Yahoo! Slurp, msnbot, Ask.com) Sitemap: http://example.com/sitemap.xml De Sitemap nochn Sitemap-Protokoll liegt unta da ogewanan Adress.

Beispui[Werkeln | Am Gwëntext werkeln]

In dem Beispui wead oin Suachbots ealaubt olle Datein z besuacha. De Wildcard (Joker) * moant olle Suachbots und es is nix vabotn:

User-agent: *
Disallow:

Oin Suachbots is ois vabotn:

User-agent: *
Disallow: /

Olle Suachbots soin 4 Vazeichnis (Directories) ned bsuacha:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

A bestimmta Suachbot deaf a bestimmts Vazeichnis (Directory) ned bsuacha:

User-agent: LausaBot # fiktiva Suachbot 'LausaBot' 
Disallow: /private/

Olle Suachbots deafa a bstimmte Datei ned duachsuacha:

User-agent: *
Disallow: /directory/file.html

Schau aa[Werkeln | Am Gwëntext werkeln]

Literatua[Werkeln | Am Gwëntext werkeln]

  • Ian Peacock: Showing Robots the Door, What is Robots Exclusion Protocol? In: Ariadne, May 1998, Issue 15, Webversion.

Im Netz[Werkeln | Am Gwëntext werkeln]