Robots Exclusion Standard

Da Robots-Exclusion-Standard is a Netzweakprotokoll zum Ausspean bzw. kanalisian vo Suachbots. Dea Quasi-Standard soi dafia soang, dass a Webcrawler (Robota) beim Duachsuachn vo oana Netzseitn zeascht de Datei robots.txt im Wuazlvazeichnis (Root) vo oana Domäne lesn duat. In dera Datei ko festgelgt wean, ob und wia a Webcrawler a Netzseitn duachsuacht wean deaf. Auf de Weis hod ma de Meglichkeit ausgsuachte Bereiche vo oana Netzpresenz fia bestimmte Suachmaschina spean z lossn. Des Protokoll is owa nua a Hiweis und setzt voaraus, dass da Webcrawler si dro hoit.

Da Robots-Exclusion-Standard garantiat ned de geringste Geheimhoitung. Unfreindliche Webcrawler (z. B. vo Hackern) interessiat si grod fia soichane Seitn.

Syntax[Werkeln | Am Gwëntext werkeln]

Oweisung	Bschreiwung	Beispui	Funktion
`User-agent:`	Spezifiziarung vom Webcrawler	`User-agent: Lausbua`	Guit nua fian Webcrawler, dea wo „Sidewinder“ hoasst.
		`User-agent: *`	Wildcard fian User-agent; guit fia olle Webcrawler
`Disallow:`	Auslesn ned ealaubt	`Disallow:`	Koa Ausschluss; de komplette Netzpresenz deaf duachsuacht wean.
		`Disallow: /`	De komplette Netzpresenz deaf ned duachsuacht wean.
		`Disallow: /Temp/` `Disallow: /default.html`	S Vazeichnis „Temp“ und de Datei „default.html“ deafn ned duachsuacht wean.
		`Disallow: /default`	Olle Datein und Vazeichnis, de wo mit „default“ ofonga, wean ned duachsuacht, z. B. „default.html“, „default.php“, „default-page.html“, „defaultfolder/“, usw.
`$`	Zeinend-Anka (nua Googlebot, Yahoo! Slurp, msnbot)	`Disallow: /*.pdf$`	Olle PDF-Dateien wean ignoriat
`?`	URLs mit '?' behondeln (nua Googlebot)	`Disallow: /*?`	Olle URLs de wo a '?' enthoidn wean ignoriat.
		`Allow: /*?$`	Olle URLs de wo a '?' enthoidn san ealaubt.
`Allow:`	Auslesn ealaum (nua Ask.com, Googlebot, Yahoo! Slurp, msnbot)	`Disallow: /` `Allow: /public/`	Nua s Vazeichnis „public“ deaf duachsuacht wean, da Rest ned
`Crawl-delay:`	Auslesegschwindigkeit (nua Yahoo! Slurp, msnbot)	`Crawl-delay: 120`	Nua olle 120 Sekundn deaf a neie Seite zum Auslesn aufgruafa wean
`Sitemap:`	URL vo da Sitemap (nua Googlebot, Yahoo! Slurp, msnbot, Ask.com)	`Sitemap: http://example.com/sitemap.xml`	De Sitemap nochn Sitemap-Protokoll liegt unta da ogewanan Adress.

Beispui[Werkeln | Am Gwëntext werkeln]

In dem Beispui wead oin Suachbots ealaubt olle Datein z besuacha. De Wildcard (Joker) * moant olle Suachbots und es is nix vabotn:

User-agent: *
Disallow:

Oin Suachbots is ois vabotn:

User-agent: *
Disallow: /

Olle Suachbots soin 4 Vazeichnis (Directories) ned bsuacha:

User-agent: *
Disallow: /cgi-bin/
Disallow: /images/
Disallow: /tmp/
Disallow: /private/

A bestimmta Suachbot deaf a bestimmts Vazeichnis (Directory) ned bsuacha:

User-agent: LausaBot # fiktiva Suachbot 'LausaBot' 
Disallow: /private/

Olle Suachbots deafa a bstimmte Datei ned duachsuacha:

User-agent: *
Disallow: /directory/file.html

Schau aa[Werkeln | Am Gwëntext werkeln]

Literatua[Werkeln | Am Gwëntext werkeln]

Ian Peacock: Showing Robots the Door, What is Robots Exclusion Protocol? In: Ariadne, May 1998, Issue 15, Webversion.

Im Netz[Werkeln | Am Gwëntext werkeln]

The Web Robots Pages
robots.txt – Robots kontrollieren Erläuterungen zur Datei robots.txt bei SELFHTML
Google.de: Googlebot: Der Web-Crawler von Google, Wollen Sie etwas aus Googles Index entfernen?
Google.com: Googlebot Syntax-Eaweidarungen
ACAP − Automated Content Access Protocol

Suachmaschinoptimiarung

Exklusionsstandards:	Robots Exclusion Standard · Metatags · nofollow
Marketing-Umfäid:	Internet Marketing · Content Marketing · E-Mail Marketing · Display Advertising · Web Analytics
Suachmaschin-Marketing:	Suachmaschin-Marketing · Social Media Optimization · Online Identity Management · Paid Inclusion · Pay per Click (PPC) · Google Bombe · TrustRank
Suachmaschinspam:	Spamdexing · Web Scraping · Scraper Site · Linkfarm · Free for all linking
Valinkung:	Valinkungsmethoden · Linktausch · Backlink · Diafnvalinkung
Sunstigs:	Geotargeting · Human Search Engine · Stoppweata · Giftweata · Content Farm