Een robots.txt-bestand dat is opgeslagen in de hoofdmap van uw website, zal webrobots zoals zoekmachines vertellen welke mappen en bestanden ze mogen crawlen. Het is eenvoudig om een robots.txt-bestand te gebruiken, maar er zijn enkele dingen die u moet onthouden:
- Blackhat-webrobots negeren uw robots.txt-bestand. De meest voorkomende typen zijn malware-bots en robots die op zoek zijn naar e-mailadressen om te oogsten.
- Sommige nieuwe programmeurs zullen robots schrijven die het robots.txt-bestand negeren. Dit gebeurt meestal per ongeluk.
- Iedereen kan uw robots.txt-bestand zien. Ze worden altijd robots.txt genoemd en worden altijd opgeslagen in de hoofdmap van de website.
- Ten slotte, als iemand links naar een bestand of map die is uitgesloten door uw robots.txt-bestand van een pagina die niet wordt uitgesloten door hun robots.txt-bestand, de zoekmachines het toch kunnen vinden.
Gebruik robots.txt-bestanden niet om iets belangrijks te verbergen. In plaats daarvan moet u belangrijke informatie achter veilige wachtwoorden plaatsen of volledig van internet laten.
Hoe deze voorbeeldbestanden te gebruiken
Kopieer de tekst uit het voorbeeld dat het dichtst in de buurt komt van wat u wilt doen en plak het in uw robots.txt-bestand. Wijzig de namen van de robot, de directory en de bestanden zodat deze overeenkomen met de configuratie van uw voorkeur.
Twee Basic Robots.txt-bestanden
User-agent: *Disallow: / Dit bestand zegt dat elke robot ( User-agent: *) die hier toegang toe heeft, zou elke pagina op de site moeten negeren ( Disallow: /). User-agent: *Disallow: Dit bestand zegt dat elke robot ( User-agent: *) die er toegang toe heeft, mag elke pagina op de site bekijken ( Disallow:). U kunt dit ook doen door uw robots.txt-bestand leeg te laten of er helemaal geen op uw site te plaatsen. User-agent: *Disallow: / cgi-bin /Disallow: / temp / Dit bestand zegt dat elke robot ( User-agent: *) die hier toegang toe heeft, moet de mappen / cgi-bin / en / temp / negeren ( Disallow: / cgi-bin / Disallow: / temp /). User-agent: *Disallow: /jenns-stuff.htmDisallow: /private.php Dit bestand zegt dat elke robot ( User-agent: *) die hier toegang toe heeft, moet de bestanden /jenns-stuff.htm en /private.php negeren ( Disallow: /jenns-stuff.htm Disallow: /private.php). User-agent: Lycos / x.xDisallow: / Dit bestand zegt dat de Lycos-bot ( User-agent: Lycos / x.x) toegang is nergens op de site toegestaan ( User-agent: *Disallow: /User-agent: GooglebotDisallow: Dit bestand verbiedt eerst alle robots zoals we hierboven hebben gedaan en laat de Googlebot vervolgens expliciet ( User-agent: Googlebot) hebben toegang tot alles ( Hoewel het beter is om een zeer inclusieve user-agent-regel te gebruiken, zoals User-agent: *, kunt u zo specifiek zijn als u wilt. Onthoud dat robots het bestand in volgorde lezen. Dus als de eerste regels zeggen dat alle robots van alles zijn geblokkeerd, en later in het bestand staat dat alle robots toegang hebben tot alles, hebben de robots toegang tot alles. Als u niet zeker weet of u uw robots.txt-bestand correct heeft geschreven, kunt u de Webmasterhulpprogramma's van Google gebruiken om uw robots.txt-bestand te controleren of een nieuw bestand te schrijven. Bescherm specifieke mappen van robots
Bescherm specifieke pagina's van robots
Voorkomen dat een specifieke robot toegang krijgt tot uw site
Sta slechts één specifieke robottoegang toe
Combineer meerdere regels om exact de gewenste uitsluitingen te krijgen