So blockieren Sie die Indexierung einer Website in robots.txt: Anleitungen und Empfehlungen

Inhaltsverzeichnis:

So blockieren Sie die Indexierung einer Website in robots.txt: Anleitungen und Empfehlungen
So blockieren Sie die Indexierung einer Website in robots.txt: Anleitungen und Empfehlungen
Anonim

Die Arbeit eines SEO-Optimierers ist sehr umfangreich. Anfängern wird empfohlen, den Optimierungsalgorithmus aufzuschreiben, um keine Schritte zu verpassen. Andernfalls wird die Aktion kaum als erfolgreich bezeichnet, da die Website ständig Ausfälle und Fehler aufweist, die für lange Zeit behoben werden müssen.

Einer der Optimierungsschritte ist die Arbeit mit der robots.txt-Datei. Jede Ressource sollte dieses Dokument haben, da es ohne es schwieriger wird, mit der Optimierung fertig zu werden. Es führt viele Funktionen aus, die Sie verstehen müssen.

Roboterassistent

Die robots.txt-Datei ist ein reines Textdokument, das im Standard-Editor des Systems angezeigt werden kann. Beim Erstellen müssen Sie die Codierung auf UTF-8 einstellen, damit sie korrekt gelesen werden kann. Die Datei funktioniert mit den Protokollen http, https und FTP.

Dieses Dokument ist ein Assistent für Suchroboter. Falls Sie es nicht wissen, jedes System verwendet "Spinnen", die das World Wide Web schnell durchsuchen, um relevante Websites für Abfragen zurückzugeben. Benutzer. Diese Roboter müssen Zugriff auf die Ressourcendaten haben, dafür funktioniert die robots.txt.

Damit die Spinnen ihren Weg finden, müssen Sie das robots.txt-Dokument an das Stammverzeichnis senden. Um zu überprüfen, ob die Website über diese Datei verfügt, geben Sie „https://site.com.ua/robots.txt“in die Adressleiste des Browsers ein. Anstelle von "site.com.ua" müssen Sie die gewünschte Ressource eingeben.

Arbeiten mit robots.txt
Arbeiten mit robots.txt

Dokumentfunktionen

Die robots.txt-Datei stellt Crawlern verschiedene Arten von Informationen zur Verfügung. Es kann teilweisen Zugriff gewähren, sodass der „Spider“bestimmte Elemente der Ressource scannt. Mit Vollzugriff können Sie alle verfügbaren Seiten überprüfen. Ein vollständiges Verbot verhindert, dass Roboter überhaupt mit der Überprüfung beginnen, und sie verlassen die Website.

Nach dem Besuch der Ressource erh alten "Spinnen" eine entsprechende Antwort auf die Anfrage. Es kann mehrere davon geben, alles hängt von den Informationen in robots.txt ab. Wenn der Scan beispielsweise erfolgreich war, erhält der Roboter den Code 2xx.

Vielleicht wurde die Website von einer Seite auf eine andere umgeleitet. In diesem Fall erhält der Roboter den Code 3xx. Wenn dieser Code mehrmals vorkommt, folgt die Spinne ihm, bis sie eine weitere Antwort erhält. Obwohl er in der Regel nur 5 Versuche verwendet. Andernfalls erscheint der beliebte 404-Fehler.

Wenn die Antwort 4xx ist, darf der Roboter den gesamten Inh alt der Website durchsuchen. Beim 5xx-Code kann es aber vorkommen, dass die Prüfung komplett stoppt, da dies oft auf temporäre Serverfehler hinweist.

Suchroboter
Suchroboter

WofürBenötigen Sie robots.txt?

Wie Sie vielleicht erraten haben, ist diese Datei der Wegweiser für die Roboter zum Stammverzeichnis der Website. Jetzt wird es verwendet, um den Zugriff auf unangemessene Inh alte teilweise einzuschränken:

  • Seiten mit persönlichen Informationen von Benutzern;
  • Spiegelseiten;
  • Suchergebnisse;
  • Datenübermittlungsformulare usw.

Wenn es keine robots.txt-Datei im Stammverzeichnis der Website gibt, wird der Roboter absolut alle Inh alte durchsuchen. Dementsprechend können unerwünschte Daten in den Suchergebnissen erscheinen, was bedeutet, dass sowohl Sie als auch die Website darunter leiden. Wenn es spezielle Anweisungen im robots.txt-Dokument gibt, wird die „Spinne“ihnen folgen und die vom Besitzer der Ressource gewünschten Informationen herausgeben.

Mit einer Datei arbeiten

Um robots.txt zu verwenden, um die Indexierung der Website zu blockieren, müssen Sie herausfinden, wie Sie diese Datei erstellen. Befolgen Sie dazu die Anweisungen:

  1. Erstellen Sie ein Dokument in Notepad oder Notepad++.
  2. Stellen Sie die Dateierweiterung ".txt" ein.
  3. Geben Sie die erforderlichen Daten und Befehle ein.
  4. Speichern Sie das Dokument und laden Sie es in das Stammverzeichnis der Website hoch.

Wie Sie sehen können, ist es in einer der Phasen notwendig, Befehle für Roboter zu setzen. Es gibt zwei Arten: Zulassen (Allow) und Verbieten (Disallow). Außerdem können einige Optimierer die Crawling-Geschwindigkeit, den Host und den Link zur Seitenzuordnung der Ressource angeben.

So schließen Sie eine Website von der Indizierung
So schließen Sie eine Website von der Indizierung

Um mit der robots.txt zu arbeiten und die Indexierung der Website vollständig zu blockieren, müssen Sie auch die verwendeten Symbole verstehen. Zum Beispiel in einem DokumentVerwenden Sie "/", was anzeigt, dass die gesamte Site ausgewählt ist. Wenn "" verwendet wird, ist eine Zeichenfolge erforderlich. Auf diese Weise ist es möglich, einen bestimmten Ordner anzugeben, der entweder gescannt werden kann oder nicht.

Feature von Bots

"Spider" für Suchmaschinen sind anders, wenn Sie also für mehrere Suchmaschinen gleichzeitig arbeiten, müssen Sie diesen Moment berücksichtigen. Ihre Namen sind unterschiedlich, was bedeutet, dass Sie, wenn Sie einen bestimmten Roboter kontaktieren möchten, seinen Namen angeben müssen: „User Agent: Yandex“(ohne Anführungszeichen).

Wenn Sie Direktiven für alle Suchmaschinen setzen wollen, müssen Sie den Befehl: "User Agent: " (ohne Anführungszeichen) verwenden. Um die Indexierung der Website mithilfe von robots.txt ordnungsgemäß zu blockieren, müssen Sie die Besonderheiten beliebter Suchmaschinen kennen.

Tatsache ist, dass die beliebtesten Suchmaschinen Yandex und Google mehrere Bots haben. Jeder von ihnen hat seine eigenen Aufgaben. Zum Beispiel sind Yandex Bot und Googlebot die wichtigsten „Spinnen“, die die Website crawlen. Wenn Sie alle Bots kennen, ist es einfacher, die Indizierung Ihrer Ressource zu optimieren.

Funktionsweise der robots.txt-Datei
Funktionsweise der robots.txt-Datei

Beispiele

So können Sie mit Hilfe von robots.txt die Indexierung der Website mit einfachen Befehlen beenden. Die Hauptsache ist, zu verstehen, was Sie speziell benötigen. Wenn Sie beispielsweise möchten, dass sich der Googlebot Ihrer Ressource nicht nähert, müssen Sie ihm den entsprechenden Befehl geben. Es sieht so aus: "User-agent: Googlebot Disallow: /" (ohne Anführungszeichen).

Jetzt müssen wir verstehen, was in diesem Befehl steht und wie er funktioniert. Also "User-Agent"wird verwendet, um einen der Bots direkt anzurufen. Als nächstes geben wir an, zu welchem, in unserem Fall ist es Google. Der „Disallow“-Befehl muss in einer neuen Zeile beginnen und dem Roboter verbieten, die Site zu betreten. Das Schrägstrich-Symbol zeigt in diesem Fall an, dass alle Seiten der Ressource für die Befehlsausführung ausgewählt sind.

Wozu dient robots.txt?
Wozu dient robots.txt?

In der robots.txt können Sie die Indizierung für alle Suchmaschinen mit einem einfachen Befehl deaktivieren: "User-agent:Disallow: /" (ohne Anführungszeichen). Das Sternchen kennzeichnet in diesem Fall alle Suchroboter. Typischerweise wird ein solcher Befehl benötigt, um die Indizierung der Site zu unterbrechen und grundlegende Arbeiten daran zu starten, die sonst die Optimierung beeinträchtigen könnten.

Wenn die Ressource groß ist und viele Seiten hat, enthält sie oft urheberrechtlich geschützte Informationen, deren Offenlegung entweder unerwünscht ist oder die Werbung negativ beeinflussen kann. In diesem Fall müssen Sie verstehen, wie Sie die Seite von der Indexierung in robots.txt schließen.

Sie können entweder einen Ordner oder eine Datei ausblenden. Im ersten Fall müssen Sie von vorne beginnen, indem Sie einen bestimmten Bot oder alle kontaktieren, also verwenden wir den Befehl „User-agent“, und unten geben wir den Befehl „Disallow“für einen bestimmten Ordner an. Es sieht so aus: "Disallow: / folder /" (ohne Anführungszeichen). Auf diese Weise verstecken Sie den gesamten Ordner. Wenn es eine wichtige Datei enthält, die Sie anzeigen möchten, müssen Sie den folgenden Befehl schreiben: „Allow: /folder/file.php“(ohne Anführungszeichen).

Datei prüfen

Bei Verwendung von robots.txt zum Schließen der WebsiteDie Indizierung war erfolgreich, aber Sie wissen nicht, ob alle Ihre Anweisungen korrekt funktioniert haben. Sie können die Korrektheit der Arbeit überprüfen.

Zunächst müssen Sie noch einmal die Platzierung des Dokuments überprüfen. Denken Sie daran, dass es sich ausschließlich im Stammordner befinden muss. Wenn es sich im Stammordner befindet, funktioniert es nicht. Als nächstes öffnen Sie den Browser und geben dort folgende Adresse ein: „https://ihreseite. com/robots.txt“(ohne Anführungszeichen). Wenn Sie eine Fehlermeldung in Ihrem Webbrowser erh alten, befindet sich die Datei nicht dort, wo sie sein sollte.

So schließen Sie einen Ordner aus der Indizierung
So schließen Sie einen Ordner aus der Indizierung

Richtlinien können in speziellen Tools überprüft werden, die von fast allen Webmastern verwendet werden. Wir sprechen von Google- und Yandex-Produkten. Beispielsweise gibt es in der Google Search Console eine Symbolleiste, in der Sie „Crawl“öffnen und dann das „Robots.txt File Inspection Tool“ausführen müssen. Sie müssen alle Daten aus dem Dokument in das Fenster kopieren und mit dem Scannen beginnen. Genau die gleiche Prüfung kann in Yandex. Webmaster durchgeführt werden.

Empfohlen: