Der richtige Robots-Text für die HTML-Site erstellt Aktionsmodelle für Suchmaschinen-Bots und sagt ihnen, was sie überprüfen können. Diese Datei wird oft als Robot Exclusion Protocol bezeichnet. Das erste, wonach Bots suchen, bevor sie eine Website crawlen, ist robots.txt. Es kann auf die Sitemap verweisen oder sie anweisen, bestimmte Subdomains nicht zu überprüfen. Wenn Sie möchten, dass Suchmaschinen nach dem suchen, was am häufigsten gefunden wird, ist robots.txt nicht erforderlich. Dabei ist es sehr wichtig, dass die Datei korrekt formatiert ist und nicht die Benutzerseite mit den persönlichen Daten des Benutzers indiziert.
Roboter-Scanning-Prinzip
Wenn eine Suchmaschine auf eine Datei stößt und eine gesperrte URL sieht, wird sie nicht gecrawlt, aber sie kann sie indizieren. Denn selbst wenn die Robots den Inh alt nicht sehen dürfen, können sie sich Backlinks merken, die auf die verbotene URL verweisen. Aufgrund des gesperrten Zugriffs auf den Link erscheint die URL in Suchmaschinen, jedoch ohne Fragmente. Wenn einFür die Incoming-Marketing-Strategie wird das richtige Robots txt für Bitrix (Bitrix) benötigt, sie bieten auf Wunsch des Benutzers eine Site-Verifizierung durch Scanner.
Wenn die Datei andererseits nicht richtig formatiert ist, kann dies dazu führen, dass die Website nicht in den Suchergebnissen angezeigt und nicht gefunden wird. Suchmaschinen können diese Datei nicht umgehen. Ein Programmierer kann die robots.txt einer beliebigen Site anzeigen, indem er zu ihrer Domain geht und ihr die robots.txt folgt, zum Beispiel www.domain.com/robots.txt. Verwenden Sie ein Tool wie den Bereich SEO-Optimierung von Unamo, in dem Sie eine beliebige Domain eingeben können, und der Dienst zeigt Informationen über die Existenz der Datei an.
Einschränkungen beim Scannen:
- Benutzer hat ver altete oder vertrauliche Inh alte.
- Bilder auf der Website werden nicht in die Bildersuchergebnisse aufgenommen.
- Die Website ist noch nicht bereit für eine Demo, die vom Robot indexiert werden soll.
Denken Sie daran, dass die Informationen, die ein Benutzer von einer Suchmaschine erh alten möchte, jedem zur Verfügung stehen, der die URL eingibt. Verwenden Sie diese Textdatei nicht, um vertrauliche Daten zu verbergen. Wenn die Domain einen 404-Fehler (nicht gefunden) oder 410-Fehler (bestanden) aufweist, überprüft die Suchmaschine die Website trotz des Vorhandenseins von robots.txt und geht in diesem Fall davon aus, dass die Datei fehlt. Andere Fehler wie 500 (Internal Server Error), 403 (Forbidden), timed out oder „not available“respektieren die robots.txt-Anweisungen, jedoch kann die Umgehung verzögert werden, bis die Datei verfügbar ist.
Suchdatei erstellen
VieleCMS-Programme wie WordPress haben bereits eine robots.txt-Datei. Vor der richtigen Konfiguration von Robots txt WordPress muss sich der Benutzer mit seinen Fähigkeiten vertraut machen, um herauszufinden, wie er darauf zugreifen kann. Wenn der Programmierer die Datei selbst erstellt, muss sie folgende Bedingungen erfüllen:
- Muss in Kleinbuchstaben geschrieben werden.
- UTF-8-Kodierung verwenden.
- In einem Texteditor als Datei (.txt) speichern.
Wenn ein Nutzer nicht weiß, wo er es platzieren soll, wendet er sich an den Anbieter der Webserver-Software, um herauszufinden, wie er auf das Stammverzeichnis einer Domain zugreifen kann, oder geht zur Google-Konsole und lädt es herunter. Mit dieser Funktion kann Google auch überprüfen, ob der Bot richtig funktioniert und die Liste der Websites, die mit der Datei blockiert wurden.
Das Hauptformat des korrekten Robots txt für Bitrix (Bitrix):
- Legende robots.txt.
- , fügt Kommentare hinzu, die nur als Notizen dienen.
- Diese Kommentare werden von Scannern zusammen mit Tippfehlern des Benutzers ignoriert.
- User-Agent - gibt an, in welcher Suchmaschine die Anweisungen für die Datei aufgelistet sind.
- Das Hinzufügen eines Sternchens () teilt Scannern mit, dass die Anweisungen für alle gelten.
Bezeichnet einen bestimmten Bot, z. B. Googlebot, Baiduspider, Applebot. Disallow teilt Crawlern mit, welche Teile der Website nicht gecrawlt werden sollen. Das sieht so aus: User-Agent:. Das Sternchen bedeutet „alle Bots“. Sie können jedoch bestimmte Seiten angebenBots. Dazu müssen Sie den Namen des Bots kennen, für den Empfehlungen gesetzt werden.
Die richtige Robots-Textdatei für Yandex könnte so aussehen:
Wenn der Bot die Site nicht crawlen soll, können Sie dies angeben, und um die Namen von Benutzeragenten zu finden, wird empfohlen, sich mit den Online-Funktionen von useragentstring.com vertraut zu machen.
Seitenoptimierung
Die folgenden zwei Zeilen gelten als vollständige robots.txt-Datei, und eine einzelne robots-Datei kann mehrere Zeilen mit Benutzeragenten und Anweisungen enth alten, die das Crawlen deaktivieren oder aktivieren. Das Hauptformat des korrekten Robots txt:
- Benutzeragent: [Benutzername des Agenten].
- Disallow: .
In der Datei wird jeder Block von Direktiven einzeln dargestellt, getrennt durch eine Linie. In der Datei neben dem Benutzerverzeichnis des Agenten wird jede Regel auf einen bestimmten Satz von durch Abschnitte getrennten Zeilen angewendet. Wenn eine Datei eine Multi-Agent-Regel hat, berücksichtigt der Roboter nur die spezifischste Gruppe von Anweisungen.
Technische Syntax
Man kann es sich als die "Sprache" von robots.txt-Dateien vorstellen. Es gibt fünf Begriffe, die in diesem Format existieren können, die wichtigsten sind:
- User-Agent - Web-Crawler mit Crawl-Anweisungen, normalerweise eine Suchmaschine.
- Disallow ist ein Befehl, der verwendet wird, um dem Benutzeragenten mitzuteilen, dass er umgehen soll(Auslassung) einer bestimmten URL. Es gibt jeweils nur eine verbotene Bedingung.
- Zulassen. Dem Googlebot, der Zugriff erhält, wird sogar die Benutzerseite verweigert.
- Crawl-Verzögerung - gibt an, wie viele Sekunden der Crawler vor dem Crawlen benötigt. Wenn der Bot dies nicht bestätigt, wird die Geschwindigkeit in der Google-Konsole eingestellt.
- Sitemap - Wird verwendet, um XML-Maps zu finden, die mit einer URL verknüpft sind.
Musterübereinstimmungen
Wenn es darum geht, URLs tatsächlich zu blockieren oder gültige Robots-txt-Dateien zuzulassen, können die Vorgänge ziemlich knifflig sein, da sie es Ihnen ermöglichen, Musterabgleiche zu verwenden, um eine Reihe möglicher URL-Parameter abzudecken. Google und Bing verwenden beide zwei Zeichen, die Seiten oder Unterordner identifizieren, die der SEO ausschließen möchte. Die beiden Zeichen sind das Sternchen () und das Dollarzeichen ($), wobei:ein Platzh alter ist, der eine beliebige Folge von Zeichen darstellt. $ - entspricht dem Ende der URL.
Google bietet eine große Liste möglicher Vorlagensyntaxen, die dem Benutzer erklären, wie eine Robots-txt-Datei richtig eingerichtet wird. Einige häufige Anwendungsfälle sind:
- Verhindern, dass doppelte Inh alte in den Suchergebnissen erscheinen.
- Alle Bereiche der Website privat h alten.
- Speichere interne Seiten von Suchergebnissen basierend auf einer offenen Aussage.
- Ort angeben.
- Suchmaschinen daran hindern, bestimmte zu indizierenDateien.
- Festlegen einer Crawl-Verzögerung, um das Neuladen zu stoppen, wenn mehrere Inh altsbereiche gleichzeitig gescannt werden.
Prüfen, ob eine Roboterdatei vorhanden ist
Wenn es auf der Website keine Bereiche gibt, die gecrawlt werden müssen, wird robots.txt überhaupt nicht benötigt. Wenn der Benutzer nicht sicher ist, ob diese Datei existiert, muss er die Root-Domain eingeben und am Ende der URL eingeben, etwa so: moz.com/robots.txt. Eine Reihe von Such-Bots ignorieren diese Dateien. Allerdings gehören diese Crawler in der Regel nicht zu seriösen Suchmaschinen. Sie sind die Art von Spammern, Mail-Aggregatoren und anderen Arten von automatisierten Bots, die im Internet in Hülle und Fülle zu finden sind.
Es ist sehr wichtig, sich daran zu erinnern, dass die Verwendung des Roboterausschlussstandards keine effektive Sicherheitsmaßnahme ist. Tatsächlich können einige Bots mit Seiten beginnen, auf denen der Benutzer sie in den Scan-Modus versetzt. Es gibt mehrere Teile, die in die Standardausnahmedatei eingehen. Bevor Sie dem Roboter mitteilen, auf welchen Seiten er nicht arbeiten soll, müssen Sie angeben, mit welchem Roboter er sprechen soll. In den meisten Fällen verwendet der Benutzer eine einfache Deklaration, die "alle Bots" bedeutet.
SEO-Optimierung
Der Nutzer muss vor der Optimierung sicherstellen, dass er keine Inh alte oder Bereiche der Seite blockiert, die umgangen werden müssen. Links zu Seiten, die von der richtigen Robots-txt blockiert werden, werden nicht berücksichtigt. Das bedeutet:
- Wenn sie nicht mit anderen Seiten verknüpft sind, die für Suchmaschinen verfügbar sind, dh. Seiten,nicht durch robots.txt oder einen Meta-Robot blockiert, und zugehörige Ressourcen werden nicht gecrawlt und können daher nicht indiziert werden.
- Kein Link kann von einer blockierten Seite zum Linkziel weitergeleitet werden. Wenn es eine solche Seite gibt, ist es besser, einen anderen Blockiermechanismus als die robots.txt zu verwenden.
Da andere Seiten möglicherweise direkt auf eine Seite verlinken, die persönliche Informationen enthält, und Sie diese Seite für die Suchergebnisse sperren möchten, verwenden Sie eine andere Methode, z. B. Passwortschutz oder Noindex-Metadaten. Einige Suchmaschinen haben mehrere Benutzeragenten. Beispielsweise verwendet Google den Googlebot für die organische Suche und den Googlebot-Image für die Bildsuche.
Die meisten User-Agents derselben Suchmaschine folgen denselben Regeln, sodass es nicht erforderlich ist, Anweisungen für jeden von mehreren Crawlern anzugeben, aber wenn Sie dies tun können, kann das Crawlen von Website-Inh alten feinabgestimmt werden. Die Suchmaschine speichert den Inh alt der Datei zwischen und aktualisiert den zwischengespeicherten Inh alt normalerweise mindestens einmal am Tag. Wenn der Benutzer die Datei ändert und schneller als gewöhnlich aktualisieren möchte, kann er die robots.txt-URL an Google senden.
Suchmaschinen
Um zu verstehen, wie Robots txt richtig funktioniert, müssen Sie die Fähigkeiten von Suchmaschinen kennen. Kurz gesagt, ihre Fähigkeit liegt darin, dass sie "Scanner" senden, das sind Programme, dieDurchsuchen des Internets nach Informationen. Sie speichern dann einige dieser Informationen, um sie später an den Benutzer weiterzugeben.
Für viele Menschen ist Google bereits das Internet. Tatsächlich haben sie Recht, da dies vielleicht seine wichtigste Erfindung ist. Und obwohl sich Suchmaschinen seit ihrer Einführung stark verändert haben, sind die zugrunde liegenden Prinzipien immer noch dieselben. Crawler, auch „Bots“oder „Spider“genannt, finden Seiten von Milliarden von Websites. Suchmaschinen geben ihnen Anweisungen, wohin sie gehen sollen, während einzelne Websites auch mit Bots kommunizieren und ihnen sagen können, welche spezifischen Seiten sie sich ansehen sollten.
Im Allgemeinen möchten Websitebesitzer nicht in Suchmaschinen erscheinen: Admin-Seiten, Backend-Portale, Kategorien und Tags und andere Informationsseiten. Die robots.txt-Datei kann auch verwendet werden, um Suchmaschinen daran zu hindern, Seiten zu überprüfen. Kurz gesagt, robots.txt sagt Webcrawlern, was sie tun sollen.
Seiten sperren
Dies ist der Hauptteil der Roboterausschlussdatei. Mit einer einfachen Erklärung weist der Benutzer einen Bot oder eine Gruppe von Bots an, bestimmte Seiten nicht zu crawlen. Die Syntax ist einfach, um beispielsweise den Zugriff auf alles im „admin“-Verzeichnis der Site zu verweigern, schreiben Sie: Disallow: /admin. Diese Zeile verhindert, dass Bots yoursite.com/admin, yoursite.com/admin/login, yoursite.com/admin/files/secret.html und alles andere im Admin-Verzeichnis crawlen.
Um eine Seite zu verbieten, geben Sie sie einfach in der Disallow-Zeile an: Disallow: /public/exception.html. Jetzt die Seite "Ausnahme".wird nicht migriert, aber alles andere im "öffentlichen" Ordner wird.
Um mehrere Seiten aufzunehmen, listen Sie sie einfach auf:
Diese vier Zeilen der korrekten Robots-txt-Datei für Symphony gelten für alle Benutzeragenten, die oben im Abschnittrobots.txt für https://www.symphonyspace.org/ aufgeführt sind.
Sitemap:
Andere Befehle:live - Webcrawlern nicht erlauben, cpresources/ oder provider/ zu indizieren.
User Agent:Disallow: /cpresources/.
Verweigern: / Anbieter / Nicht zulassen: /.env.
Maßstäbe setzen
Benutzer können bestimmte Seiten für verschiedene Bots angeben, indem sie die beiden vorherigen Elemente kombinieren, so sieht es aus. Ein Beispiel für die korrekte Robots-Textdatei für alle Suchmaschinen ist unten dargestellt.
Die Bereiche „Admin“und „Privat“sind für Google und Bing unsichtbar, aber Google sieht immer noch das „geheime“Verzeichnis, während Bing dies nicht tut. Sie können allgemeine Regeln für alle Bots mit dem asterisk-Benutzeragenten festlegen und den Bots dann in den folgenden Abschnitten spezifische Anweisungen geben. Mit dem oben genannten Wissen kann der Benutzer ein Beispiel für die richtige Robots-txt für alle Suchmaschinen schreiben. Starten Sie einfach Ihren bevorzugten Texteditor und sagen Sie den Bots, dass sie in bestimmten Teilen der Website nicht willkommen sind.
Tipps zur Verbesserung der Serverleistung
SublimeText istein vielseitiger Texteditor und der Goldstandard für viele Programmierer. Seine Programmiertipps basieren zudem auf effizientem Coding. Benutzer schätzen das Vorhandensein von Verknüpfungen im Programm. Wenn der Benutzer ein Beispiel einer robots.txt-Datei sehen möchte, sollte er zu einer beliebigen Website gehen und „/robots.txt“am Ende hinzufügen. Hier ist ein Teil der robots.txt-Datei GiantBicycles.
Das Programm ermöglicht die Erstellung von Seiten, die Benutzer nicht in Suchmaschinen anzeigen möchten. Und hat auch ein paar exklusive Dinge, von denen nur wenige Leute wissen. Während beispielsweise die robots.txt-Datei Bots sagt, wohin sie nicht gehen sollen, macht die Sitemap-Datei das Gegenteil und hilft ihnen, das zu finden, wonach sie suchen, und während Suchmaschinen wahrscheinlich bereits wissen, wo sich die Sitemap befindet, bekommt sie es nicht im Weg.
Es gibt zwei Arten von Dateien: HTML-Seite oder XML-Datei. Eine HTML-Seite zeigt Besuchern alle verfügbaren Seiten einer Website. In einer eigenen robots.txt sieht das so aus: Sitemap://www.makeuseof.com/sitemap_index.xml. Wird die Seite nicht von Suchmaschinen indexiert, obwohl sie mehrfach von Web-Robotern gecrawlt wurde, müssen Sie sicherstellen, dass die Datei vorhanden ist und die Berechtigungen korrekt gesetzt sind.
Standardmäßig passiert dies bei allen SeoToaster-Installationen, aber bei Bedarf können Sie es wie folgt zurücksetzen: Datei robots.txt - 644. Je nach PHP-Server, wenn dies für den Benutzer nicht funktioniert, es wird empfohlen, Folgendes zu versuchen: Datei robots.txt - 666.
Suchlaufverzögerung einstellen
Die Bypass-Verzögerungsrichtlinie informiert sicherSuchmaschinen, wie oft sie eine Seite auf der Website indizieren können. Es wird in Sekunden gemessen, obwohl einige Suchmaschinen es etwas anders interpretieren. Einige Leute sehen Crawl-Verzögerung 5, wenn sie aufgefordert werden, nach jedem Scan fünf Sekunden zu warten, um den nächsten zu starten.
Andere interpretieren dies als Anweisung, nur alle fünf Sekunden eine Seite zu scannen. Der Roboter kann nicht schneller scannen, um Serverbandbreite zu sparen. Wenn der Server den Datenverkehr anpassen muss, kann er eine Umgehungsverzögerung festlegen. Im Allgemeinen müssen sich Benutzer in den meisten Fällen darüber keine Gedanken machen. So wird die Crawl-Verzögerung von acht Sekunden eingestellt - Crawl-delay: 8.
Aber nicht alle Suchmaschinen befolgen diese Anweisung. Wenn Sie also Seiten nicht zulassen, können Sie für bestimmte Suchmaschinen unterschiedliche Crawl-Verzögerungen festlegen. Nachdem alle Anweisungen in der Datei eingerichtet sind, können Sie sie auf die Website hochladen. Stellen Sie zunächst sicher, dass es sich um eine einfache Textdatei handelt, den Namen robots.txt hat und unter yoursite.com/robots.txt zu finden ist.
Bester WordPress-Bot
Es gibt einige Dateien und Verzeichnisse auf einer WordPress-Site, die jedes Mal gesperrt werden müssen. Die Verzeichnisse, die Benutzer nicht zulassen sollten, sind das cgi-bin-Verzeichnis und die Standard-WP-Verzeichnisse. Einige Server erlauben keinen Zugriff auf das cgi-bin-Verzeichnis, aber Benutzer müssen es in die disallow-Anweisung aufnehmen, bevor sie Robots txt WordPress richtig konfigurieren
WordPress-Standardverzeichnisse,die blockieren sollten, sind wp-admin, wp-content, wp-includes. Diese Verzeichnisse enth alten zunächst keine Daten, die für Suchmaschinen nützlich sind, aber es gibt eine Ausnahme, d.h. es gibt ein Unterverzeichnis namens uploads im wp-content-Verzeichnis. Dieses Unterverzeichnis muss in der robot.txt-Datei zugelassen werden, da es alles enthält, was mit der WP-Medien-Upload-Funktion geladen wird. WordPress verwendet Tags oder Kategorien, um Inh alte zu strukturieren.
Wenn Kategorien verwendet werden, ist es notwendig, die Tag-Archive für die Suche zu sperren, um die richtige Robots-txt für Wordpress zu erstellen, wie vom Programmhersteller angegeben. Zuerst überprüfen sie die Datenbank, indem sie zum Bereich "Verw altung"> "Einstellungen"> "Permalink" gehen.
Standardmäßig ist die Basis das Tag, wenn das Feld leer ist: Disallow: / tag /. Wenn eine Kategorie verwendet wird, müssen Sie die Kategorie in der robot.txt-Datei deaktivieren: Disallow: /category/. Standardmäßig ist die Basis das Tag, wenn das Feld leer ist: Disallow: /tag/. Wenn eine Kategorie verwendet wird, müssen Sie die Kategorie in der robot.txt-Datei deaktivieren: Disallow: / category /.
Dateien, die hauptsächlich zum Anzeigen von Inh alten verwendet werden, sie werden von der richtigen Robots-TXT-Datei für Wordpress blockiert:
Grundeinstellungen von Joomla
Sobald der Benutzer Joomla installiert hat, müssen Sie die korrekte Joomla Robots txt-Einstellung in der globalen Konfiguration anzeigen, die sich in der Systemsteuerung befindet. Einige Einstellungen hier sind sehr wichtig für SEO. Suchen Sie zuerst den Namen der Site und stellen Sie sicher, dass dies der Fall istder Kurzname der Site wird verwendet. Dann finden sie rechts auf demselben Bildschirm eine Gruppe von Einstellungen, die als SEO-Einstellungen bezeichnet werden. Was definitiv geändert werden muss, ist die zweite: Verwenden Sie eine Umschreibe-URL.
Das hört sich kompliziert an, aber es hilft Joomla grundsätzlich, sauberere URLs zu erstellen. Am auffälligsten, wenn Sie die Zeile index.php aus den URLs entfernen. Wenn Sie es später ändern, ändern sich die URLs und Google wird es nicht mögen. Wenn Sie diese Einstellung ändern, müssen jedoch mehrere Schritte gleichzeitig ausgeführt werden, um die richtige Robots-TXT für Joomla zu erstellen:
- Finde die htaccess.txt-Datei im Joomla-Stammordner.
- Markiere es als.htaccess (ohne Erweiterung).
- Site-Namen in Seitentitel einfügen.
- Finden Sie die Metadateneinstellungen am unteren Rand des globalen Konfigurationsbildschirms.
Roboter in der Cloud MODX
Zuvor bot MODX Cloud Benutzern die Möglichkeit, das Verh alten zu steuern, das die Bereitstellung der robots.txt-Datei basierend auf einem Umsch alter im Dashboard zulässt. Dies war zwar nützlich, es war jedoch möglich, die Indizierung auf Staging-/Entwicklungsseiten versehentlich zuzulassen, indem eine Option im Dashboard umgesch altet wurde. Ebenso war es einfach, die Indizierung auf der Produktionsseite zu deaktivieren.
Heute geht der Dienst davon aus, dass robots.txt-Dateien im Dateisystem vorhanden sind, mit der folgenden Ausnahme: Jede Domain, die mit modxcloud.com endet, dient als Disallow: /-Direktive für alle Benutzeragenten, unabhängig von der Präsenz oder Fehlen der Datei. Produktionsseiten, die echten Besucherverkehr erh alten, müssen ihre eigene Domain verwenden, wenn der Benutzer seine Seite indizieren möchte.
Einige Organisationen verwenden die richtige Robots-txt-Datei für modx, um mehrere Websites von einer einzigen Installation aus mithilfe von Kontexten auszuführen. Ein Fall, in dem dies angewendet werden könnte, wäre eine öffentliche Marketing-Site in Kombination mit Landing-Page-Microsites und möglicherweise einem nicht öffentlichen Intranet.
Traditionell war dies bei Mehrbenutzerinstallationen schwierig, da sie denselben Netzwerkstamm verwenden. Mit MODX Cloud ist dies einfach. Laden Sie einfach eine zusätzliche Datei mit dem folgenden Inh alt auf eine Website namens robots-intranet.example.com.txt hoch, und sie blockiert die Indizierung mit gut funktionierenden Robotern, und alle anderen Hostnamen greifen auf Standarddateien zurück, es sei denn, es gibt andere spezifische Namensknoten.
Robots.txt ist eine wichtige Datei, die dem Benutzer hilft, auf die Website bei Google, großen Suchmaschinen und anderen Websites zu verlinken. Die Datei befindet sich im Stammverzeichnis eines Webservers und weist Webroboter an, eine Website zu crawlen und festzulegen, welche Ordner sie indizieren oder nicht indizieren sollen, indem sie eine Reihe von Anweisungen verwendet, die als Bot Exclusion Protocol bezeichnet werden. Ein Beispiel für die korrekte Robots-txt für alle Suchmaschinen Die obot.txt ist mit SeoToaster besonders einfach zu erstellen. In der Systemsteuerung wurde dafür ein spezielles Menü erstellt, sodass sich der Bot nie überarbeiten muss, um Zugriff zu erh alten.