wake-up-neo.net

Blockieren Sie den Yandex-Crawler

Unsere Seite hat sich in den letzten Tagen sehr seltsam verhalten, es gab viele Auszeiten usw. Zum Schluss denke ich, ich habe die Ursache gefunden, der Yandex-Bot crawlt ungefähr 10.000 Seiten pro Stunde! Ich muss es so schnell wie möglich stoppen. Ich denke, das schafft ungefähr 50-100 GB Bandbreite pro Tag.

Gesperrte IPs (über https://myip.ms/info/bots/Google_Bing_Yahoo_Facebook_etc_Bot_IP_Addresses.html ):

100.43.90.0/24, 37.9.115.0/24, 37.140.165.0/24, 77.88.22.0/25, 77.88.29.0/24, 77.88.31.0/24, 77.88.59.0/24, 84.201.146.0/24, 84.201. 148.0/24, 84.201.149.0/24, 87.250.243.0/24, 87.250.253.0/24, 93.158.147.0/24, 93.158.148.0/24, 93.158.151.0/24, 93.158.153.0/32, 95.108.128.0/ 24, 95.108.138.0/24, 95.108.150.0/23, 95.108.158.0/24, 95.108.156.0/24, 95.108.188.128/25, 95.108.234.0/24, 95.108.248.0/24, 100.43.80.0/24, 130.193.62.0/24, 141.8.153.0/24, 178.154.165.0/24, 178.154.166.128/25, 178.154.173.29, 178.154.200.158, 178.154.202.0/24, 178.154.205.0/24, 178.154.239.0/24, 178.154.243.0/24, 37.9.84.253, 199.21.99.99, 178.154.162.29, 178.154.203.251, 178.154.211.250, 95.108.246.252, 5.45.254.0/24, 5.255.253.0/24, 37.140.141.0/24, 37.140. 188.0/24, 100.43.81.0/24, 100.43.85.0/24, 100.43.91.0/24, 199.21.99.0/24

Meine robots.txt:

User-agent: Yandex
Disallow: /

User-agent: *
Disallow: ... etc

Aber es kriecht offenbar immer noch, wie Cloudflare berichtet.

Was kann ich noch tun, um es zu stoppen?

5
Tom Gullen

Direkt von der Yandex-Website

User-Agent Mozilla/5.0 (compatible; Yandex...) string identifies Yandex robots. Robots
can send GET (for example, YandexBot/3.0) and HEAD (YandexWebmaster/2.0) requests to a
server. A reverse DNS lookup can be used to check the authenticity of Yandex robots. More
information can be found in the How to check that a robot belongs to Yandex section of
the Webmaster help.

If you have any questions about our robots, please contact our support service:
[email protected] If you are experiencing technical issues with our robots
we recommend attaching your server log. 

Sie können ihrem Team eine E-Mail senden und anfordern, dass sie Ihren Server nicht crawlen oder den richtigen Benutzeragenten blockieren. Wenn Ihr Server überlastet ist und die Roboterdownload-Anforderungen nicht erfüllen kann, sollten Sie die Crawl-delay-Direktive verwenden. Hier können Sie die Mindestzeit (in Sekunden) zwischen dem Herunterladen einer Seite und dem Starten der nächsten Seite durch den Suchroboter angeben.

Beispiele:

User-agent: Yandex
Crawl-delay: 2 # specifies a 2 second timeout

und

User-agent: *
Disallow: /search
Crawl-delay: 4.5 # specifies a 4.5 second timeout
2
Kaboom