Nginx通过UserAgent屏蔽网页爬虫

背景

有的网站不需要搜索引擎来爬取,大量的蜘蛛爬取占用了服务器资源。

修改配置

在nginx.conf中的server层加入以下内容:

#禁止Scrapy等爬虫工具的抓取
if ($http_user_agent ~* "Scrapy|Sogou web spider|Baiduspider|bingbot|Bytespider|SemrushBot|YisouSpider") {
    return 403;
}

添加后重启nginx

测试

curl的-A 可以让我们随意指定自己这次访问所宣称的自己的浏览器信息

#curl -I -A "BaiduSpider" www.test.com   (模拟浏览器头信息)

发表评论

邮箱地址不会被公开。 必填项已用*标注