在 robots.txt 文件里匹配 Mobile 蜘蛛的方法

根据用户端 User-agent 信息识别 Mobile 蜘蛛，并在 robots.txt 文件里指定显示不同的页面。

缘由

在手机上用百度搜索（有时Google打不开）时，会发现有些搜索结果旁边有个手机符号。若有手机页面，权重加一点。另外以前曾经有一段时间，百度会把网页内容强加在他们的框内以适合手机屏幕，导致不能正常浏览网页。

识别 User-agent，当Googlebot-Mobile 或 Baiduspider-mobile 来时输出对应的界面。

若手机页面有单独的网址，则可在robots.txt 里添加：

User-agent: Googlebot-Mobile
Allow: /wap/

User-agent: Baiduspider-mobile
Allow: /wap/

若网址相同，在程序端识别 Mobile ua，输出对应的手机页面。

本文网址: https://pylist.com/topic/26.html 转摘请注明来源

一般搜索引擎去爬取一个网站时，首先是去读取网站的robots.txt 文件，看看网站管理员有没有在该文件设置禁止某些蜘蛛，或禁止访问哪些路径。然而一些流氓蜘蛛不会顾及robots.txt 文件，想爬哪就爬哪。这种情况管理员只能通过应用程序去识别判断，是否限制某些访问。...