从UserAgent识别搜索引擎并判断真假蜘蛛

一般搜索引擎去爬取一个网站时,首先是去读取网站的robots.txt 文件,看看网站管理员有没有在该文件设置禁止某些蜘蛛,或禁止访问哪些路径。然而一些流氓蜘蛛不会顾及robots.txt 文件,想爬哪就爬哪。这种情况管理员只能通过应用程序去识别判断,是否限制某些访问。 …

Read more

利用 API 自动向搜索引擎提交网址

前面已经介绍了向各大搜索引擎提交的经验,这次试着用 Go 语言去实践一下。也作个简单实践对比。拿 Google、Bing、Baidu 三大搜索引擎来比较,论简便性,`B` 字头的两个最简便,但从效果看,Google 最好。 …

Read more

向各搜索引擎主动提交网址的经验

当网站添加了新内容后,都想第一时间让搜索引擎知道并且来抓取,省得“原创”都给了采集站。当采取主动提交时,Google 响应很快,60秒左右收录!百度响应也不赖。 …

Read more