近日,继淘宝宣称完全屏蔽百度以后,搜狐博客、51.com、校内网、海内网等SNS网站也表示屏蔽了百度。
比特网引用一位SNS网站人士的话称,时下比较活跃的SNS网站也都在屏蔽或即将屏蔽搜索引擎的抓取。因为SNS是以实名制为基础的,如果用户信息被搜索引擎抓到,是对用户隐私的严重侵犯。虽然一些记录个人隐私的网站也设置了“警告搜索引擎不得进入”的密码,但是一些搜索引擎公司并不会遵循这些标准,所以他们不得不屏蔽那些搜索引擎。
例如,搜索引擎需要遵守robots.txt协议,robots.txt文件是一种存放于网站根目录下的文本文件,它通常告诉网络搜索引擎的漫游器此网站中的哪些内容是可以被漫游器获取的,哪些是不可以的。由于很多网站对用户资料缺乏足够的重视,对robots.txt文件的内容也缺乏相应的认识,造成中国的搜索引擎对robots.txt文件的忽视。目前校内网的robots.txt文件不允许百度对其网页进行抓取,但是其它很多网站都未针对搜索引擎设置相应的保护措施。
在国外,交友网站Facebook开创了“拒绝搜索引擎”的成功模式。Facebook首页几乎是空白页,所有内容都需要登录访问,因此几乎不能被搜索引擎的“爬虫”抓取,不能依靠搜索引擎的流量。
一些SNS网站的管理人员表示,他们建立了一个非正式的屏蔽不良搜索联盟,这一结构将有可能取代现有的搜索引擎。
显示更多