我们经常碰到这样的情况,浏览Google和Yahoo!新闻时会被引入另一个网站,要求注册才能浏览内容。而通常的情况是,只要从Google新闻里点入,无需登录或注册就能立即浏览到全部内容。但如果返回到Google新闻页面,想再进入新闻页面,就会出现访问上的限制。
这是如何做到的?作为发布商,怎样才能让Google索引新闻内容,而用户必须注册才能浏览内容?
这是出现在Google Groups论坛上的问题帖,Google新闻指南做了回答,表示可以做到。
其实内容订阅网站的收录量并不比一般网站少,只不过订阅网站比其他网站需要一些额外照顾。Google的帮助文档里为发布商提供了两类方案。
怎样让Google新闻登录,然后索引页面?Google的回答或多或少有cloak技术的成分,即让引擎和用户浏览不同内容。
摘自Google帮助文档:
最简单的方法是通过对Web服务器的配置避免爬行器(用户代理为“User-Agent”)获取注册页面。Google机器人发送请求的IP段范围是66.249.64.0/20,可通过这一点确认爬行器。同时,要确保robots.txt文件允许Google机器人访问站点。
其他的方案包括(摘自Google帮助文档):
首次点击无限制(First Click Free):Google已经和其他类型的新闻订阅服务商合作,同意Google新闻用户(可根据反向链接网站确认)可无任何限制浏览第一篇文章。虽然第一篇文章可以浏览,但页面其他相关链接不可点入。也就是说,如果用户点击其他链接,会出现登录提示。Google推荐新闻网站采用这种方案,因为这对网站本身和Google用户都有利。
“订阅”标注(Subscription esignation):如果上述方案无法实现,Google会在发布商名称旁放置“订阅”标签,引导用户浏览订阅和登记表,提示用户要浏览相关文章,须首先注册或订阅。
如果采用首次点击无限制方案,Google新闻指南里有具体做法。
“首次点击无限制的原理是允许来自Google域和子域的反向引用(referral)跳过订阅页面。URL格式繁多,须包括所有满足*.google.* 的顶级域名。”

