搜索引擎antispam系统设计指南

信息来源:  作者:张俊林  阅读次数: 次 发布时间:2008-05-15
文章摘要:搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPAM系统应该遵循以下两个设计原则:
2.3.11 fake weblogs

定义:两种方式

方式1. steals content from other sites

作弊者建立blog,拷贝排名比较高的blog内容,这样能够尽快提高自己blog排名,然后在评论里面增加指向目标页面的链接或者做广告.

方式2. Porn sites hiding behind blogs

自动建立若干blog站点,但是用户点击会自动转向目标站点.类似于URL跳转方式.

2.4.人工举报

目前GOOGLE采用了人工举报的方法,其页面如下:

http://www.google.com/contact/spamreport.html

Type(s) of problem (check all that apply):

Hidden text or links

Misleading or repeated words

Page does not match Google"s description

Cloaked page

Deceptive redirects

Doorway pages

Duplicate site or pages

Other (specify)

可以看出,GOOGLE目前所研究的anti-spam应该集中在以上几种spam,这也从某个角度说明以上几种是最常用的spam方式.2.5 SANDBOX方法

长期以来,人们注意到一个现象,当新网站刚被 Google 收录时,在用关键词搜索时,往往会有相当好的排名。一般认为 Google给予新网站一些照顾,使它们有一个快乐辉煌的开端。然而好景不长,不久,新网站的排名就逐渐下降。很快地,竟可能在搜索时完全消失了。

人们把这个现象称之为沙箱效应,认为是具有普遍性的现象,是 Google在搜索算法里设置的一个阻尼过滤器,适用于所有的新网站。当新网站上网一段时间,不论网页评级高低内容多寡结构优劣有无链接,都会被过滤。短则九十天,多则四五个月,在搜索结果里即使还有排名,也多半放在最后。长期以来,这种现象使人大惑不解。因为绝大多数网站是没有作弊的,没有理由被处罚。另外,沙箱效应只限于Google,其它搜索引擎没有类似现象。

沙箱现象可能是 Google 和层出不穷的作弊手段斗争的一种策略。面对防不胜防的诡计,Google 将新网站屏蔽一段时间,心里有鬼的优化商无法判断是否被处罚,会修改网页。对于诚实的网站,这可能是一个好机会,去认真检查优化手段,建立健康链接,充实网页的内容。

SANDBOX:不能有效的识别哪些是作弊或者不作弊页面(其实就没有试图去识别,这不是SANDBOX的目的),但是可以通过这种行为有效的打压SEO市场.因为SEO市场是导致作弊盛行的主要因素.因为有作弊意图而且亲自去作弊的人数还是少数,绝大多数还是有意图没办法,通过SEO来进行的,通过非技术手段打压SEO信用是另外一个治理作弊问题的有效手段,

三. 实施步骤

具体实施一个实用并且好用的WEB ANTI-SPAM措施可以采取逐步实施的三步策略,通过初步实施策略构建初步实用的ANTI-SPAM系统,进一步的实施措施用来对于初步实施的系统进行进一步的完善,而第三步则是根据该研究领域的发展趋势进行深入的科研以获得比现有技术更好的ANTI-SPAM手段.

3.1初步实施措施

初步实施措施可以根据图1,首先实现以下几个部分:

1. TRUSTRANK算法(或者HILLTOP)

2. BADRANK算法

3. SANDBOX算法

4. 人工举报界面

5. 最常见的某种具体SPAM反制措施

可以看出,无论是HILLTOP或者是TrustRank抑或BADRANK,这种方法并没有利用作弊者的特征值来进行判断,而是通过通用的方法来进行处理:首先识别优良页面集合或者不良页面集合,然后通过链接分析来计算这种传播关系.这种方法因为不利用特征分析,所以具有具体方法无关性,也就是说即使公布这个方法,作弊者一般也没有办法采取反治措施.

而另外一类方法是特征相关的,比如分析某类SPAM有哪些内容特征或者页面结构特征,利用页面是否满足这些特征来进行识别,这样的方法是对于某些类型作弊有效的,不具有通用性,另外存在的问题是公布方法后可能这个算法就失效了,因为作弊者会采取另外的方法避免作弊页面出现这些特征.

两者的关系如下:特征分析的方法可以作为BADRANK的补充和初始集合的获取手段,利用这些方法找到一些作弊网页作为BADRANK的初始种子然后逐步扩大查找范围.

所以在设计搜索引擎ANTI-SPAM方法时候应该采取如下措施:

整体框架采用TRUSTRANK+BADRANK+SANDBOX

TRUSTRANK:识别哪些页面肯定不是作弊页面;

BADRANK:识别哪些页面肯定是作弊页面;

SANDBOX:不能有效的识别哪些是作弊或者不作弊页面,但是可以通过这种行为有效的打压SEO市场.

人工举报和具体ANTI-SPAM方法:帮助建立更加全面的SPAM POOL资源.

3.2.进一步实施措施

进一步的实施措施集中在如下几个方面:

1. 具体ANTI-SPAM方法全面实施,将目前常见的以及不常见的ANTI-SPAM方法逐步实施,这样BADRANK可以发挥更大的作用.

2. 通用ANTI-SPAM方法的改进.通用方法可以在以下两个方面进行改进:一个是如何判断精英页面,改进的方向是更加自动化减少手工劳动,更加精确化,避免作弊者寻找漏洞.另外一个改进方向是页面传播关系的研究,探讨更好的页面传播关系来更加有效地确定哪些是SPAM哪些不是SPAM页面.

3. SANDBOX的改进方法.目前SANDBOX由于原理泄漏,有可能SEO会想相应的策略避免惩罚,采取二次SANDBOX或者其它改进办法,核心是增加排名的不确定性,避免SEO能够给用户确定的承诺(比如半年内排到前几名),以此来打击SEO市场.

4. 在人工举报方面.改进思路是如何吸引举报者来尽可能多地进行举报,可以通过奖励措施比如如果举报有效可以部分提高举报者的网站排名等奖励措施来增加举报者的积极性.

3.3 深层研究方向

深层研究方向可以在以上介绍的5个方面全面实施,寻找更加优秀的替代算法,通过科研投入达到优秀的ANTI-SPAM效果.

从目前学术界状况来看,在未来地最近几年内,在通用ANTI-SPAM方面很难出现全新的理论框架,如果这方面有成果的话,应该是提出类似思路的方法或者对于现有方法细节的补充,今后大量的研究工作会集中在具体的ANTI-SPAM方法方面,尤其是随着新种类的SPAM方式不断出现,如何对于新类型SPAM进行发现和防治将是学术界的主流,但是这样很难从根本上解决问题。

四. 结论

搜索引擎ANTI-SPAM是目前比较迫切需要解决的问题,本文通过如何构造一个有效的ANTI-SPAM系统这一主题在设计原则,系统整体结构,每个技术的实施细节以及实施步骤等方面进行了探讨,希望能够成为有效设计优秀ANTI-SPAM系统的技术指南和路线规划说明.

 

热点链接:  指南  设计  系统  搜索引擎  页面  作弊  方法  ANTI-SPAM  技术  
共3页: 上一页 [1] [2] 3 下一页
参与评论
用户名:新注册) 密码:匿名评论
说明:不能超过250字,需审核后才会发布,请自觉遵守互联网相关政策法规.