搜索引擎antispam系统设计指南

信息来源:  作者:张俊林  阅读次数: 次 发布时间:2008-05-15
文章摘要:搜索引擎ANTI-SPAM作为一个新型的技术领域,目前逐渐引起学术届和搜索引擎市场的逐步重视.通过大量资料分析,我认为一个好的实用ANTI-SPAM系统应该遵循以下两个设计原则:
2.1.3 SpamRank方法

SpamRank的基本思路与前面两个技术基本一致.它的基本假设是:对于非作弊网页来说,指向其的链接页面一般来说PAGERANK值是不均匀分布的,而对于作弊网页来说指向其的支持网页的PAGERANK值一般来说都是比较小的值.

1. 首先计算页面的支持页面的权重

2. 判断支持页面权重是否满足Power low 分布(这个分布是互联网的一个比较准确的估计)对于不满足该分布的页面判断为作弊网页进行惩罚,降低其PAGERANK值.

2.2 类BADRANK方法

类BADRANK方法是通用ANTI-SPAM方法的有效补充. 它的目的是发现哪些网页肯定是SPAM页面. BadRank的技术思路如下:

1. 首先维持一个SPAM网页黑名单,这个黑名单可以通过用户举报或者采取一定的技术来获得,GOOGLE提供了举报SPAM页面,所以采用BadRank的方法可能性是很高的.

2. 给定黑名单的网页非常高的BadRank值E(x);

3. 考虑其它网页的BadRank值,打分依据是如果网页含有指向黑名单的链接,那么这个网页的BadRank值会很高,依次类推来获得其它页面的BadRank值.其打分公式如下:

可以看出,其基本原理和PAGERANK是差不多的,区别在于BADRANK是倒着打分的,从已知的网页向未知的网页传播.

2. 3具体针对某种作弊方式采取的anti-spam方法

针对具体某种作弊方式的ANTI-SPAM方法可以作为辅助BADRANK构造SPAM POOL的辅助技术手段,这些技术花样繁多,基本没有一个统一的解决方案,目前常见的方法如下.

2.3.1 针对blog站点的honey pot类型的作弊

Honey pot作弊方式是作弊网页作者发布有价值信息比如介绍某项技术的技术文章,但是在发布的信息里面隐含指向作弊页面的隐藏链接,这样通过网页本身内容的价值来诱导其它网站增加指向该页面的链接从而间接增加作弊页面的排名.比如往blog站点,BBS站点,留言簿或者wiki等可以任意发言的站点增加评论.在发表的评论里面增加指向目标页面的链接,这样会间接增加目标页面的pagerank排名.根据发表评论类型可以分为以下两种:一种是直接发广告性质的与主题无关评论,这个我们经常在BBS或者留言版上看到.一种是评论与主题相关,但是在评论中隐藏无法看到的链接信息.这种情况一般比较难以发现.

利用语言模型方法判断链接所指向的页面是否作弊站点.首先通过评论的内容以及评论中链接指向页面内容构建每个评论的语言模型,然后依次和正文的语言模型进行比较,将差异比较大的看作是可能的作弊站点.

2.3.2针对内容作弊

l 比如针对标题作弊,如果发现正文内容出现标题文字比例失调,比例太高或者没有出现过,则认为可能是作弊网页.

l 而对于HTML页面的keyword内作弊词汇,很多搜索引擎采取不索引keyword域的方法.

2.3.3针对信息隐藏作弊

l 如果发现页面内部大量文本采用和背景相同的颜色设置,则判断为作弊页面.

l 对于链接跳转的页面进行惩罚,以防治通过页面自动重定向来隐藏作弊页面.

2.3.4针对多个域名DNS解析到同一IP地址.

作弊者通过建立若干不同的域名但是是同一IP地址来构建LINK FARM提高目标页面排名,并欺骗搜索引擎这些链接页面分属于不同拥有者.对于这种情况可以进行DNS解析分析, 大量不同域名映射到同一IP地址很有可能是作弊网站.

2.3.5针对机器自动生成link farm

对于机器自动生成的作弊页面进行特征分析和自动发现.比如机器生成的链接往往很长,包含很多数字和连接符号等.如果发现一个页面的大量链接有以上特征则判断为作弊页面.

2.3.6针对作弊网页的不正常数量联入链接(文章:Spam, Damn Spam, and Statistics)

发现网页的入度,根据分布规律,极少数的网页有非常大量的联入,所以这些大量联入页面如果不是知名网站则很可能是作弊网站

2.3.7针对如何识别link spam

这个识别link farm spam方法的基本观察是:很多link farm spam的页面互相通过链接紧密联系,在farm里面往往存在以下特征页面:页面同时有进入和外出链接指向link farm其它页面.所以该方法首先通过一定方法从整个文档集合中确定一些种子页面,再通过其链接特征递归的发现满足作弊链接特征的页面直到link farm无法继续扩张.此时对于这些页面进行惩罚性措施..

2.3. 8程序自动生成页面

页面内容通过随机从其它网站页面抽取拼合而成,而链接指向黄色网站.其解决办法是判别网页更新速度,这类作弊方式往往有过分快的更新速度,以此作为判别的某个根据.

2.3.9 TrackBack spam

定义:作弊者增加指向某个知名blog的trackback链接但是在页面部分没有任何标记.

解决方案:目前还没有很好的方法.

2.3.10. tag spam

在社会软件比如yahoo的myweb2.0或者flickr中流行的作弊方式,作弊方式类似于传统的KEYWORDS作弊方式,在用户定义某个条目的时候,允许自己增加若干TAG来对条目进行说明,而作弊者通过在TAG中增加很多作弊词汇来增加排名达到作弊目的.

解决方案:目前还没有很好的方法.

热点链接:  指南  设计  系统  搜索引擎  页面  作弊  方法  ANTI-SPAM  技术  
参与评论
用户名:新注册) 密码:匿名评论
说明:不能超过250字,需审核后才会发布,请自觉遵守互联网相关政策法规.