百度搜索引擎检测网站heilian垃圾链接的算法

heilian又称暗链、隐藏链接,是heimao手法中相当普遍的一种手段,是指用非正常手段获取的其他网页的反向链接,最常见的heilian就是通过各种网页程序漏洞获取搜索引擎权重或网页级别(PR)较高的网页的管理权限代码(Webshell),进而在被黑网页上链接自己的网页。该手段是搜索引擎中进行作弊最有效最迅速的方法之一,在暴利行业使用尤多,例如游戏、waigua、彩铃等业务的行业。现有的heilian检测方法主要包括以下几种:

首先,网站管理员通过经常查看网页的源代码来检查网页是否挂在黑联上。其次,检查网页中的链接是否可访问。如果有未知链接,怀疑是链接到黑联,删除未知链接。第三,通过FTP工具检查网页文件的修改时间。如果有一个文件的修改时间和大部分文件不一样,文件源代码可能会被修改,黑连会死。上述黑联检测方法需要大量人工操作,浪费了人力资源,对网站管理者的黑联知识提出了更高的要求,无法实现黑联的自动检测;另一方面,也很难及时有效地找出黑联的新作弊方式。

百度搜索引擎提供了检测黑链的算法处理装置,实现黑链的自动检测。具体技术方案如下:

S 1。提取待检测网页的超链接,对获得的超链接逐一进行黑联检测处理。黑联检测流程包括:a1。判断超链接的视觉特征参数是否满足预设的隐形特征要求,如果满足,则确定超链接为黑连。在百度黑联检测算法的测试案例中,在黑联检测流程的步骤A1,如果判断结果为否定,则进一步执行步骤A2;A2。判断该超链接在外链被引用的次数是否超过预设的次数阈值,如果是,则判断该超链接为黑联。

在百度黑联检测算法的测试案例中,如果A2的判断结果为否定,则将超链接添加到白名单数据库中,结束超链接的黑联检测过程。在百度黑联检测算法的测试案例中,在步骤Sl之前,还包括:那么,将待检测网页的URL与现有白名单数据库进行匹配,如果匹配,则确定待检测网页中没有黑联,结束该过程;否则,继续执行该步骤。在Slo百度黑联检测算法的测试案例中,确定超链接为黑联还包括:获取超链接的网页内容特征;将获取的内容特征与挖掘出的恶意特征数据库进行匹配,如果匹配,则确定超链接为黑连。

在百度黑联检测算法的测试案例中,恶意特征数据库存储被识别为黑联的网页关键词;将获取的内容特征与挖掘的恶意特征数据库进行匹配具体包括将获取的超链接的网页标题或网页元信息l}Zeta与恶意特征数据库中存储的关键词进行匹配。

在百度黑联检测算法的测试案例中,在确定超链接为黑联后,还包括:进一步从黑联的网页中提取关键词,并存储在恶意特征数据库中。在百度黑联检测算法的测试案例中,步骤a1,当视觉特征参数为颜色设置参数时,对应的不可见特征要求超链接的颜色设置参数与待检测网页的背景颜色一致;或者当视觉特征参数为字体参数时,对应的不可见特征要求超链接的字体参数值小于或等于预设的字体参数阈值;或者当视觉特征参数为关键词位置参数时,对应的不可见特征要求超链接的关键词位置在待检测网页的可见范围之外;或者当视觉特征参数是链接显示参数时,对应的不可见特征要求是超链接以滚动条的形式闪烁或者不显示。

在百度黑联检测算法的测试案例中,恶意特征数据库存储标识为黑联的链接;该方法还包括:从网页库中获取超链接中包含恶意特征数据库中的链接的网页,对网页中的其他超链接逐一执行黑联检测过程,并将检测到的黑联添加到恶意特征数据库中;或者,从网页库中找出与恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找到的网页作为待检测网页转到步骤Sl开始执行,然后将检测到的黑联加入恶意特征数据库。一种检测黑链的装置,包括:链接提取模块,用于提取待检测网页的超链接,并将提取的超链接逐一提供给检测模块;检测模块,用于判断超链接的视觉特征参数是否满足预设的不可见特征要求,如果满足,则将超链接发送给黑联确定模块;黑链确定模块,用于将接收到的超链接确定为黑链。

在百度黑联检测算法的测试案例中,该装置还包括参考数判断模块,用于当检测模块的判断结果为否定时,判断超链接的外部链接参考数是否超过预设阈值,如果是,则将超链接发送给黑联确定模块。在百度黑联检测算法的测试案例中,该装置还包括白名单维护模块,用于在参考号判断模块的判断结果为否定时,将超链接添加到白名单数据库中。在百度黑联检测算法的测试案例中,该装置还包括:白名单判断模块,用于将待检测网页的网址与已有的白名单数据库进行匹配,如果匹配,则确定待检测网页中没有黑联;否则,触发链接提取模块。在百度黑联检测算法的测试案例中,该装置还包括恶意特征匹配模块,用于获取发送给黑联确定模块的超链接,获取超链接的网页内容特征,将获取的内容特征与挖掘出的恶意特征数据库进行匹配,匹配的话,将超链接发送给黑联确定模块。在百度黑联检测算法的测试案例中,恶意特征数据库存储被识别为黑联的网页关键词;恶意特征匹配模块在将获取的内容特征与挖掘的恶意特征数据库进行匹配时,具体将获取的超链接的网页标题或网页元信息与恶意特征数据库中存储的关键词进行匹配。

在百度黑联检测算法的测试案例中,该装置还包括恶意特征数据库维护模块,用于在黑联确定模块确定超链接为黑联后,进一步从黑联的网页中提取关键词,并存储在恶意特征数据库中。在百度黑联检测算法的测试案例中,在检测模块中,当视觉特征参数为颜色设置参数时,采用的不可见特征要求超链接的颜色设置参数与待检测网页的背景颜色一致;或者当视觉特征参数为字体参数时,采用的不可见特征要求超链接的字体参数值小于或等于预设的字体参数I-7值;或者当视觉特征参数为关键词位置参数时,采用的不可见特征要求超链接的关键词位置在待检测网页的可见范围之外;或者当视觉特征参数是链接显示参数时,所采用的不可见特征要求超链接以滚动条的形式闪烁或不显示。在百度黑联检测算法的测试案例中,恶意特征数据库存储标识为黑联的链接;该装置还包括:恶意特征库挖掘模块,用于从网页库中获取包含恶意特征数据库中的链接的超链接的网页,将网页中的其他超链接逐一提供给检测模块,并将黑联确定模块确定的黑联添加到恶意特征数据库中;或者,从网页库中找出与恶意特征数据库中链接的网页相似度满足预设相似度要求的网页,将找到的网页作为待检测网页提供给链接提取模块,然后将由黑链确定模块确定的黑链添加到恶意特征数据库中。