武汉网络营销讯,每个搜索引擎都有网页质量监控部门,某些带人工处理的搜索引擎,这样的网站被投诉的话,将直接封杀。但对于Google这样的封站也自动处理的搜索引擎而言,对关键字堆砌作弊的识别就显得更为重要了。
搜索引擎一般采用统计分析法识别关键字堆砌。
搜索引擎首先将网页进行分词,分词完成后可以得到词的数量和文章长度,从大量文章的统计中发现文章的长度L和词的数量N两个数字之间存在一定的分布关系,一般而言L/N的均值在5-6之间。一篇长度为1000字节的文章中,应该有125-250个分词,由于中文和英文的词的组成不一致,因此具体算法不同,但是做法却是一样的。如果搜索引擎发现L/N特别大,这篇文章就存在就存在关键字堆砌现象了,如果L/N特别小,就说明这篇文章的关键字太少,那么说明这篇文章的用处不是很大,也会影响排名的。
通过大量正常文章统计发现,文章中密度最高的几个关键字出现的次数之和与N/L存在一定的分布关系,搜索引擎就可以通过网页中的分布与统计结果的分布图进行比较得出文章是否存在关键字堆砌的现象。
除此之外,搜索引擎还将从停止字的比例来判定是否为自然文章。停止字就是如“的”“我”“是”等在文章中普遍使用的字或词,这样比较方便地判断了文章是否正常。
其他更多的搜索引擎判断算法,这里就不一一罗列了,总之一句话,搜索引擎对关键字堆砌的识别还是有章可循的。
一些更先进的关键词堆砌行为。
有些作弊者已经放弃了单词的组成文章的作弊方式,而改用句子组成文章的作弊方式,作弊者通过爬虫或其它方式获得网上文章的句子,并用软件将数十篇文章的某几句拼凑成一篇文章。这就需要搜索引擎做语义的分析来判断是否作弊了。这样就增加了不少难度,搜索引擎现在对此还不是那么有办法,对于浏览者来说,却可以很快发现这些文章的不对,因为读起来“很拗口”。
公司地址:中国武汉光谷民院路尖东智能花园4栋3楼
联系电话:027-87467120 传真:027-87188212 邮箱:hr@twoarmy.com
Copyright (c) 2007-2010 武汉网站建设|武汉网站制作|武汉网站设计|武汉做网站 谷站目录
All Rights Reserved.