网络中存在海量网页,搜索引擎的爬虫程序不可能将所有页面都下载并存储到数据库中。所以,多数搜索引擎的爬虫只会检索那些具有较高价值的网页,而判断网页价值的主要标准是它所获得的链接数量和品质。
2、抓取网页策略
搜索引擎机器人获取网页资料时,通常有两种主要方式:一种是横向扩展,另一种是纵向深入,具体操作流程请参考相关示意图。横向扩展指的是,机器人会先访问初始页面上的所有链接地址,接着从这些地址中挑选一个,再继续探索该页面上的其他链接目标。这种做法应用最为普遍,因为其能够实现多任务同时进行,从而有效提升信息采集的效率。搜索机器人采用逐层探索方式,首先定位到入口网页,再逐一追踪各个连接,完成当前路径的遍历后,会切换到新的起始点,继续进行连接追踪。这种方法的便利之处在于,搜索机器人的构建相对简单。两种不同策略的异同点,通过附带的图示能够更清晰地展现出来。考虑到无法检索全部网页,部分搜索机器人会对一些价值不高的网站设定访问的层级限制。如图所示,A是初始页面,归入零级,B、C、D、E、F归为第一级,G、H归为第二级,I归为第三级。若搜索机器人设定的访问层级为二,那么页面I将不会被检索。这种现象导致部分网站内容能被搜索引擎索引,而另一部分内容则无法被检索到。对于网页制作者而言,采用扁平化的页面布局能够促使搜索引擎收录其更多页面内容。
3、访问网站权限
网络爬虫在检索网页内容时,常遭遇数据加密和访问限制的阻碍,部分页面仅限注册用户浏览,网站管理者可利用协议指令禁止爬虫抓取,然而某些售卖报告的站点,既希望被搜索引擎收录,又不愿公开内容,因此会向爬虫提供特定的账号和密钥。网络爬虫依据授予权限,能够对指定页面执行数据采集,进而支持检索服务;用户在访问该页面时,也必须通过权限核实来确认身份。
三、搜索引擎工作内容
搜索平台的资料库由一种名为"网络机器人"或"网络蜘蛛"的程序构成,这种程序借助网上的各类连接自主搜集海量网页资料,再依照特定准则进行解析和归纳。百度是这种搜索系统的一个代表性实例。
1、收录页面
常规收录页面需要等待检索机器人完成检索,依据检索规则来挑选要收录的页面,在百度规则更新后,对抄袭内容、复制网站进行严厉处理,因此检索引擎在收录页面时更加审慎,优质内容页面以及权威度高的站点通常能获得更多收录机会。收录页面这个情况,多数站长都明白,每天搜索引擎的爬虫都在持续抓取,然而你会发现,许多站点的收录量其实变少了,这是怎么回事呢?因为搜索引擎需要筛选页面。
2、过滤页面
众多网页在搜索引擎索引后,搜索引擎判定其缺乏对用户的显著帮助,或者页面品质不高,搜索引擎便会将其排除,这亦是提升用户使用感受的一种方式,部分站点以追求优化为首要目标,完全忽视用户的实际感受,诸如某些门页、重定向页等便是这类站点的典型代表,搜索引擎的k站机制就是一种筛选页面的手段,旨在将那些存在作弊行为的站点的页面全部剔除。需要了解有多少人借助搜索工具查询信息,倘若检索到的内容属于为提升排名而精心构建的站点,或是低水平的网页,那么搜索引擎实际上是在为该站点的优化铺路,从而保障自身的长远发展。因此,在筛选网页方面,搜索引擎执行标准极为严苛,各位也应避免采用不正当的推广手段。
3、建立索引
收录环节和过滤环节处理完毕后,搜索引擎会逐个对页面进行识别和标注,并将相关信息保存为格式化的资料,存放在搜索引擎的查询服务器里,这些保存的资料包含网页的核心内容、网页的标题标识、关键词标识、页面说明标识、网页外部链接以及抓取历史记录。能够对网页里的核心词句加以辨认和保留,以便同用户的查询目标相互对应。构建周密的目录体系,有助于展示最恰当的资讯内容
4、显示信息
用户输入的词语,搜索引擎会进行多项深度处理,随后依据处理结果在资料库中检索最契合的诸多网页,针对用户输入的词语所反映的意向程度和网页的质量进行评分,再按照分数高低进行排序,呈现给用户,通常最优质的内容是最符合关键词关联性的页面,这涉及到站点内部和外部优化的综合影响。
四、搜索引擎算法1、百度搜索引擎算法
百度搜索运用了石榴方案、绿萝方案、飓风方案、白杨方案、轻舟方案、惊雷方案、天网方案、烽火方案、细雨方案、石榴方案、极光方案、闪电方案、蓝天方案、冰桶方案等策略。谷歌搜索则包含了熊猫方案、企鹅方案、蜂鸟方案以及多个未具名的方案。
(1)、石榴算法
算法主旨:主要打击低质量的网站。
算法细节如下:2013年5月17日,百度搜索对低劣网站实施更严厉的整治措施,该措施是百度绿萝算法的后续版本,旨在显著改善百度搜索引擎的用户感受,并提升搜索结果的品质,是百度优化搜索体验和质量的重要举措。
站长规避:恶劣弹窗、大量混淆页面主体内容等垃圾广告。
(2)、绿萝算法
该算法核心目的在于针对交易链接进行干预,对于链接的非法互换加以限制,同时禁止恶意传播外部网址的行为。
该算法于2013年2月19日部署实施,旨在针对搜索引擎的反作弊工作。它重点处理超链接领域的违规操作,包括中介机构操控链接、出售链接资源以及购买链接等行为。通过这项算法的运用,恶意链接交换和非法外链发布的现象得到有效遏制,互联网环境因此得到显著改善。
站长规避:买卖链接。
(3)、飓风算法
算法主旨:百度推出飓风算法,严厉打击恶劣采集。
百度搜索最近上线了飓风算法,重点处理那些主要依靠不良抓取的网站,百度搜索将把这类抓取链接从数据库中完全移除,让有价值的原创作品获得更多曝光,从而推动搜索环境的健康发展。
该算法定期生成惩戒信息,并且会依据状况即时修正进程,这表明百度搜索对不良抓取采取绝不姑息的态度。
要避免内容抓取,要远离低质重复信息,要杜绝剽窃行为,要看重独立创作,要大量增加自主构思的文章。
(4)、白杨算法
算法主旨:对符合百度地域优化标准的优质站点进行优先展现。
算法功能:白杨方法借助区域配置服务,将本地资源归属的都市作为首要标识呈现出来,若用户需查询本地或周边资讯,符合要求的站点将优先列出
网站管理者选择只对必须获得本地搜索展示的页面打上特殊记号,对于那些不需要本地排名的页面则不作处理,这种方式更加精准,能够降低搜索引擎在评估时出现偏差的可能性。
(5)、轻舟算法
算法主旨:针对PC站点与移动端达到适配。
算法说明:优先考虑移动端,适配网站将获得更多曝光机会,实现移动适配的方式包括跳转适配、代码调整以及自适应设计。
当前手机用户数量已经多于台式机用户,网站管理者在创建站点时,不仅要顾及台式机版本,还必须打造手机适配版本,这样有助于提升搜索引擎的评定结果。
(6)、惊雷算法
该平台核心目标:百度网罗计划预计在五月末上线新版打击机制,旨在惩治伪造链接及恶意进行点击操作的违规操作。
算法说明:新版惊雷系统与旧版相比,重点优化了防范欺骗性链接生成和虚假点击的技术,针对这两种违规操作进行了强化处理。新版系统会对存在违规的网页减少搜索结果曝光,清除虚假链接,过滤无效点击,同时会将违规记录存入网站档案,情节严重者将实施永久性屏蔽措施。请相关网站立即开展自我检查并修正问题。
引导管理者积极创造符合受众期待的精良作品,以此实现健康的访问量提升。
切勿轻信或尝试探究排序优化技巧。要拒绝通过非法途径攫取关注度,务必构建良好的检索环境。
(7)、天网算法
算法主旨:百度推出天网算法,严打盗取用户隐私。
算法说明:百度网页检索过程中,部分网站存在窃取用户隐私的情况,具体表现为网页植入了恶意程序,目的是盗取网络用户的QQ账号和手机号码信息。不过,很多用户误以为是百度在实施这种行为。因此,百度网页检索与百度安全部门共同研发了天网算法,专门用来应对此类恶意操作。
向平台负责人提出意见:存在窃取用户资料行为的网页需立刻修正,若策略审核达标则可撤销处罚。
(8)、烽火算法
该算法核心在于,烽火算法2.0,对于"盗取用户资料"与"恶意侵占"的行为,会进行严厉打击。
该算法的运作方式如下,它主要处理两种情况,第一种是有人未经许可,偷偷获取用户手机号和其他个人信息,第二种是有人恶意垄断百度的访问量。涉及以下情形:当用户借助百度手机搜索访问某网页后,阅读内容准备退出时,若点击浏览器返回按钮,会被强制导向伪造的百度搜索界面;当用户借助百度手机搜索访问某网页后,阅读内容准备退出时,若点击浏览器返回按钮,页面始终无法跳转回百度搜索结果,导致用户无法离开该站点;对于网页内擅自嵌入恶意程序的情况,请迅速处理存在问题的网页。
运营者需注意,不可在手机版站点植入有害程序,目的是窃取用户联系电话及个人信息。同时,切勿借助不正当方法,将百度搜索带来的访问量转移到其他平台,这些行为都将招致系统规则的惩处和限制。
(9)、细雨算法
算法主旨:主要针对网站标题作弊的行为
算法介绍:百度搜索在2019年11月推出了细雨版本二,主要处理B2B领域的不良违规事项和劣质材料。具体涵盖网站名称的欺骗手段,正文部分出现的利益暗示,严重违规信息,以及质量不达标的内容。
网站管理者故意隐瞒:主体信息存在残缺,时常插入经过伪装的惠益呈现,组合材料、单纯复制材料、不同范畴获取材料,图像资料与文字说明不相符、图像中包含联系号码、图像分辨率非常低妨碍浏览感受等。
(10)、劲风算法
算法主旨:恶劣聚合页问题。
算法细节如下:百度搜索技术团队于2020年2月注意到,某些网站和智能小程序借助恶意制作集合页面的手法,意图提升搜索排名并吸引搜索用户,为此推出了劲风算法,旨在管理恶意聚合页面给搜索用户带来的负面效应。
网站管理者故意隐瞒:网页展示的信息与其运营平台的实际范畴不一致,或者该平台没有明确的业务范围,通常是将不同来源的内容随意组合;网页呈现的信息与其标题以及页面内标注的关键词不匹配;由网站内部搜索系统自动生成的仅用于展示搜索结果的页面;篇幅过短、缺乏实质性内容、已经失效的集合式网页。
(11)、极光算法
该算法核心在于关注页面加载时长,强调执行标准,通过限制违规网站曝光,降低其访问量。
算法信息:2018年5月尾,百度搜索将推出极光算法,意图促使资源提供者关注站点最终页面加载时长的要求。页面加载时长是百度搜索决定网站是否收录、能否展示、以及排序位置的关键考量因素。为使用户能获得更佳的搜索浏览感受,我们将优先推荐那些符合最终页面时间标准且信息较新的网页,并给予它们更多的展示可能,与此同时,会降低那些不达标网站的曝光度。
网站管理者需要依照百度关于搜索结果页呈现时刻的规定文档,来调整网页的生成具体时刻,以便符合搜索者查阅的体验要求,从而能够获得更多的页面展示时机。
(12)、清风算法
该程序核心在于针对网站误导访客实施软件安装的行为实施彻底禁止,对于诈取下载,恶意推广无关应用等情况则进行权重削减处置。
算法更新:五月份初期,针对移动网站实施了清风版本二,针对作假促使用户安装的行为,执行永久性禁止措施;坚决处理虚假下载,恶意促使安装无关应用,以及无效下载途径等情况。
网站管理者应当确保移动端平台符合标准,禁止推出具有不良目的的应用程序,避免误导访客点击虚假的下载入口。
(13)、闪电算法
该算法的核心在于,当某个网页在移动端搜索时,其首屏内容加载时间如果超过三秒,就会被系统限制展示机会。
算法细节如下:十月份初期"闪电算法"启用,手机端搜索结果首页的加载速度会对搜索结果排序产生作用。手机网页首页若能在两秒内完成展现,将能在移动搜索中获得更好的页面评级,并得到访问量分配上的照顾;另一方面,手机搜索页面首页加载迟缓(达到三秒或更长时间)的网页会受到限制。
网站管理者注重提升移动端访问性能;力求手机版页面主界面出现速度不超过三秒,否则会降低在搜索结果中的位置。
(14)、蓝天算法
算法主旨:百度持续打击新闻源售卖软文、目录行为。
算法说明:百度不断整治新闻源头售卖文章及目录的情况,反作弊部门察觉到某些新闻网站持续售卖目录,并发布许多劣质信息,这些行为严重违背新闻源规范,并且损害了用户的搜索感受,百度为此开发了"蓝天算法",目的是坚决处理新闻源头售卖文章及目录的行为,为用户营造一个干净的搜索环境。
算法处理:出现"蓝天算法"指定情况的内容会被移出信息聚合平台,并且其百度检索排名会受到影响,请其他媒体站点及时检查自身资讯,存在相关问题需进行修正,没有则应持续改进。
百度方面明确表示,其"蓝天算法"会全力整治损害用户感受的行为,并且毫不留情。
运营者应当避免选购那些声称拥有高排名或属于权威站点的收录平台,要远离与新闻报道相关的推广文章,同时会对贩卖这类站点采取行动。
(15)、冰桶算法
算法主旨:针对发布恶劣诱导类广告的页面进行打击。
算法说明:我们注意到一些网页借助色情动态图像、大胆字眼、博彩等极具诱惑力的方式,诱使用户去点击不合规的广告,为了提升用户感受,促使行业环境朝向更良好健康的路径,百度搜索对冰桶算法实施了更新,对那些散布恶意诱惑性广告的网页加以惩处,使其在百度搜索体系里的地位下降。现在通知各位网站管理者,务必立刻移除那些欺骗性的推广内容,以免违反规定导致网站排名下降。
这种类型的广告利用色情图片、色情链接、大胆文字、赌博等内容来吸引注意力,诱导人们点击非法广告,目的是骗取点击量。具体形式包括色情链接,色情图片,大胆文字等。那些触犯"冰桶算法"的站点,百度会降低它们在搜索结果中的排名。
运营者需注意,平台禁止展示不良引导性宣传,不得包含淫秽动态图片,赤裸文字以及博彩等宣传信息。
2、谷歌搜索引擎算法
(1)、 Panda熊猫算法
始终非常在意用户的感受,为了让谷歌搜索用户总能看到优质信息,于是在2011年推出了熊猫规则,旨在降低搜索结果中内容制造站或劣质页面的比例。
熊猫演算法主要审查网页内容是否出现以下情况:
页面上的信息量很小,缺乏实质内容,与网页主题关联度低,或者页面上几乎没有文字信息。
2.重复内容:站内出现多个页面都是相同,或几乎一样的内容。
内容质量不高:缺少深度信息或缺乏有益建议,对使用者没有帮助的网页。
扫一扫在手机端查看
我们凭借多年的网站建设经验,坚持以“帮助中小企业实现网络营销化”为宗旨,累计为4000多家客户提供品质建站服务,得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求,请立即点击咨询我们或拨打咨询热线: 13761152229,我们会详细为你一一解答你心中的疑难。


客服1