搜索引擎蜘蛛抓取原理_了解了搜索引擎的工作原理后再去做网站优化-排名优化-网站建设-泊元信科

(3)站长通过搜索引擎网页提交表格提交进来的网址。

蜘蛛根据优先级从候选网址列表里挑选网址，去访问并获取网页内容，随后把该网址从候选网址列表里移除，存入已访问网址列表中。

许多常用网络检索服务都设有界面，供网站管理者录入网址信息，然而这些录入的地址仅被归档保存，能否被纳入索引还需依据页面所具有的显著程度来判定，网络检索服务大多通过自动爬虫沿着链接追踪来收录网页，可以说主动提交网址基本没有实际作用，网络检索服务更倾向于自主探索链接来发掘新内容。

文件存储搜索引擎的爬虫采集信息录入初始页面数据库，里面存放的页面资料和用户浏览器获取的HTML内容完全相同。每个网址对应一个专属的文件编号。

爬行时的复制内容检测

对重复内容进行查找并移除，一般是在后面说明的处理步骤里完成的，不过当前的网络爬虫在搜集信息和下载资料时，也会执行一定量的重复内容识别。当它们遇到那些在低权重站点上广泛转述或照搬资料的情况，或许就不再继续访问了。这解释了为何某些网站主在访问记录里看到了爬虫的足迹，但网页却始终未被平台索引的现象。

预处理

在部分搜索引擎优化文档里, “前期处理”有时被称作“建立目录”, 这是因为建立目录是前期处理的核心环节。

搜索引挚的爬虫获取的初始网页，不可以立即用于排序评估。搜索系统的资料库里存有数量达数兆的网页，当访客键入检索指令，排序系统需即时对海量页面进行关联性判断，运算负荷过于沉重，无法在极短时间内提供排序信息。所以爬取到的网页必须实施加工处理，以便为最终的检索排序奠定基础。

像网络爬虫那样，数据整理工作同样在后台默默进行，使用者查询信息时并察觉不到这个环节。

1.提取文字

当前搜索平台主要依据文本信息运作。网络爬虫获取到的网页数据，除了用户能浏览到的文字部分，还混杂着许多HTML标记和脚本代码，这些元素对排序没有帮助。搜索引擎的初步处理环节，关键任务是从HTML文档中剔除标记和脚本，分离出适合排序算法处理的页面文字材料。

今天愚人节哈

除去HTML代码后，剩下的用于排名的文字只是这一行：

今天愚人节哈

搜索引擎除了识别出肉眼能看到的文字之外，还会分析一些特殊的含有文本内容的标记，例如网页头部信息里的描述文字，图片旁边用来解释的说明文字，动画文件中作为补充说明的文字，以及超链接中显示的提示文字等。

2.中文分词

中文搜索引擎有一个独特的环节，那就是分词。搜索引擎在保存和处理网页信息以及用户查询时，都是按照词语来进行的。英文等语言中，单词与单词之间有空隙作为区分，搜索引擎的索引程序能够直接将句子拆分成单词的序列。然而，中文的词语之间没有任何间隔符号，一个句子里的所有字符都连续排列在一起。因此，搜索引擎必须先确定哪些字符构成一个词语，哪些字符本身就代表一个独立的词。比如“减肥方法”将被分词为“减肥”和“方法”两个词。

中文切分技术大致分为两类，其一是借助词典进行匹配，其二是采用统计手段实现。

采用词典对照方式处理文本时，需要把需要考察的汉字序列同预设的词汇库中的条目逐一比对，如果在待考察的文本片段里发现了词汇库中已有的条目，就表示匹配成功，也意味着完成了一次分词操作。

根据扫描路径，词典式比对方式能够分为前向比对和后向比对，根据匹配字符数量优先级的差异，又能够分为长字匹配和短字匹配，将扫描路径和字符数量优先级相结合，还能够引出前向长字匹配、后向长字匹配等不同方案。

这种查词方式操作简便，其结果精准度主要受词汇库全面程度及更新频率影响。

根据统计原理进行分词的方法，需要考察众多文本资料，统计每个字与其邻近字共现的频次，相邻字组出现次数越高，通常表明构成词语的可能性越大，这种方法的优点在于能迅速适应新词汇，同时有助于消除识别上的不确定性。

词典对照式和统计型两种分词技术都有各自的长处和短处，实际应用中的分词系统通常是这两种技术相结合的，既能快速准确，又能识别不常见词汇和最新出现的词语，还能消除句子中可能存在的多种解释。

中文分词的精确度常常关乎搜索引擎结果页的关联度。以百度为例，当输入“搜索引擎优化”进行检索时，通过其快照内容可以发现，百度将这组词视为一个整体进行检索。

在检索相同词语时，快照将其解析为“网络索引”与“改进”两个部分。百度显然对词组的划分更为恰当，网络索引改进是一个整体性概念。分词时更偏向于将词语拆解得更细致。

这种分词差异可能是关键词在不同搜索引擎排名表现各异的一个缘由。例如百度倾向于让搜索词完整地呈现在页面上，就是说当搜索“够戏博客”时，这四个字连在一起出现更便于在百度获得靠前的位置。而其他搜索引擎则不那么在意是否完整匹配。部分网页包含“精彩”与“博客”这两个词汇，二者无需严格对应，只要“精彩”位于文本开头，“博客”出现在页面其他位置即可，此类网页在检索“精彩博客”时，同样能获得较好的搜索结果。

搜索引擎如何解析页面内容，主要看词汇库的大小、信息的精确度以及分词方法的优劣，与页面本身无关，因此优化人员对分词几乎无能为力。他们唯一能做的，就是在文档中用特定方式向搜索引擎表明，某些字符需视为一个整体，特别是在标题、一级标题或加粗字体中放置关键词时，这种情况尤为重要。当网页主题涉及“和服”时，需要将“和服”这两个字加粗显示，以便搜索引擎识别。如果网页内容包含“化妆和服装”，则应将“服装”这两个字设为黑体。通过这种方式，搜索引擎在解析页面时能够明确识别出黑体文字代表的是特定词汇。

3.去停止词

各种语言里，文本材料中常有一些高频却无意义的词汇，比如中文里的“的”“地”“得”这类助词，以及“啊”“哈”“呀”这类感叹词，还有“从而”“以”“却”这些副词或介词。这些词汇被称为停用词，因为它们对文本核心内容没有实质作用。英文中的常见停止词有the，a，an，to，of等。

搜索引擎在构建索引时会过滤掉那些无意义的词汇，这样做能够让索引结果的核心内容更加鲜明，同时也能降低不必要的处理负担。

4.消除噪声

很多网页包含部分与主题关联不大的元素，诸如版权信息、路径指引、商业推广等。以常见的博客为例，文章分类、过往记录等路径指引几乎出现在每个页面，但这些页面本身跟“分类”、“过往”这些概念并无关联。用户在查找“历史”、“分类”这类词语时，若仅仅由于页面上出现这些字眼就返回博客文章，这种做法毫无价值，二者毫无关联，属于不相关内容。因此，这些区域都属于干扰信息，只会对页面核心内容产生负面效果。

搜索系统必须去除那些干扰信息，排序时排除干扰内容。去除干扰的基本方式是借助HTML标记将页面划分成不同部分，识别出顶部区域、导航条、主体文本、底部区域、推广信息等部分，在网站上频繁重复出现的部分通常属于干扰信息。经过去除干扰处理后，剩下的才是页面核心内容。

5.去重

搜索引擎还需要对页面进行去重处理。

相同的文章内容常常会在众多网站或同一网站的不同页面上反复出现，搜索引擎对此类重复信息并不青睐。当用户检索时，若前两页搜索结果均是源自不同网站的同一篇文章，会令其感到非常不便，即便这些内容主题一致。搜索引擎期望仅展示相同文章的一个版本，因此在建立索引之前，必须先辨别并剔除重复内容，这个步骤就叫做“去重”。

去除重复项的主要手段是针对页面中的特征性词汇生成特征码，具体而言，需要从页面的核心内容里挑选出最具代表性的一部分词汇，通常选择的是出现次数最多的那些词汇，接着对这些选定的词汇进行数字指纹的计算，而这一步骤是在完成分词、清除无意义词以及消除干扰信息之后进行的。研究显示，一般选取十个特征词汇便足以获得较为理想的运算精确度，继续增加词汇数量，对于提升去重精确度的作用也变得微乎其微。

常见的指纹生成技术例如MD5算法，即信息摘要算法第五版。这类指纹生成技术的显著之处在于，只要输入内容哪怕有极其细微的改动，最终得出的指纹结果都会产生巨大的差异。

明白搜索系统的重复内容处理机制后，优化人员要清楚，通过添加“的”“地”“得”，或变换段落次序这种所谓的仿写手法，无法绕过搜索系统的重复内容识别，这类行为无法更改文本的核心关键词。并且搜索系统的重复内容处理机制或许不只是针对页面层面，还可能深入到段落层级，即便混合其他文章内容，或者交叉调整段落排列，也无法让转述和剽窃的内容变成原创。

6.正向索引

正向索引也可以简称为索引。

完成文本的提取、进行分词处理、实施消噪操作、执行去重步骤，搜索引擎获取到的便是具有独特性、能够体现页面核心要素、以词汇作为基本构成单元的信息。搜索引擎索引系统随后能够抓取关键词，依据分词机制确定的词语，将网页改造成由关键词构成的集合，并且记住每个关键词在网页上的显现频次、重复次数、呈现形态（比如位于标题元素、加粗文本、H标记、链接文字等），以及具体位置（例如网页起始段落文字等）。每个页面都可以记为一组关键词，这些关键词的词频、格式、位置等权重信息都一一记录下来，并且保存完整。

搜索引擎的检索程序会将要检索的页面和关键词整理成列表格式，然后存入索引库中。这种索引列表的简化形式，具体见表2-1。

每个文档都有唯一的文档标识码，文档里的信息记录为一系列关键词的集合，实际上在搜索引擎的索引库中，这些关键词也转换成了关键词的编号，这种数据组织方式叫做正向索引。

7.倒排索引

正向索引尚无法直接用于排序。设想用户搜索词为2，倘若仅有正向索引，排序系统须遍历全部索引库的文档，识别出包含该词的文档，继而执行关联度评估。此类运算负担无法达成即时反馈排序结果的目标。

因此搜索引擎需要将原先的正向索引数据库转换成倒排索引形式，把文件与关键词的对应关系调整为关键词指向文件，具体内容参见表2-2。

关键词在倒排索引里充当索引的核心，每个关键词都关联着若干文档，这些文档均包含该关键词。用户若要检索某个关键词，排序程序便能在倒排索引中迅速找到这个关键词，进而直接获取所有含有这个关键词的文档。

8.链接关系计算

链接分析是前期处理的关键环节之一。当前所有主流搜索引擎的排序标准里都涉及网页间链接传递的数据。搜索引擎在获取网页资料之后，必须预先明确：哪些网址会指向其他哪些网址，每个网址接收哪些入口链接，链接采用了何种描述性文字，这些错综复杂的链接指向模式构成了网站和网页的链接影响力。

是这种链接关系的一种核心表现。其他搜索引擎也进行类似的运算，只是它们不使用这个名称。

网站中网址和超链接数目庞大，链接之间的联系又不断变化，所以确定链接关联以及PR值的过程需要耗费大量时间，后面会单独设立章节讲解PR值和链接分析的相关内容，数据，计算排名结果会展示给客户看，排名过程是与客户直接沟通的。

9.特殊文件处理

搜索引擎除了能抓取和索引HTML文件外，还可以处理多种基于文本的文件格式，例如PDF文档、Word文档、WPS文档、Excel表格、演示文稿以及纯文本文件等。在用户通过搜索引擎获取的结果中，经常会遇到这些不同类型的文件。然而，当前的搜索引擎技术尚无法解析图片、视频以及Flash动画这类非文本内容，同时也不具备执行脚本程序的能力。

搜索引擎在辨识图像以及从闪存中获取文字信息上略有提升，但离通过分析图像、视频、闪存资料直接呈现搜索结果的目标尚有距离。对图像、视频的排序通常参考其关联的文字资料，具体内容请参阅后文关于整合搜索的章节。

排名

网页被搜索机器人访问，系统分析后建立索引，平台便具备响应查询的能力了。当人们输入查询词，排序系统调取数据，经过计算后呈现结果，这个排序环节是直接面向使用者的。

优化

搜索引擎的运作机制，若能被SEO从业者掌握，则对网站改进大有裨益，许多不必要的过程便可省去。

网站的系统设计应当力求精简，摒弃那些不必要的编程，或许可以考虑借助实现。这一点相当关键，因为搜索引擎的排名机制与用户的浏览感受息息相关，二者相辅相成，而且复杂的编程不仅会减慢网页的打开时间，还会使用户感到十分困扰，所以这样做绝非良策。

做好站内SEO工作需要注重细节。总体而言，要对程序架构进行简化处理，具体而言，包括将URL改为静态形式，以及规范标题等内容的编写，不过这些方面目前对搜索引擎来说已经意义不大。

全面做好站外SEO工作，涵盖交换友情链接的要点，以及普通外链的投放方式和调控方法。不要试图寻找捷径，避免群发链接或一次性买入大量高权重链接，这些属于SEO的错误做法。我们通常建议采用常规的传统SEO策略。

每个从事搜索引擎优化工作的人员都必须明白，这项工作的核心目标在于吸引访客，所以使用者的感受绝不能被轻视。我们之所以能在搜索结果中获得较好的位置，是因为我们向人们呈现了富有意义的信息。所以，在前进方向上，不管是网站管理者还是专职的搜索引擎优化专家，都应当着眼于拓展用户群体、打磨产品品质、提升服务水准，不宜仅仅将目光锁定在搜索引擎优化层面，这一点至关重要。

凌聚科技扎根佛山辐射全国，是一家提供专业服务的公司，包括制作精美网站、打造品牌形象网站、构建营销网站、设计高互动自适应的响应式网站以及进行网站SEO提升等业务。公司依靠卓越的技术开发能力与严格的安全保障措施，并给出周全的解决方案，从而赢得了客户的信赖。联系电话： -

二维码
扫一扫在手机端查看

Tags :

上一篇：淘宝seo排名优化_淘宝seo是指什么
下一篇：白帽SEO优化过度原因_SEO优化过度的表现和如何避免优化过度

本文链接：https://www.by928.com/11021.html 转载请注明出处和本文链接！请遵守《网站协议》！
我们凭借多年的网站建设经验，坚持以“帮助中小企业实现网络营销化”为宗旨，累计为4000多家客户提供品质建站服务，得到了客户的一致好评。如果您有网站建设、网站改版、域名注册、主机空间、手机网站建设、网站备案等方面的需求，请立即点击咨询我们或拨打咨询热线： 13761152229，我们会详细为你一一解答你心中的疑难。

项目经理在线

我们已经准备好了,你呢？

搜索引擎蜘蛛抓取原理_了解了搜索引擎的工作原理后再去做网站优化

我们已经准备好了,你呢？

联系方式

二维码