Discuz! Board

 找回密碼
 立即註冊
搜索
熱搜: 活動 交友 discuz
查看: 2|回復: 0

这个过程中有一些机制需要讨论

[複製鏈接]

1

主題

1

帖子

5

積分

新手上路

Rank: 1

積分
5
發表於 13:39:02 | 顯示全部樓層 |閱讀模式
我将通过本指南使事情尽可能的简单。 Part 2 理解抓取 在本章中,我们将介绍如何确保搜索引擎能够有效地抓取你的内容。 抓取的工作原理 爬虫从页面抓取内容并使用这些页面上的链接来查找更多页面。这让他们可以在互联网上找到更多内容。 来源:Google URL 来源 爬虫必须从某个地方开始。通常,他们会创建一个列表,列出他们通过页面找到的所有 URL。另外一个机制就是通过用户或具有页面列表的各种系统创建的站点地图来查找更多 URL。 抓取队列 所有需要爬取或重新爬取的 URL 都会被安排优先级并加入到爬取队列中。这基本上是 Google 想要抓取的 URL 的有序列表。 爬虫 抓取页面内容的机制。 处理 这些是规范化的处理机制,渲染页面,就像浏览器加载页面一样,并处理页面以获取更多要抓取的 URL,我们后面会讨论这些机制。 渲染 渲染就是像浏览器一样加载页面,加载 JavaScript 和 CSS 文件。这样做是为了让 Google 可以看到大多数用户会看到的内容。

索引 用于储存 Google 向用户显示的页面。 抓取控制 有几种方法可以控制 手机号码数据 在你的网站上可被抓取的内容。 Robots.txt Robots.txt 文件会告诉搜索引擎他们可以和不可以访问的页面。 需要说明的是,如果链接指向这些页面,即使 Google 不可以访问该页面,但也可能会将它们编入索引。这可能会令人困惑,但如果你想防止页面被索引,请查看本指南和流程图。 抓取频率 你可以在 robots.txt 中使用一个 crawl-delay 指令,许多抓取工具都支持该指令,你可以设置它们抓取页面的频率。不幸的是,谷歌并不支持。对于 Google,你需要按照此处所述在 Google Search Console 中更改抓取速度。. 访问限制 如果你希望某些用户可以访问该页面,但搜索引擎不能访问该页面,那么你可能想要的是以下三个情况之一: 某些登录页面; HTTP 认证 (需要密码才能访问的地方); IP 白名单 (只允许特定的 IP 地址访问页面) 这种类型的设置最适用于内部网络、会员限定的内容、测试、或开发中的站点。





它允许一组用户访问该页面,但搜索引擎将无法访问它们并且不会索引这些页面。 如何查看抓取活动 特别是对于 Google,查看他们正在抓取的内容的最简单方法是使用 Google Search Console 抓取统计报告,该报告为你提供有关抓取你网站的更多信息。 如果你想查看网站上的所有抓取活动,则需要访问服务器日志并需要使用工具来更好地分析数据。如果你的主机有一个像 cPanel 这样的控制面板,你应该可以通过一些工具例如 Awstats 和 Webalizer 访问原始日志。 抓取调整 每个网站都有不同的抓取预算,这是 Google 抓取网站的频率以及你的网站允许抓取的数量的组合。更受欢迎的页面和经常更改的页面将被更频繁地抓取,而看起来不受欢迎或链接不多的页面抓取频率会比较低。 如果抓取工具在抓取网站时有压力,它们通常会减慢速度甚至停止抓取,直到条件改善。 页面被抓取后,它们会被渲染,然后送到索引。索引就是储存搜索结果的列表。

回復

使用道具 舉報

您需要登錄後才可以回帖 登錄 | 立即註冊

本版積分規則

Archiver|手機版|自動贊助|z

GMT+8, 15:20 , Processed in 0.048366 second(s), 19 queries .

抗攻擊 by GameHost X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回復 返回頂部 返回列表
一粒米 | 中興米 | 論壇美工 | 設計 抗ddos | 天堂私服 | ddos | ddos | 防ddos | 防禦ddos | 防ddos主機 | 天堂美工 | 設計 防ddos主機 | 抗ddos主機 | 抗ddos | 抗ddos主機 | 抗攻擊論壇 | 天堂自動贊助 | 免費論壇 | 天堂私服 | 天堂123 | 台南清潔 | 天堂 | 天堂私服 | 免費論壇申請 | 抗ddos | 虛擬主機 | 實體主機 | vps | 網域註冊 | 抗攻擊遊戲主機 | ddos |