blog

在分析爬网数据时,不要低估高级过滤的强大功能

<p>在帮助客户处理主要算法更新,解决技术搜索引擎优化问题等问题的同时,我经常审核大型网站,这几乎总是需要彻底的网站抓取(通常在订婚的整个过程中会有几次爬行)并且当你在寻找时可能会对网站造成严重破坏的SEO gremlins,为了集中分析而对切片数据进行切片和切块非常重要通过良好的数据过滤,您可以经常显示可能导致严重问题的页面类型,部分或子域浮出水面,您可以对这些区域进行大量分析,以便更好地了解核心问题,然后解决需要修复的问题从爬虫的角度来看,我已经在搜索引擎土地,DeepCrawl和尖叫青蛙上覆盖了我最喜欢的两个两者都是出色的工具,我通常使用DeepCrawl进行企业爬行,同时使用Screaming Frog进行手术爬行,这种方法更加集中(注意:我在客户顾问委员会f上)或者DeepCrawl)在我看来,使用DeepCrawl和Screaming Frog的组合是杀手锏,我常常说同时使用这两个工具时1 + 1 = 3下面,我将介绍在这两个工具中使用过滤的几个例子,这样你就可以了解我所指的内容通过过滤爬网数据,您将准备好隔离并显示网站的特定区域以进行进一步分析</p><p>在您开始这样做之后,您将永远不会回头让我们摇滚乐可转换让我们从一个基本的,但重要的过滤器开始内容质量问题在几个层面上可能是非常有问题的,并且您肯定希望确保可索引页面上不存在这些问题当Google从质量角度评估网站时,它会占用您的整个site into account包括每个被索引的页面这是来自John Mueller的视频,解释说当你在网站上发现问题时,可以通过可索引的URL过滤该列表,以便集中分析在可能会损害您的网站质量的网页上我并不是说要忽略其他网址,因为它们没有被编入索引!您也应该完全照顾它们</p><p>请记住,用户正在与这些页面进行交互,并且您不希望不满意的用户在挖掘内容和/或其他质量问题时隔离可以编入索引的页面非常聪明精简内容+正则表达式for page type = awesome对于那些喜欢正则表达式的人,我有好消息DeepCrawl支​​持高级过滤的正则表达式所以你可以选择一个过滤器,然后选择“匹配正则表达式”或“不匹配正则表达式”来执行一些手术过滤顺便说一句,有一个“不匹配的正则表达式”过滤器来开始清除你想要排除的URL而不是包含它是很棒的例如,让我们通过使用管道字符组合过滤器中的三个不同目录来开始简单管道字符表示正则表达式中的“或”或者,如何排除特定目录,然后关注仅以两个或三个字符结尾的URL(这是我认为的URL的实际示例)在特定审计期间从内容角度来看是有问题的):或者,如何将页面类型的正则表达式与字数混合以按页面类型或目录识别真正的精简页面</p><p>这就是为什么过滤是如此强大(和节省时间)你得到的图片你可以包括或排除任何类型的URL或模式你想要你可以在过滤器上分层来磨练你的报告对于大规模爬行来说,这是很神奇的典型问题:响应标题去年我写了一篇关于如何检查X-Robots-Tag来解决潜在危险机器人指令的帖子(因为它们可以通过标题响应传递并且肉眼看不见)在大型网站上,这个可能是非常险恶的,因为页面在表面看起来很好时可能会被错误地编入索引嘛,你也可以通过标题响应设置rel规范这会导致一些奇怪的问题(如果你不这样做可能会让你发疯知道如何设置rel规范)在某些情况下,你最终可以为一个URL设置多个规范标签(一个通过标头响应,一个设置在html中)当发生这种情况时,Google可以忽略所有规范标签,如解释一世他们的博客文章关于常规错误与rel规范通过检查“没有有效规范标记的页面”报告,然后通过rel规范标题URL和rel规范html URL过滤,你可以显示所有有这个问题的网址 然后你可以深入了解你的开发团队,以确定为什么在代码发生时发现了URL!识别错误链接的来源毫无疑问,在大规模爬网过程中会遇到爬网错误(如404s,500s等)只知道返回错误的URL通常不够好你真的需要追踪这些URL的位置从整个站点链接您希望大规模修复问题,而不仅仅是一次性问题要执行此操作,请从任何爬网错误报告(或非200报告)中的“找到”URL进行筛选然后您可以使用正则表达式来表示可能严重链接到返回爬网错误的页面的页面类型和/或目录仔细检查AMP URL:所有rel链接使用加速移动页面(AMP)</p><p>要通过html中的rel = amphtml仔细检查您引用的网址,可以查看“所有相关链接”报告并按照amphtml过滤然后您可以为“URL to”应用另一个过滤器,以确保这些是真实的您正在引用的放大器URL再次,它只是另一个快速示例,说明过滤如何发现位于表面下方的险恶问题下载过滤后的CSV我在上面提供了几个例子,说明在DeepCrawl中分析爬网数据时可以使用高级过滤做什么但是当你怎么办想要导出那些数据</p><p>由于您做了如此出色的过滤,您绝对不希望在导出时丢失过滤后的数据因此,DeepCrawl具有“生成过滤的CSV”的强大选项通过使用此功能,您可以轻松导出过滤后的数据与整个辣酱玉米饼馅然后你可以在Excel中进一步分析或发送给你的团队和/或客户端Awesome For Screaming Frog,过滤器不那么健壮,但你仍然可以在UI中过滤数据很多人都不知道这个,但搜索框中支持正则表达式因此,您可以使用您在DeepCrawl(或其他地方)中使用的任何正则表达式来按Screaming Frog中的报告类型过滤URL例如,检查响应代码并希望快速检查这些URL按目录</p><p>然后使用管道字符包含特定的页面类型或目录(或模式)您将看到基于正则表达式的报告更改您可以利用预过滤的报告,然后在您自己的过滤上进行分层</p><p>例如,您可以检查页面长标题然后使用正则表达式过滤以开始呈现特定页面类型或模式并且过滤器适用于所有列!因此,您可以将regex用于该特定报告中列出的任何列</p><p>例如,下面我将从包含规范URL标记的所有网址开始,然后使用“noindex”显示包含元机器人标记的网址如果URL没有索引,那么它不应该包含规范的URL标记(两者相互对立)Rel canonical告诉引擎哪个是索引的首选URL,而使用noindex的meta robots标记告诉引擎不索引没有意义的URL这只是一个简单的例子,你可以用Screaming Frog中的过滤做些什么注意:Screaming Frog有一个“规范错误”报告,但这是一种快速的方法来过滤UI来表现问题来自出口立场,遗憾的是你不能只导出过滤后的数据但你可以快速将过滤后的数据复制并粘贴到Excel中谁知道,也许聪明的人在Screaming Frog会建立一个“导出过滤数据”选项我花了很多钱的时间抓取网站和分析抓取数据,我无法强调过滤的强大功能当你添加正则表达式支持时,你可以真正开始切片和切割你的数据,以便发现潜在的问题,你可以更快地解决问题,您可以更快地解决这些问题这对于拥有数万,数十万甚至数百万页的大型网站尤其重要</p><p>所以请继续...过滤掉本文中表达的观点是客座作者的意见,

查看所有