|
关注搜索引擎的抓取与更新
什么是抓取诊断
抓取诊断工具,可以让站长从百度蜘蛛的视角查看抓取内容,自助诊断百度蜘蛛看到的内容,和预期是
否一致。每个站点每周可使用200次,抓取结果只展现百度蜘蛛可见的前200KB内容。
抓取诊断工具能做什么
目前抓取诊断工具有如下作用:
1、诊断抓取内容是否符合预期,譬如很多商品详情页面,价格信息是通过JavaScript输出的,对百度蜘
蛛不友好,价格信息较难在搜索中应用。问题修正后,可用诊断工具再次抓取检验。2、诊断网页是否被
加了黒链、隐藏文本。网站如果被黑,可能被加上隐藏的链接,这些链可能只在百度抓取时才出现,需
要用此抓取工具诊断。
3、检查网站与百度的连接是否畅通,若是IP信息不一致,可以报错通知百度更新IP。确保您网站的托管
服务器没有停止运行、超载或配置不当。如果连接问题、超时问题或响应问题仍然存在,请与您的网站
托管服务提供商联系,并考虑增强您的网站处理流量的能力。
检查网站是否不小心屏蔽了百度spider的IP。您可能会由于系统级问题而阻止了百度访问,例如DNS配置
问题、配置不当的防火墙或DoS防护系统、内容管理系统配置问题。防御系统是保证托管服务正常运行的
关键因素之一,并且这些系统通常会配置为自动阻止超量的服务器请求。由于百度spider发出的请求通
常要比普通用户多,因此可能会触发这些防御系统,导致它们阻止百度spider访问并抓取您的网站。要
解决此类问题,您需要确定网站基础架构中的哪个部分在阻止百度spider,然后取消该阻止。如果您没
有控制防火墙的权限,就需要与您的托管服务提供商联系解决此问题。
|
|