谷歌搜索控制台Phantom Noindex错误回应

近日Google网站管理员趋势分析师/开发者倡导者John Mueller针对Google Search Console出现的“Phantom Noindex”错误作出回应，承认Google可以看到索引块的存在。下面将详细分享事件原委及排查“Phantom Noindex”错误的方法。

Noindex robots指令是Google必须遵守的少数指令之一，也是网站所有者控制Googlebot的少数方法之一。

但是Google Search Console报告无法索引页面的情况并不少见，因为谷歌外贸建站时，页面本身会出现没有Noindex指令和在HTML代码中看不到该指令的情况。

当Google Search Console (GSC)报告“提交的网址标记为‘noindex’”时，它报告的是一个看似矛盾的情况：

该网站通过站点地图中的条目请求Google索引该页面；
该页面通过noindex指令向Google发送了不索引该页面的信号。

说明页面阻止了Google对其进行索引，但SEO人员却无法在代码层面观察到这种情况。

提问者在Bluesky上发帖（译）：

“过去 4 个月以来，网站一直出现 noindex 错误（在 ‘robots’ 元标签中），该错误始终无法从 Search Console 中消失。网站和 robots.txt 文件中均未包含 noindex 指令。我们已经对此进行过调查……是什么原因导致了此错误？”

Google的John Mueller回复道（译）：

“我过去遇到的情况是，页面确实存在 noindex 指令，只是有时仅对 Google 显示（这种情况仍然很难调试）。也就是说，您可以随时私信我一些示例 URL。”穆勒并未详细说明具体原因，但有一些方法可以排查此问题，找出症结所在。

如何排查“Phantom Noindex”错误

可能是某些代码导致Noindex仅对Google 显示。例如某个页面可能曾经设置过Noindex，而服务器端缓存（例如缓存插件）或CDN（例如Cloudflare）缓存了当时的HTTP标头，这反过来会导致旧的Noindex标头显示给Googlebot（因为它经常访问该网站），同时向网站所有者提供新版本。

检查HTTP标头也很简单，有很多HTTP标头检查工具，例如KeyCDN或SecurityHeaders.com。

另外，520服务器标头响应代码是Cloudflare在阻止用户代理时发送的。

520服务器标头响应代码

以下是Cloudflare生成的200服务器响应代码的屏幕截图：

200服务器响应代码

当使用两个不同的标头检查器检查了同一个URL，其中一个标头检查器返回了520（已阻止）服务器响应代码，而另一个标头检查器则发送了200（正常）响应代码。表明Cloudflare对标头检查器之类的工具的响应可能存在差异。理想情况下，应该尝试使用多个标头检查器进行检查，看看Cloudflare是否始终返回520响应。

如果某个网页仅向Google显示了某些内容，而其他人无法通过查看代码来获取，那么我们需要做的就是让Google使用实际的爬虫程序，并从Google的IP地址抓取该网页。方法是将URL添加到Google的富媒体搜索结果测试中。

Google会派出一个爬虫程序，该程序会使用Google的IP地址进行抓取。如果服务器（或CDN）上存在noindex标记的内容，该程序就能捕获到。除了结构化数据外，富媒体搜索结果测试还会提供HTTP响应以及网页快照，准确显示服务器向Google展示的内容。

当使用Google富媒体搜索结果测试程序运行URL时，请求会源自Google数据中心，爬虫程序使用真实Google IP地址；或通过反向DNS检查，如果服务器、安全插件或CDN检查IP地址，它将解析回googlebot.com或google.com。

如果页面被noindex标记阻止，该工具将无法提供任何结构化数据结果。会显示“页面不符合条件”或“抓取失败”的状态。如果看到此状态请点击“查看详情”链接或展开错误信息部分，应该显示类似“Robots 元标签：noindex”或“在‘robots’元标签中检测到‘noindex’”的信息。