HQY

×

一行配置,让谷歌屏蔽了你整个网站

hqy hqy 发表于2026-06-02 16:06:31 浏览5 评论0

抢沙发发表评论

一个新项目,开发阶段为了防止谷歌提前收录一堆测试页面,在 robots.txt 里加了一行:

Disallow: /

意思是,禁止所有爬虫访问整个网站。

测试完了,项目上线了,流量迟迟不来。

过了好几周,我去 Google Search Console 看,发现收录是零。

翻了半天,才想起来,robots.txt 还没改回来。

图片

那一行 Disallow: /,把谷歌挡在门外整整几周。


这个坑我踩过,出海圈里踩过的人也不少。

robots.txt 是一个放在网站根目录的文本文件,爬虫来访问你的网站之前,会先看这个文件,看你允许它访问哪些页面,不允许访问哪些。

你可以把它理解成网站的「门卫」,你告诉门卫,哪些房间可以进,哪些不行。

图片

问题是,很多人要么完全不知道这个文件的存在,要么知道但配置错了,要么像我一样,测试时配了,上线忘了改。


说真的,robots.txt 这个文件本身不复杂,几行代码的事。

一个最基础的配置长这样:

User-agent: *
Disallow: /admin/
Disallow: /login/
Disallow: /api/
Allow: /
Sitemap: https://yoursite.com/sitemap.xml

User-agent: * 表示对所有爬虫生效。Disallow 是禁止访问,Allow 是允许访问。最后一行告诉搜索引擎 sitemap 在哪里。

逻辑很简单,但坑就藏在细节里。


谷歌的抓取预算是有限的,它不会无限制地爬你的每一个页面。

你不希望它把时间浪费在 /login/admin/api/cart 这些对 SEO 没有价值的页面上。这些页面不需要被收录,让谷歌爬它们是在浪费配额。

所以合理的做法是,把这些页面在 robots.txt 里禁掉,让谷歌把精力集中在真正需要收录的内容页面上。

但这里有个反向的坑,就是禁得太多。

我见过有人把整个 / 都禁了,就是我开头说的那种情况。还有人把 /zh/ 这种语言目录禁了,结果中文页面全部无法收录。

禁错了,比不禁更糟糕。


顺着这块再聊一个多语言网站的坑,这个坑很隐蔽。

假设你的网站有多语言支持,用子目录的方式,比如 /ja/ 是日语,/ko/ 是韩语。

你想禁止某个目录,比如 /people/ 页面,在 robots.txt 里写了:

Disallow: /people/

这只会禁止默认语言下的 /people/,但 /ja/people//ko/people/ 这些多语言子目录不在禁止范围内,谷歌还是会去爬。

如果你想把所有语言下的 /people/ 都禁掉,需要每种语言单独写一行:

Disallow: /people/
Disallow: /ja/people/
Disallow: /ko/people/

图片

有多少种语言就写多少行,不能偷懒用通配符。

用通配符写成 Disallow: /*/people/ 看起来省事,但容易误伤,比如你有个页面是 /tools/people-counter/,也会被这条规则覆盖到,而这个页面你其实是想被收录的。


回到最开始的问题,什么页面应该禁,什么页面不应该禁?

我的判断标准很简单,不是拿来获取流量的页面,都不应该被抓取。

应该禁的,一般是这些,/admin//login//register//api//cart//checkout//user//dashboard/。这些页面要么是后台管理,要么是用户私有数据,要么是功能性接口,对 SEO 没有价值,禁掉是对的。

不应该禁的,是你的内容页面、产品页面、博客文章、工具页面,这些是你希望谷歌收录的,千万别误禁。


现在用 Claude Code 或者其他 AI 编程工具,上线前可以直接让它帮你生成 robots.txt 文件。但要注意一点,AI 生成的文件里,域名有时候会是占位符 https://yourdomain.com/,记得改成你实际的域名,不然 sitemap 那行会指向一个不存在的地址。

上线前,我现在会做一个简单的检查。

打开 https://yoursite.com/robots.txt,确认文件存在,内容正确。然后去 Google Search Console,用「网址检查」工具,输入你的首页地址,看谷歌能不能正常抓取。如果显示「已屏蔽」,就是 robots.txt 出了问题。

就这两步,能避掉大部分坑。


robots.txt 是「门卫」,sitemap 是「导游」。

门卫告诉爬虫哪里不能去,导游告诉爬虫哪里值得去。两者配合,才能让谷歌高效地收录你的网站。

只有门卫没有导游,谷歌知道哪里不能去,但不知道哪里值得去,收录效率低。只有导游没有门卫,谷歌会把时间浪费在一堆没价值的页面上。

robots.txt 写错了,不是没有效果,是有反效果。上线前检查一遍,是最低成本的 SEO 保险。


打赏

本文链接:https://kinber.cn/post/6593.html 转载需授权!

分享到:


推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

 您阅读本篇文章共花了: 

群贤毕至

访客