当前位置:首页 > 网络科技 > robots.txt如何只允许GPTBot抓取首页

robots.txt如何只允许GPTBot抓取首页

1年前 (2024-08-25)admin网络科技57

最近子凡我发现我们的泪雪网被 GPTBot 大量的抓取,GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫,所有本着不想自己网站做别人的嫁衣,所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站,庆幸的是 OpenAI 遵守 robots 规则。

首先需要知道的是 GPTBot 爬虫的用户代理是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

当然也为了让 OpenAI 认识和了解我们网站,所有子凡觉得对其开放网站首页和关于我们页面是有必要的,所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面,可以在 robots.txt 文件中使用以下规则:

1
2
3
4
User-agent: GPTBot
Disallow: /    # 禁止搜索引擎访问整个网站
Allow: /$      # 允许搜索引擎访问首页
Allow: /about  # 允许搜索引擎访问关于页面

这些规则告诉 GPTBot 爬虫代理(User-agent: GPTBot)禁止访问整个网站(Disallow: /),但允许访问网站的根目录或首页(Allow: /$)。这确保了搜索引擎只能抓取你的首页而不是整个网站。

需要注意的是,robots.txt 文件只是一个建议,而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令,但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外,robots.txt 只能用于指导搜索引擎和合法的网络爬虫,对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护,建议使用其他安全措施,如身份验证和访问控制。

w.haolusi.com

本文链接:https://w.haolusi.com/gptbot-robots-txt-allow-homepage.html

扫描二维码推送至手机访问。

版权声明:本文由豪鲁斯兴趣网发布,如需转载请注明出处。

本文链接:https://w.haolusi.com/?id=1496

标签: OpenAI
分享给朋友:

“robots.txt如何只允许GPTBot抓取首页” 的相关文章

尽早觉醒:找到自己一人能做的互联网生意

尽早觉醒:找到自己一人能做的互联网生意

没有经历过裁员的职场是不完美的。无论何种原因经历次裁员,可能对心智都是一次提升,前面也写过技术人怎么利用空窗期的文章技术人的空窗期,你的涅槃重生。经历过裁员的时候难免感到复杂和沉重。离开的背后,不仅有情感的波动,还有对未来的深深焦虑。当你被通知离职的那一刻,情绪复杂得难以描述。但是,当冷静下来,你会...

WordPress标签实现追加自定义链接

WordPress标签实现追加自定义链接

WordPress 标签的用处说多不多,说少不少,其中利用 WordPress 标签做聚合页面优化是一种搜索引擎很喜欢的方式,或者说很多搜索引擎相比正文页面而言更喜欢抓取和收录标签页面,其次对于 WordPress 标签的作用就是用于文章关键词调用以及文章内链。那么今天子凡我我将利用几行代码来实现给...

WordPress如何移除登录界面中英文语言切换框

WordPress如何移除登录界面中英文语言切换框

其实早在 WordPress 5.9 版本开始,WordPress 默认登录界面就增加了语言切换选项, 其目的就是允许用户自己选择要使用的语言登录后台。这个功能对于多语言网站或是国际性站点可能还有点用,但是对于国内用户来说就显得有些多余。最近子凡在做更深度的 WordPress 优化,同时也为了丰富...

MYSQL字符集有哪些

MYSQL字符集有哪些

MySQL 中的字符集是用来确定数据库中字符数据的编码方式,它决定了如何存储和检索数据。MySQL 中常用的字符集:UTF8:UTF-8 是一种 Unicode 字符编码方式,它可以表示世界上大部分的文字字符。MySQL 中的 UTF8 字符集最多只能存储 3 字节的 UTF-8 编码字符,...

最新可用!2024年Google谷歌镜像,Google学术镜像站(8月更新)

最新可用!2024年Google谷歌镜像,Google学术镜像站(8月更新)

本篇文章目录|Table of Contents Hide Google谷歌镜像-直接访问谷歌搜索01.Google谷歌搜索最新镜像入口02.Go...

MySQL如何选择utf8mb4_general_ci和utf8mb4_0900_ai_ci字符集排序规则

MySQL如何选择utf8mb4_general_ci和utf8mb4_0900_ai_ci字符集排序规则

最近在做一些关于新项目的规划和测试,那么既然是要做新的项目当然首先要考虑的就是最新的技术标准,也把开发环境都统一升级了一遍,而在做 MySQL 数据库创建的时候就发现了一个小小的变化,本着对技术的执着那么就不得不来一探究竟。正式生产环境本着稳定高于一切的宗旨,所以也就不太可能做到数据库方面的升级保持...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。