当前位置:首页 > 网络科技 > robots.txt如何只允许GPTBot抓取首页

robots.txt如何只允许GPTBot抓取首页

1年前 (2024-08-25)admin网络科技96

最近子凡我发现我们的泪雪网被 GPTBot 大量的抓取,GPTBot 是 OpenAI 为了训练 GPT 5 和更高级别模型的网络爬虫,所有本着不想自己网站做别人的嫁衣,所有我准备利用 robots.txt 文件禁止 GPTBot 抓取网站,庆幸的是 OpenAI 遵守 robots 规则。

首先需要知道的是 GPTBot 爬虫的用户代理是:Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

当然也为了让 OpenAI 认识和了解我们网站,所有子凡觉得对其开放网站首页和关于我们页面是有必要的,所有要通过 robots.txt 文件只允许搜索引擎抓取你网站的首页和关于页面,可以在 robots.txt 文件中使用以下规则:

1
2
3
4
User-agent: GPTBot
Disallow: /    # 禁止搜索引擎访问整个网站
Allow: /$      # 允许搜索引擎访问首页
Allow: /about  # 允许搜索引擎访问关于页面

这些规则告诉 GPTBot 爬虫代理(User-agent: GPTBot)禁止访问整个网站(Disallow: /),但允许访问网站的根目录或首页(Allow: /$)。这确保了搜索引擎只能抓取你的首页而不是整个网站。

需要注意的是,robots.txt 文件只是一个建议,而不是强制规则。良好的搜索引擎爬虫通常会遵守 robots.txt 文件中的指令,但并不是所有的爬虫都会遵守。一些不诚实或恶意的爬虫可能会忽略这些规则。此外,robots.txt 只能用于指导搜索引擎和合法的网络爬虫,对于恶意访问者来说并不是一个真正的安全措施。如果有敏感内容需要保护,建议使用其他安全措施,如身份验证和访问控制。

w.haolusi.com

本文链接:https://w.haolusi.com/gptbot-robots-txt-allow-homepage.html

扫描二维码推送至手机访问。

版权声明:本文由豪鲁斯兴趣网发布,如需转载请注明出处。

本文链接:https://w.haolusi.com/?id=1496

标签: OpenAI
分享给朋友:

“robots.txt如何只允许GPTBot抓取首页” 的相关文章

WordPress如何将管理员用户主页改为网站首页

WordPress如何将管理员用户主页改为网站首页

最近在做 WordPress 站群的一些项目测试,主题在调用作者的时候就会链接到作者主页,加上很多时候 WordPress 网站就只会使用一个账户来发布文章,虽然可以通过修改主题代码的方式将作者的链接直接链接到网站首页,但是作为一个优雅的 WordPress 开发者来说,肯定是不会轻易动主题源码的,...

百度正式下线“快速收录”功能,VIP可以申请“快速抓取”权限

百度正式下线“快速收录”功能,VIP可以申请“快速抓取”权限

最近可以说是站长们一片哀嚎,清明节前刚经历一次大的波动恢复没两天,让后百度又一次性的在清明节再次送走了,目前又开始缓慢的在恢复,但是似乎情况也并不是很妙。就在这时,百度搜索资源平台发布了一则“关于升级平台「快速收录」工具的通知”的公告,意思就是正式下线快速收录功能,换新上线一个叫做“快速抓取”的工具...

WordPress别名slug增加点(.)符号支持

WordPress别名slug增加点(.)符号支持

熟悉 WordPress 的朋友们都知道,WordPress 在 URL 链接中的处理算得上是一刀切,所有的特殊符号及字符都是使用减号/连字符(-)来进行分隔,这其实是一种对搜索引擎非常友好的分隔方式,也是谷歌搜索引擎所推荐的连字符,其中谷歌有一句提示“不妨考虑在网址中使用连字符来分隔字...

BOOM Library Discography|影视广播级实录拟音音效素材库|Sound FX Library|下载|Download

BOOM Library Discography|影视广播级实录拟音音效素材库|Sound FX Library|下载|Download

        本篇文章目录|Table of ContentsHideSound FX:什么是音效专业的高品质音效 – BOOM Library试听下载(百度云)精品资源整理(百度云)Boom Library 全集(125)资源整理|百度云|未压缩文件¥30...

A Brief History SEO|搜索引擎优化SEO简史|20多年的SEO起始和发展

A Brief History SEO|搜索引擎优化SEO简史|20多年的SEO起始和发展

本篇文章目录|Table of Contents Hide搜索引擎优化与搜索引擎营销搜索引擎历史时间轴SEO 的黎明:“狂野西部”时代19941996199719981999谷歌革命Google AdSense:利用糟糕的 SEO 内容获利本地搜索引擎优化和个性化YouTube、Googl...

YouTube 油管订阅人数最多的 30 名个人|2024 年第二季度|The 30 Most-Subscribed YouTube Individuals 2024 Q2

YouTube 油管订阅人数最多的 30 名个人|2024 年第二季度|The 30 Most-Subscribed YouTube Individuals 2024 Q2

本篇文章目录|Table of Contents Hide谁是订阅人数最多的 YouTuber?2024 年 6 月订阅人数最多的 30 位 YouTube 博主订阅人数最多的 12 位 YouTube 用户是谁?1.MrBeast2. Like Nastya3.PewDiePie4.Ju...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。