当前位置:首页 > 网络科技 > 头条搜索 Bytespider 开始大规模抓取

头条搜索 Bytespider 开始大规模抓取

1年前 (2024-08-30)admin网络科技80

今日头条做搜索已经不是一天两天的事情,最近子凡开始大量的检测到关于头条搜索相关蜘蛛及服务器抓取,其抓取频率可以说是火力全开,甚至看到有些站长朋友在吐槽自己虚拟主机的网站流量月初就没有了,看了字节跳动想要一口吃个大胖子哦。

头条搜索(https://m.toutiao.com/search)目前只有移动端版本,似乎也就间接意味着头条搜索是一个移动搜索引擎,官方有时也叫做字节跳动搜索。,从以前的“Bytespider”改变为“Bytespider;[email protected]”,添加了一个邮箱,子凡在想是不是可以通过邮箱联系到官方呢?

目前通过泪雪网抓取记录获取查看到有几组头条搜索的 UA:

1
2
3
4
5
6
7
Mozilla/5.0 (Linux; Android 8.0; Pixel 2 Build/OPD3.170816.012) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/51.0.6462.1049 Mobile Safari/537.36; Bytespider;bytespider@bytedance.com
 
Mozilla/5.0 (Linux; Android 6.0; Nexus 5 Build/MRA58N) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.3320.1410 Mobile Safari/537.36; Bytespider;bytespider@bytedance.com
 
Mozilla/5.0 (Linux; Android 5.0; SM-G900P Build/LRX21T) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/47.0.1868.1341 Mobile Safari/537.36; Bytespider;bytespider@bytedance.com
 
Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.4372.1425 Mobile Safari/537.36; Bytespider;bytespider@bytedance.com

通过抓取的 UA 基本可以完整的判断都是属于移动端或者手机设备的抓取,同时为了方面查下抓取的服务器 IP 是否真实为头条搜索,还可以通过 IP 反查服务器名称,如果主机名为:bytespider-220-243-135-89.crawl.bytedance.com。那么这就是标准的头条搜索 IP 蜘蛛的服务器啦。

对于想要屏蔽头条搜索的,最简单粗暴的就是判断 UA,想要准备的就是直接通过 IP 来屏蔽,都需要通过服务器来操作,关于查询 IP 是否为真实的头条搜索蜘蛛,可以试试子凡开发的一个小工具(ip.leiue.com)。

另外,其实子凡个人认为如果站长们的服务器完全能够承受头条搜索的抓取,那么就不要去屏蔽了,虽然从目前子凡的观察来看,网站通过头条搜索的流量少得可怜,但是其头条搜索的收录和展现来看还是非常客观的,至少我们泪雪网的表现还不错,通过站长工具还能查询到我们泪雪网的头条搜索引擎有 4 了。

所以对于头条搜索就目前而言,谈不上好也谈不上坏,只是可能头条搜索的抓取来的有些猛烈而导致一些小网站无法承受,如果头条搜索也能够官方推出一个站长平台,或者是抓取频率设定的工具,相信能够得到不少小站长的亲睐,当然凭借子凡的经验分析不可否认的是搜索引擎还是比较喜欢大站,毕竟内容足够多啊,哈哈哈

w.haolusi.com

本文链接:https://w.haolusi.com/bytespider.html

扫描二维码推送至手机访问。

版权声明:本文由豪鲁斯兴趣网发布,如需转载请注明出处。

本文链接:https://w.haolusi.com/?id=2183

分享给朋友:

“头条搜索 Bytespider 开始大规模抓取” 的相关文章

告别焦虑,技术人的“慢功夫”哲学

告别焦虑,技术人的“慢功夫”哲学

我们现在处一个快节奏的时代,每一个行业都在高速发展,我们也常常被告知要抓住每一个机会,快速成长,迅速成功。但对许多技术人来说,所谓的“快”,有时反而会让我们失去平衡,陷入焦虑和迷茫, 常常又进入事倍功半的困境。之前遇到过一位刚入行不久的年轻技术人,他一脸焦虑地问我:“如果我现在不快点提高,是不是以后...

WordPress如何将管理员用户主页改为网站首页

WordPress如何将管理员用户主页改为网站首页

最近在做 WordPress 站群的一些项目测试,主题在调用作者的时候就会链接到作者主页,加上很多时候 WordPress 网站就只会使用一个账户来发布文章,虽然可以通过修改主题代码的方式将作者的链接直接链接到网站首页,但是作为一个优雅的 WordPress 开发者来说,肯定是不会轻易动主题源码的,...

最新可用!2024年最新Github镜像,更快部署下载(2024年08更新)

最新可用!2024年最新Github镜像,更快部署下载(2024年08更新)

本篇文章目录|Table of Contents Hide Github:伟大的共建社区01.GitHub 镜像可用站点02.GitHub-建设未...

MySQL如何选择utf8mb4_general_ci和utf8mb4_0900_ai_ci字符集排序规则

MySQL如何选择utf8mb4_general_ci和utf8mb4_0900_ai_ci字符集排序规则

最近在做一些关于新项目的规划和测试,那么既然是要做新的项目当然首先要考虑的就是最新的技术标准,也把开发环境都统一升级了一遍,而在做 MySQL 数据库创建的时候就发现了一个小小的变化,本着对技术的执着那么就不得不来一探究竟。正式生产环境本着稳定高于一切的宗旨,所以也就不太可能做到数据库方面的升级保持...

Timeline Migrate Tools Boxset 剪辑时间线字幕迁移工具套件|FCPX vs PR|XML vs FCPXML|SRT vs XML|macOS|测试教程 Tutorial

Timeline Migrate Tools Boxset 剪辑时间线字幕迁移工具套件|FCPX vs PR|XML vs FCPXML|SRT vs XML|macOS|测试教程 Tutorial

本篇文章目录|Table of Contents Hide Final Cut Pro X 提取音频给音频编辑X2Pro Audi...

WordPress别名slug增加点(.)符号支持

WordPress别名slug增加点(.)符号支持

熟悉 WordPress 的朋友们都知道,WordPress 在 URL 链接中的处理算得上是一刀切,所有的特殊符号及字符都是使用减号/连字符(-)来进行分隔,这其实是一种对搜索引擎非常友好的分隔方式,也是谷歌搜索引擎所推荐的连字符,其中谷歌有一句提示“不妨考虑在网址中使用连字符来分隔字...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。