当前位置:首页 > 网络科技 > 百度小程序抓取蜘蛛 UA 识别与判断

百度小程序抓取蜘蛛 UA 识别与判断

12个月前 (08-31)admin网络科技46

昨天看到百度官方公开了识别百度蜘蛛的最新信息,并且第一次官方渠道表示百度蜘蛛 UA(user agent)目前分为 PC、移动、小程序三个应用场景,相比以往的 PC 端和移动端,这次也新到了针对百度智能小程序的 UA,因为百度小程序支持 web,所以就需要百度蜘蛛的抓取。

1
2
3
4
//百度蜘蛛移动 UA
Mozilla/5.0(Linux;u;Android 4.2.2;zh-cn;) AppleWebKit/534.46 (KHTML,like Gecko)Version/5.1 Mobile Safari/10600.6.3 (compatible; Baiduspider/2.0;+http://www.baidu.com/search/spider.html)
//或
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;+http://www.baidu.com/search/spider.html)
1
2
3
4
//百度蜘蛛 PC UA
Mozilla/5.0(compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)
或
Mozilla/5.0(compatible; Baiduspider-render/2.0; +http://www.baidu.com/search/spider.html)
1
2
//百度蜘蛛小程序 UA
Mozilla/5.0 (iPhone;CPU iPhone OS 9_1 like Mac OS X) AppleWebKit/601.1.46 (KHTML, like Gecko)Version/9.0 Mobile/13B143 Safari/601.1 (compatible; Baiduspider-render/2.0;Smartapp; +http://www.baidu.com/search/spider.html)

如何真确的识别百度蜘蛛呢?

由于搜索引擎蜘蛛 UA 是可以被仿造和修改的,所以想要真确的识别百度蜘蛛需要通过反查 IP 来查询来源的主机名判断,最近子凡也在开发关于搜索引擎 IP 查询工具(https://ip.leiue.com),一方面是收集整理搜索引擎蜘蛛,一方面也是另做他用,后期完善后可能会提供开放 api,以此来给达一些网站运营或者开发者提高效率。

站长可以通过 DNS 反查 IP 的方式判断某只 spider 是否来自百度搜索引擎。Baiduspider 的 hostname 以*.baidu.com 或*.baidu.jp 的格式命名,非*.baidu.com 或*.baidu.jp 即为冒充。

w.haolusi.com

本文链接:https://w.haolusi.com/baidu-smartapp-ua.html

扫描二维码推送至手机访问。

版权声明:本文由豪鲁斯兴趣网发布,如需转载请注明出处。

本文链接:https://w.haolusi.com/?id=2264

分享给朋友:

“百度小程序抓取蜘蛛 UA 识别与判断” 的相关文章

Machine Learning: Transforming Data into Intelligence

Machine Learning: Transforming Data into Intelligence

Machine Learning (ML) is a transformative technology that leverages algorithms and statistical models to enable computers to learn from and make...

断舍离极简生活:本地闲置群,一个比闲鱼更高效的出闲置渠道

断舍离极简生活:本地闲置群,一个比闲鱼更高效的出闲置渠道

虽然我自称为“卖闲置小能手”,但事实上,还是有一些闲置,对我来说很难出手。比如,材质特殊的罐子、花瓶等物。本身的价值可能也就几十块,卖二手折价后就更低了,寄快递吧,除了顺丰大多数快递都没法邮寄。而顺丰价格又太贵,有时候邮费比东西本身还贵。直接扔了?九新的东西,属实有点可惜。有天去面包店购物,店员告诉...

尽早觉醒:找到自己一人能做的互联网生意

尽早觉醒:找到自己一人能做的互联网生意

没有经历过裁员的职场是不完美的。无论何种原因经历次裁员,可能对心智都是一次提升,前面也写过技术人怎么利用空窗期的文章技术人的空窗期,你的涅槃重生。经历过裁员的时候难免感到复杂和沉重。离开的背后,不仅有情感的波动,还有对未来的深深焦虑。当你被通知离职的那一刻,情绪复杂得难以描述。但是,当冷静下来,你会...

告别焦虑,技术人的“慢功夫”哲学

告别焦虑,技术人的“慢功夫”哲学

我们现在处一个快节奏的时代,每一个行业都在高速发展,我们也常常被告知要抓住每一个机会,快速成长,迅速成功。但对许多技术人来说,所谓的“快”,有时反而会让我们失去平衡,陷入焦虑和迷茫, 常常又进入事倍功半的困境。之前遇到过一位刚入行不久的年轻技术人,他一脸焦虑地问我:“如果我现在不快点提高,是不是以后...

WordPress如何移除登录界面中英文语言切换框

WordPress如何移除登录界面中英文语言切换框

其实早在 WordPress 5.9 版本开始,WordPress 默认登录界面就增加了语言切换选项, 其目的就是允许用户自己选择要使用的语言登录后台。这个功能对于多语言网站或是国际性站点可能还有点用,但是对于国内用户来说就显得有些多余。最近子凡在做更深度的 WordPress 优化,同时也为了丰富...

MYSQL字符集有哪些

MYSQL字符集有哪些

MySQL 中的字符集是用来确定数据库中字符数据的编码方式,它决定了如何存储和检索数据。MySQL 中常用的字符集:UTF8:UTF-8 是一种 Unicode 字符编码方式,它可以表示世界上大部分的文字字符。MySQL 中的 UTF8 字符集最多只能存储 3 字节的 UTF-8 编码字符,...

发表评论

访客

◎欢迎参与讨论,请在这里发表您的看法和观点。