做技术的都知道爬虫,是一种用来抓取网络数据的脚本程序,那你有没有好奇过网上到底有多少爬虫程序呢?
年中的时候,我上上线了一个网盘资源分享的项目,当时出于记录用户访问记录分析喜好的需求,就记录了所有的网络请求历史。最近上后台管理系统的时候,发现有大几十万的访问记录,就好奇看了一下。结果发现,大部分是网络爬虫...
下面就来和大家一起分享一下网络上都有些什么东西吧
爬虫程序
区别爬虫程序,主要是通过UA来区分,下面说的也都是以UA来进行计算。
现在记录的UA有 96 个类型的

标准爬虫
其中明显能看出来是爬虫的有:
AmazonbotApplebotbingbotClaudeBotGooglebotMJ12BotYisouSpider
这些都是比较规范的爬虫程序,而且能看出来是几个头部互联网的搜索引擎爬虫程序。这些爬虫主要是为了收录数据,当然也是SEO的一部分,它们收录网站内容,才能提升站点曝光度,被更多人搜索到。
让我比较意外的是 ClaudeBot, 用过AI编程的人一眼就能看出来,这个是Claude Code的爬虫,不知道是来搜集数据的,还是来爬取网站代码进行学习的。
脚本程序
除了搜索引擎的爬虫程序外,还有很多脚本爬虫程序,典型的像:Python, Java, curl, crawler, okhttp, crapy之类的,一眼就能看出是爬虫程序在抓取数据。
这些程序大概率是在提取内容,然后做批量化处理。因为本身做这个网站的目的就是分享数据,所以也没有做特别的饭爬虫程序措施,这个倒是无所谓了,只要不是大批量请求,不要拖垮我服务器就OK。
恶意攻击
互联网上,恶意攻击的程序也是一抓一大把,有些程序一眼就能看出来是来搞破坏的,比如下面记录的这个。短时间内多次请求不同的接口地址,而且请求的都是配置和管理一类的明显是在扫描,如果找到这些接口了,就会尝试进行爆破,或者匹配漏洞库,针对性破解网站,然后进行勒索。

网络安全非常重要,如果是要放到公网上的,一定要特别注意尽量少暴露学习出来,否则被黑客攻破了轻则成为肉鸡、旷工。重则被勒索...
浏览器类型
除了记录UA,当时也顺便记录了系统平台类型,目前已经记录到了21个系统平台。来看看网上什么浏览器最多吧。 下面直接上排行了:
第1名:Other 第2名:Android 第3名:Windows 第4名:Mac OS X 第5名:iOS 第6名:Linux
第一名大概率是爬虫,因为爬虫程序没有注明操作系统类型,除开这个例外,安卓依然是市面上最多的平台。
然后是Windows,老大哥还是老大哥,市场占有率说明了一切。
再往后就是苹果家族了,苹果电脑和手机端的量也不少。
再之后就是Linux家族,包括什么Ubuntu,Debian, Chrome OS 等等。

整体比较符合大家一贯的对于各个系统的刻板印象:
Android就是IOS用户多
Windows市场占有率就是比苹果高
服务器选购经验
截至写文章的时候,实际访问量已经超过91万次了,我使用的是MySQL数据库。
2核4G的配置,搭配MySQL数据库,查询九十多万数据的单表记录,感觉没有压力,而且还做了聚合统计。
看来对于个人项目来说,前期不用太担心访问量和数据库压力,百万记录买个便宜的服务器是完全没问题的。
更应该考虑的是业务发展问题。
目前网站有九十多万访问量,但是大部分是爬虫程序贡献的,除去疑似爬虫和脚本的记录外,实际上线5个月,只有15万访问量,难受...
本文链接:https://kinber.cn/post/5944.html 转载需授权!
推荐本站淘宝优惠价购买喜欢的宝贝:

支付宝微信扫一扫,打赏作者吧~
