证券简称:天融信 证券代码:002212
全天候7x24小时服务: 400-777-0777

天融信topwaf,您身边的反爬虫小能手!-wepoker官网

近年来,“网络爬虫”作为一种能快速精准地获取数据信息的基础性网络技术,得到了越来越多的青睐和应用。那么它到底是一个什么东东呢?
发布时间:2021-10-14
浏览次数:1805
分享:

近年来,“网络爬虫”作为一种能快速精准地获取数据信息的基础性网络技术,得到了越来越多的青睐和应用。那么它到底是一个什么东东呢?

网络爬虫”到底是个啥?

“网络爬虫”又称为“网页蜘蛛”,它是一种按照一定的规则,自动地抓取万维网(无数个网络站点和网页的集合)信息的程序或者脚本。

爬虫作为搜索引擎的核心部件,大多用于整合收集万维网(无数个网络站点和网页的集合)上承载的大量信息,这类爬虫会遵循网站与爬虫之间的“君子协议”-robots.txt文件,网站通过robots协议告知爬虫可抓取的页面。遵循“君子协议”且以合理频率爬取网站内容的爬虫被称为“善意爬虫。”

是“益”虫也是“害”虫!

但随着信息爆炸时代的到来,数据信息的重要性与日俱增,灰黑产业链催生出大量的不遵循“君子协议”的“恶意爬虫”。如节假日时段,抢票爬虫恶意爬取出行网站数据,进行大量抢票。

公考查分时段,爬取当地政府查分网站使考生无法正常查分,随后通过提升虚假查分网站的权值,诱使考生在本站查询分数,从而窃取考生的考试成绩信息与身份信息。

并且有大量、反复、且高频率爬取电商网站攫取他人商品数据进行不正当竞争等。这类“恶意爬虫”大多具备高频率高并发的特性,近乎于ddos攻击的请求频率会影响正常用户的访问体验甚至使服务器宕机。

网络爬虫合法性的讨论仍然存在,情况也比较复杂。目前许多问题还处于模糊地带。然而,可以肯定的是,只要有互联网,就会有网络爬虫。只有网络爬虫让体量巨大的互联网变得可以搜索,使爆炸式增长的互联网变得更加容易访问和获取,在可预见的未来,互联网爬虫技术将继续得到发展。

但是对于网站的运维人员来说,他们对爬虫来说是又爱又恨,既希望善意爬虫为自家站点增加曝光度,又不希望恶意爬虫天天过来找麻烦。故在区分人为访问和爬虫访问的基础上,进一步辨别善恶爬虫成为解决爬虫困扰的关键。

天融信waf惩“恶”除“奸”啦~

此时,一位名为天融信web应用防火墙系统(topwaf)的靓仔低调路过。对于解决恶意爬虫危害,他有何妙招呢?

首先,topwaf内置完备爬虫防护规则,同时支持自定义爬虫指纹,结合智能攻击检测引擎,可精准识别当前流行通用的爬虫核心指纹。

其次,topwaf可导入web站点的“君子协议”-robots.txt文件,快速区分正常爬虫与恶意爬虫。针对符合robots.txt的爬虫程序可任其按照网站的要求进行部分内容抓取,对于不符合协议的恶意爬虫,topwaf进行即时阻断,降低网站带宽负担,防止恶意爬虫程序导致站点系统瘫痪。

关键词标签:
天融信 topwaf 网络爬虫
在线咨询





在线留言





客户服务热线

400-777-0777
7*24小时服务

联系邮箱

servicing@topsec.com.cn

扫码关注
网站地图