近年来,“网络爬虫”作为一种能快速精准地获取数据信息的基础性网络技术,得到了越来越多的青睐和应用。那么它到底是一个什么东东呢?
“网络爬虫”到底是个啥?
“网络爬虫”又称为“网页蜘蛛”,它是一种按照一定的规则,自动地抓取万维网(无数个网络站点和网页的集合)信息的程序或者脚本。
爬虫作为搜索引擎的核心部件,大多用于整合收集万维网(无数个网络站点和网页的集合)上承载的大量信息,这类爬虫会遵循网站与爬虫之间的“君子协议”-robots.txt文件,网站通过robots协议告知爬虫可抓取的页面。遵循“君子协议”且以合理频率爬取网站内容的爬虫被称为“善意爬虫。”
是“益”虫也是“害”虫!
但随着信息爆炸时代的到来,数据信息的重要性与日俱增,灰黑产业链催生出大量的不遵循“君子协议”的“恶意爬虫”。如节假日时段,抢票爬虫恶意爬取出行网站数据,进行大量抢票。
公考查分时段,爬取当地政府查分网站使考生无法正常查分,随后通过提升虚假查分网站的权值,诱使考生在本站查询分数,从而窃取考生的考试成绩信息与身份信息。
并且有大量、反复、且高频率爬取电商网站攫取他人商品数据进行不正当竞争等。这类“恶意爬虫”大多具备高频率高并发的特性,近乎于ddos攻击的请求频率会影响正常用户的访问体验甚至使服务器宕机。
网络爬虫合法性的讨论仍然存在,情况也比较复杂。目前许多问题还处于模糊地带。然而,可以肯定的是,只要有互联网,就会有网络爬虫。只有网络爬虫让体量巨大的互联网变得可以搜索,使爆炸式增长的互联网变得更加容易访问和获取,在可预见的未来,互联网爬虫技术将继续得到发展。
但是对于网站的运维人员来说,他们对爬虫来说是又爱又恨,既希望善意爬虫为自家站点增加曝光度,又不希望恶意爬虫天天过来找麻烦。故在区分人为访问和爬虫访问的基础上,进一步辨别善恶爬虫成为解决爬虫困扰的关键。
天融信waf惩“恶”除“奸”啦~
此时,一位名为天融信web应用防火墙系统(topwaf)的靓仔低调路过。对于解决恶意爬虫危害,他有何妙招呢?
首先,topwaf内置完备爬虫防护规则,同时支持自定义爬虫指纹,结合智能攻击检测引擎,可精准识别当前流行通用的爬虫核心指纹。
其次,topwaf可导入web站点的“君子协议”-robots.txt文件,快速区分正常爬虫与恶意爬虫。针对符合robots.txt的爬虫程序可任其按照网站的要求进行部分内容抓取,对于不符合协议的恶意爬虫,topwaf进行即时阻断,降低网站带宽负担,防止恶意爬虫程序导致站点系统瘫痪。
- 关键词标签:
- 天融信 topwaf 网络爬虫