今年9月以来,多家知名公司相关人员被抓或被调查,这些机构均涉及大数据风控业务和爬虫技术的应用。据悉,这波针对爬虫业务的强监管由打击“套路贷”牵扯出,爬虫被发现是导流获客和暴力催收两个帮凶的主要工具,为这些“套路贷”平台爬取通讯录、地址定位等个人敏感信息,从而引发了恶性事件及行业整顿。
今年以来,大数据风控行业颇不平静,9月份以来,杭州的魔蝎科技和公信宝运营公司、杭州存信数据科技有限公司以及贷款超市“信用管家”、上市互金公司51信用卡先后被警方调查。此外,还有多家大数据风控公司人士“协助调查”,涉及同盾科技等多家机构。一时风声鹤唳,大数据行业的从业者人人自危,多家大数据公司表态暂停爬虫业务。
网络爬虫,是一种按照一定规则,自动抓取互联网信息的程序与技术。如果通过爬虫抓取网络公开信息,并不违法;但如果抓取的是未公开、未授权的个人敏感信息,就属于违法行为。在爬虫技术抓取的信息中,比较受欢迎的都是覆盖度高、标准化较强的通用类数据,比如身份验证、逾期黑名单信息等,一般是通过爬取淘宝、社交网络、网上银行等获取数据,而上述信息通常是不公开的。
对于互联网行业而言,判断爬虫行为合法性, robot协议不可或缺。robot协议是互联网搜索引擎与网页持有者之间达成的“行业规范”,该协议会告知网站的“访问权限”,如果设置了robot协议,大数据公司还要突破访问权限,那么就具有明显的主观恶性。互联网行业里谷歌、百度、搜狗、ebay等,均设有该协议。
聚信立成立于2013年7月,是国内“最早”专注大数据智能解决方案的服务商,其官网数据显示,合作机构3300+,覆盖人群14亿+,用户总量1.5亿+,日均查询220万+,总查询10亿+,黑名单库1200万+。据悉,只需在聚信立输入用户的手机号码和服务码,就可自动爬取用户的通话记录数据,形成“个人用户报告”,包括通话号码、次数、时长等。而对于放贷机构来说,借款人的通讯信息是日后向借款人及其家人朋友催收的“杀手锏”。
有业内人士认为,此次整顿风暴既因违法使用爬虫的行为,也有给现金贷“断粮”的意味。目前,现金贷公司往往充斥着各种马甲,发展较大的容易被监管,但一些小而散的现金贷,因为总量过大,产生的社会危害同样不小,监管却无从下手。小现金贷公司已演变为群体行为,通过这些大数据公司获得系统,获客、催收都依赖于爬虫机构,现金贷马甲公司只提供资金。因此,打击大数据公司,也就变相整顿了现金贷行业。
不过需要注意的是,大数据行业风波也会影响助贷行业,助贷行业有很大一块也是消费金融和现金贷,与现金贷企业的客户群,以及为其提供服务的大数据公司有重叠。归根结底,只有建立统一的标准和严格的监管体系,依法、合法使用爬虫手段,尊重且保障公民的个人隐私,大数据行业才能撕下灰色产业的标签,成为驱动社会财富快速增长的新技术。