首页 > 科技 >

非法爬取简历、网贷、淘宝记录……还有啥信息他们不扒不卖?

2019-08-08 21:23:52 暂无 阅读:1028 评论:0
非法爬取简历、网贷、淘宝记录……还有啥信息他们不扒不卖?

二手生意..上不少商家出售所谓“大数据”信息采集办事,号称“专业爬虫”。

非法爬取简历、网贷、淘宝记录……还有啥信息他们不扒不卖?

二手生意..上一卖家自称“专业熟手”,可代写各类爬虫软件。

非法爬取简历、网贷、淘宝记录……还有啥信息他们不扒不卖?

简历采集器设有城市、..岗位、性别、岁数和发布时间等筛选前提。 网站截图

“全国各省市三百多行业数据信息采集”、“python爬虫法式数据采集代写软件,专业熟手,定制化办事”……在某二手生意..上,有不少供应所谓“大数据”采集信息定制买卖的商家,声称可进行“专业爬虫”、“各大网站数据采集、数据处理、数据剖析”。还有不少商家在QQ群里出售雇用网站简历采集器,可“无限量”导数据还帮助介绍“客户”。

南都记者查询发现,所谓大数据采集定制买卖“火爆”的背后,隐藏着一条不法爬取用户数据信息的黑色财富链——“专业熟手”编写爬虫软件、供应软件定礼服务、黑产团伙购置软件批量生成“大数据”信息再转手出售。业内专家指出,爬取数据信息存在司法风险,未经..授权的不法爬取行为或者组成侵权、违法甚至犯罪过为。

网贷、..信息、淘宝记录 ……各行业数据定制可查

以“大数据信息采集”、“数据爬取”、“数据爬虫”等为要害词在某二手生意..长进行搜刮,有好多供应所谓“大数据”采集信息办事的卖家。他们平日打着“数据爬虫”、“数据采集”、“数据剖析”的招牌,声称可进行“专业爬虫”、爬取各大网站的数据信息,“只有你想要的,没有我们做不到的”。

“全国各省市三百多行业数据信息采集”,二手..上一名卖家称,能够爬取的数据信息局限笼盖美容美发、餐饮美食、娱乐休闲、教育..、亲子护理、各类学校、医疗保健、物流快递、建材装修、汽车数码等多个行业,“49元/市/行业”,“拍下后留下邮箱,采集数据当晚11点前发”。

那么,这些被爬取的“大数据”信息都包罗哪些内容?该二手..上一位卖家敷陈南都记者,爬取的信息包罗各类网页数据、公家号网站、赶集58、链家、饿了么等网站..的用户小我信息,还有卖家称可爬取淘宝买家、商家信息、小我网贷最新一手实时申请数据等。

南都记者认识到,凭据采集数据的难易水平,售价也不尽沟通。前述商家称数据采集“根基版的100,通俗版的200,高级版的300,如需建造客户端软件,费用另加”。生意..数据显露,该商品近期已被浏览跨越3000次,有多名网友在该商品下方留言,扣问是否有唯品会、拼多多买家、58同城应聘者德律、小区业主等信息数据,卖家则复原能够供应,还稀奇提到“简历420万份,首要是中高端用户”,并称具体买卖“私聊”。

南都记者发现,这些所谓供应“大数据”信息采集办事的卖家有的是小我、有的则是团队化把持的工作室,有卖家称这类数据采集内行业内买卖需求量大,是“微商线上微信社群..必备数据资料”,可用于精准推广、拓展客户和商品..。

雇用网站上万份简历被打包出售,每份仅1.5元

不久前,智联雇用“内鬼”私卖16万份简历信息一案激发存眷,南都记者近日查询发现,被泄露的小我简历被多层转手出售,“暗盘”上海量简历被打包出售,每份仅1.5元。以“简历售卖”、“简历下载”为要害词在QQ群中搜刮,就能找到多个出售58同城、智联雇用等知名雇用网站的简历信息的QQ群,最大的群人数有上千人。而在贴吧、二手生意..上,有不少公开出售智联雇用、58同城、BOSS直聘等雇用网站上小我简历的帖子。

“全国58简历日产5000+,能够筛选岁数筛选反复,还有纯二手简历,可出视频验证,二手0.3元/条”,在一个名叫“58简历全邦交流群”中,南都记者看到,群内络续有人发布出售知名雇用网站简历实时一手、二手信息的帖子,有的卖家还在群内交流交换资源。群内信息显露,该群群成员总计跨越2000人,岑岭期的在耳目数跨越700人。

南都记者随机添加一名卖家为QQ石友,对方称他有全国各行业各区域的简历信息,“所有简历信息都是当天实时更新”,还能够指定求职者岁数、性别、区域,售价2.2元/条,而二手的则更廉价,仅售0.3元/条。某二手生意..上一卖家称他手上有上万份简历,“58同城、智联雇用、赶集网的都有”,每份简历售价1.5元,“全国随机,不指定区域”,购置量大价钱还能够再优惠。

南都记者认识到,这些公开售卖、明码标价的小我信息,凭据地区、行业类其余分歧,简历的价钱尺度也纷歧样。二手..上一名出售智联雇用简历的卖家敷陈南都记者,“北上广都对照贵”、“北京区域每份简历要卖六七块”。而除出售简历信息外,企业账号也能够被当成商品出售或转卖,有卖家敷陈记者,购置企业账号能够直接下载雇用网站求职者送达的简历信息,“区域行业你说了算”。

当记者扣问购置简历的人拿这些小我信息去做什么,卖家提高了小心,复原称“不管你拿去干什么”,还不耐性地透露“不消跟我说这个”,随后便把记者拉进了黑名单。

裁判文书网、知网数据也被爬最低0.1元/条

南都记者注重到,除爬取各行业网站等用户消费、浏览数据外,中国裁判文书网判决文书也被当成商品显现在二手生意..,有卖家称可经由数据爬虫手艺,导出几百万甚至上万万条裁判文书网判决文书。

“裁判文书爬取,可历久供应更新全量数据,需要的私聊”,“裁判文书网6500万数据,0.1元/条,低于100万的数据,0.2元/条,低于1万的数据,0.5元/条,低于10条的数据,查询成本太高,不供应,有需要能够详聊”……某二手生意..上,不少卖家称有海量裁判文书网判决书出售。

有卖家敷陈南都记者,此类判决书能够凭据客户需要的前提检索爬取,只要给出案件类型、审判法式、案由等要害词,就能够按类别进行海量数据导出,最终交付形式是Word或许Excel花样,供应SQL文件(数据库剧本文件)。

此前,有不罕用户反映裁判文书网网站运行速度慢,故障频仍,经常显现页面无法显露的问题,本年2月,最高人民法院在其官网回答称,显现此问题的原因在于有大量手艺公司经由爬虫系统无限制并发接见不法获取裁判文书数据,造成网站负荷过大。针对此问题,最高法透露自2018年7月起以验证码的体式上线系统软件防爬功能。

而除了裁判文书网,南都记者发现,一些付费网站的数据也同样能被爬取,二手..上有不少卖家出售知网、万方、常识库;维普等文献期刊数据,“全库数据爬虫抓取,2元起”。

配景

不法爬取“大数据” 已呈公司化运营

客岁8月,南都结合阿里平安部发布的《2018收集黑灰产治理研究申报》显露,2017年我国收集平安财富规模为450多亿元,而黑灰产已达近千亿元规模。在收集黑灰产的整条财富链中,行使各类手段爬取、窃取或许经由生意的体式获得小我信息,成为黑灰产获利的首要体式,由此滋长出的电信诈骗、欺诈勒索等粗俗违法犯罪过为,对公民小我信息平安、产业平安造成严重威胁,成为侵蚀互联网经济正常运转的毒瘤。

本年4月,北京警方破获的巧达科技不法获取较量机信息系统数据案激发存眷。这个号称中国最大的简历大数据公司,专业供应雇用对象软件和大数据剖析办事,拥有一系列的人力资源类大数据产物,包罗乔大招、妙招网及爱伙伴等,还曾获得天使轮、A轮和B轮融资,资方包罗李开复的立异工场、中信财富基金等。

据警方流露,2018年10月,某互联网公司报案称,其公司员工发现有人在互联网上兜销疑似为该公司用户信息的数据。经由对该公司办事器日志进行调取、梳理、剖析,初步还原了数据被窃取的全过程。巧达科技公司在未经授权的情形下,经由行使大量代理IP地址、伪造设备标识等手艺手段,绕过该公司办事器防护策略,大量恶意窃取存放在办事器上的用户数据。且在窃取过程中,因为传输数据量过大,导致办事器数十次休止办事,影响上万万用户正常接见,给该公司带来了严重的经济损失。

律师说法

未经..授权爬取数据信息 或组成侵权、违法甚至犯罪

在对上述所谓“大数据”软件供应信息采集办事的现象进行查询中,南都记者注重到,有卖家在其买卖介绍中自证清白称“违法乱纪的不做”,所供应的软件外包和数据爬取等买卖只爬取各类网页、App公开的“看得见”的数据。

那么,按照大数据采集商的概念,若是爬取的是网页等公开数据,这种行为就真的合理合规?

事实上,不法获取数据存在诸多司法风险,固然行使爬虫软件等各类手艺手段爬取互联网数据的行为普遍存在,但为珍爱自身数据不被爬取,好多企业也都设置了反爬虫策略。当收集爬虫不法抓取数据信息时,或者组成的侵权、违法甚至犯罪过为首要包罗风险较量机信息系统平安类、不法获取公民小我信息类和入侵常识产权类等。

近年来,企业之间经由数据爬取激发的对于数据权益争夺的各类案件不足为奇。好比,新浪诉脉脉抓取新浪微博用户信息案、淘宝诉美景不合法竞争案等,对于不法爬取企业数据的行为,司法也更倾向于珍爱企业经营者的权力。

《收集平安法》第27条划定,任何小我和组织不得从事“窃取收集数据”等风险收集平安的运动,不得供应专门用于从事侵入收集、干扰收集正常功能及防护办法、窃取收集数据等风险收集平安运动的法式、对象。

述绍兴警方破获的这起大规模数据窃取案件中,上市黑产公司在运营商办事器内放置恶意法式清洗流量,导致30亿条用户数据被窃取。近日,公司法定代表人周某某等7人因涉嫌不法获取较量机信息系统数据罪,被审查机关提起公诉。

针对裁判文书网数据被爬虫售卖一事,北京市社会组织司法调整中心副理事长张新年律师认为,裁判文书网站上的内容基于司法公开目的,是免费的民众资源,未经最高人民法院授权,商家售卖裁判文书网数据则会组成侵权。

大数据爬虫背后 谁在供应手艺支撑?

网售大数据采集定制买卖如斯“火爆”,这些所谓的“大数据”信息从何而来?又是若何被泄露出去的?南都记者查询发现,这背后隐藏着一条不法爬取用户数据的黑色财富链——“专业熟手”编写爬虫软件、供应软件订礼服务、黑产团伙购置软件批量生成“大数据”信息再转手出售。

“专业熟手”代写爬虫软件

所谓爬虫,是一种常见的数据捕捉手艺,又被称为网页蜘蛛,收集机械人,其按照必然的划定,主动从互联网上提取收集信息的法式或剧本。固然行使爬虫软件等各类手艺手段爬取互联网数据的行为普遍存在,但为珍爱自身数据不被爬取,好多企业也都设置了反爬虫策略。

“python爬虫法式数据采集代写软件,专业熟手,定制化办事”,二手..上一位卖家介绍,其供应各类大数据采集软件代写订礼服务,可进行“各类加密网站破解登录”,采集数据局限包罗携程春秋航空等旅行网、美团天猫京东拼多多、微博知乎豆瓣等电商社交..。该卖家称,他们是“一批精晓软件斥地的编程高手构成”的软件斥地团队。..信息显露,该卖家近期已完成多笔生意,用户反馈“好评如潮”。

“收集数据订制 云端代采集 京东淘宝 车主 金融等所有行业信息采集,拍下发软件”,二手..上另一名卖家向南都记者介绍了一款名叫“智能云”的软件,售价980元,称该可采集的数据信息笼盖地图商家、搜刮引擎、企业信息、车主信息等全网大数据,软件有导入微信通信录、QQ群成员提取、微信群发、微信..、QQ..、论坛..等多个功能界面。卖家介绍称,该软件可用来为各行业进行大数据引流、精准..。

简历采集器700元/套“无限”导

除供应信息定礼服务外,南都记者查询发现,网上还有商家出售所谓简历信息采集器,可主动爬取知名雇用网站上的海量小我简历信息。在QQ群“58赶集简历采集”中,QQ网友“无名”称简历采集器可“无限量”导出58同城求职者的小我简历信息,“全网实时同步”,“名字、德律、需要的工作、家庭地址都有,..全职都有”。

该卖家敷陈南都记者,他用这个软件从雇用网站导出小我简历信息,然后在网上售卖,“一手1.5元,二手0.3元”,还向记者打包票软件“能..”、“好用”,并透露若是买了这个软件,他还可帮助介绍“客户”。

南都记者注重到,商家出售的上述简历信息采集器首要是针对58同城,“赶集网和智联雇用对照少”。那么,这类简历信息采集器是若何批量爬取雇用网站的用户小我简历呢?有业内专家就此剖析过58简历信息采集器的“窃取手法”:

黑产团伙行使58同城在移动端的一个接口批量获取用户的简历ID以及加密不严谨的用户ID信息,再经由另一个接口导致用户包罗姓名等真实信息泄露,最后经由58的微店法式可以经由用户ID最终获取用户的德律号码。

一名出售58简历信息采集器的QQ网友“大神-售58简历采集器”向南都记者透露,他的软件可实时导出58同城、赶集网简历数据,采用的是“双接口”和爬虫手艺,软件安装在PC端后,设置好前提便可进行实时数据导出,“上手快好把持”,售价为700元/月。凭据卖家发来的视频截图,这种简历采集器设有城市、..岗位、性别、岁数和发布时间等筛选前提,采集到的数据包罗姓名、手机号码、学历信息、工作年限、等候月薪等小我信息。

“爬虫”

一种常见的数据捕捉手艺,又被称为网页蜘蛛、收集机械人,其按照必然的划定,主动从互联网上提取收集信息的法式或剧本。

采写:南都记者 王琦

相关文章