《最近好多新闻说,用爬虫会被抓去坐牢,我们该怎么办?》
最近,网上出现好多新闻,说某某公司用爬虫做了 XX,然后整个公司被端了。
于是,就有人问我,明白,我学你的爬虫课抓数据,会被抓去坐牢吗?
emmmmmmmmmmm,这个,我该怎么回答你呢?
今天 Fenng 老师微博发了一个帖子,见图1。
说的是,那些被抓的人,主要是做了 2 个事情:
1 盗取用户银行账户信息
2 盗取用户支付宝账户信息
当然,还有更多案例,比如前段时间有人抓取抖音视频数据,或者通过一些网站接口,抓取用户信息。
这些如果影响网站正常运营,情节严重,会被判定有罪。
看到这里,你一定会说,「情节严重」这个词很模糊啊,那我学你的爬虫课抓数据,
到底会不会被抓?我害怕啊。
我还没有女朋友,万一被抓进去,就是一生的污点啊。
能不能给一个确定的答案?
好吧,我就来给一个确定的答案:不会被抓。
原因有 2。
1 你没有能力
嗯嗯嗯???????
说爬虫呢,为啥还人身攻击?
(1)抓数据会被抓,说明那些数据对企业来说很重要
(2)数据对企业很重要,企业就会做一些保护措施,防止别人抓取
(3)要攻破这些保护措施,需要一定的技术手段
目前被抓的一些案例,我大概都看过,里面都涉及一个词:接口。
比如:某某编写了一段代码,通过 XX 公司的数据接口,抓取了公司服务器的 XX 数据。
注意,这些数据是放在公司服务器上的,正常人通过 APP 或者网站、或者小程序,是看不到这些数据的。
比如,你正在知乎上看一个回答。
你能看到的是「内容」:文字、图片、用户头像、昵称、点赞数、评论数……等等,这些信息保存在知乎的服务器上,每个用户点击这个回答,知乎就会把这些信息,用适当的格式发送到你手机的 APP上,或者网页上。
还有一些数据,比如:用户 id,用户绑定的手机号、提现绑定的身份证号,或者还有一些企业认证的信息,这些也在知乎的服务器上,不过这些是「隐私」信息,你看不到。除了一些知乎程序员,或者有很高管理权限的人才能看到。
但是,
但是,
但是,
这些隐私信息,价值很高。
如果我知道一些关注房子信息用户的手机号,就能给他们打电话,或者加他们微信,给他们卖房子。
如果我知道一些关注打折商品用户的手机号,就能给他们打电话,或者加他们微信,给他们卖商品。
如果我知道一些……,我就能给他们贷款,……。
等等等等。
这些信息,很多人都想要。
但是正常情况下,你看不到。
有人就会想办法,比如编一些代码,通过知乎的 XX 接口,进入知乎的服务器,拿到这些隐私信息。
这就是犯罪了。
因为你拿到的信息,是知乎不愿意公开的信息。
现在的问题是,有人觉得,学了我的爬虫课,也能拿到这些信息。
我:????????????
这么说吧,要拿到这些信息,难度很大。
你需要会写代码,很牛逼那种,黑客级别的。
不是说你去培训一下 python,学一个 requests,会爬一些美女图片,就能做到这个。
打个类比:如果说爬虫是英语。
通过接口抓取隐私信息,是通过英语六级。
上面的 python,就是只会 abc 三个字母。
学我的课程,就是知道 abc 念「啊博词」。
所以,想通过爬虫被抓,是需要实力的。
要达到被抓,你需要吃的苦,
不比你学写作写出 10w+ 简单,
不比你学赚钱赚到 100w 简单,
不比你学健身练出 8 块腹肌简单。
所以,要想被抓,先刻意练习 10000 个小时编程再说。
(啊,不要觉得听了我的课,就能当黑客了啊!!!)
2 你没有「作恶」
抓别人网站数据,如果出现 2 个情况,会被网站控告。
(1)影响网站正常运营。
一个网站正常情况下,都有一个用户访问瓶颈。
比如,有一个工具类,它的宽带容量,最多只能容纳 100 个用户同时访问。(数字是假设)
如果某个时间,同一时间超过 100 个人访问,那第 101 个用户可能就会出现页面迟迟打不开,或者登陆不上。
如果你用爬虫抓数据,为了节省时间,开了很多线程,模拟 100 用户同时抓取数据。你就相当于 100 正常用户。然后其他正常的用户,就登陆不上。
这就是影响正常用户访问,进而会用户对网站的体验,可能下次用户就不来了。
这对网站来说,可能就是商业损失。
所以,网站在这种情况下,会控告这些抓数据的人。
好了,现在的问题变成:用我课程的方法,会影响网站运营吗?
答案:不会。
webscraper 是一个谷歌插件,基于浏览器抓取数据,每次只能打开一个窗口,而且默认翻页有 2 秒延迟。根据个人网络情况,还会有更多延迟。
这个和编程不一样,编程抓取数据,是在后端跑,看电脑性能。
用浏览器抓,你想快,也快不了。多开几个窗口,浏览器就卡死了。
这个插件作者开发插件的时候,就是考虑到了这个问题。
所以,用 webscraper 抓数据,不会影响网站正常运营。
(2)抓取的数据做商业用途
如果你抓取的数据,卖给其他人做非法用途,就会有风险。
比如,抓取一些用户隐私信息。
但还是上面说的,webscraper 只能抓取公开信息,而且是稍微一些反爬,它就无能为力。
这些公开信息,人人都可以看到,没有什么商业价值。
我课程里说的抓数据,目的都是为了学习 ——
或者研究高手的写作路径,写出爆文。
或者研究用户对产品的评价,找到爆品。
或者挖掘用户需求,找到创业思路。
当然,你帮别人抓一个公众号大V文章标题,别人给你发个红包,这算非法获益吗?
不算,如果算的话,新榜、西瓜数据这些都要倒闭了。
--------------------
综上,使用一些简单工具做数据抓取,不会被抓。
1 能力不够
2 不会影响网站运营
3 没有非法商业用途
