一个爬虫工程师的成长之路_爬虫

大数据流行的今天，网络爬虫成为了获取数据的一个重要手腕。但要学习好爬虫并没有那么简单。由于学习点、学习方向等实在是太多了，而且它涉及到计算机网络、后端编程、前端开发、App 开发与逆向、网络安全、数据库、自动化运维、机器学习、数据分析等各个方向的内容，它像一张大网一样，把如今一些主流的技术栈都囊括在内。正由于设计内容的多样性，需要学习的东西也变得十分零散和杂乱。很多初学者找不到具体的学习方向。学习过程中遇到反爬、JS渲染等问题，也不知道该如何处理。基于这些年的爬虫经验，梳理了一下作为一个初学者，需要掌握的内容。

语言的选择

C语言历史悠久，Java横行当下，大多初学者可能在大学都接触过这两门语言。但他们都有缺点，C语言学习难度大，Java太复杂，效率也有点底，Python则刚刚好。所以，本文所讲内容均以Python为开发语言。

初学爬虫

一般的网站，常常不带任何反爬措施。比方某某博客站点，我们要爬全站的话就顺着列表页爬到文章页，再把文章的时间、作者、正文等信息爬下来就能够了。

那代码怎样写呢？用 Python 的 requests 等库就够了，写一个根本的逻辑，顺着把一篇篇文章的源码获取下来，解析的话用 XPath、BeautifulSoup、PyQuery 或者正则表达式，或者粗暴的字符串匹配把想要的内容抠出来，再加个文本写入存下来就完事了。

代码很简单，就几个办法调用。逻辑很简单，几个循环加存储。最后就能看到一篇篇文章就被我们存到本人的电脑里面了。如果有的童鞋说代码我也不想写，那么你就用第三方的可视化爬取工具，如某爪鱼、某裔采集器等，也能经过可视化点选的方式把数据爬下来。

如果在存储方面需要在扩展一下的话，可以结合MySQL、MongoDB、Elasticsearch、Kafka 等来完成数据的持久化。以后查询等也会方便很多。所以，在不考虑效率的情况下，一个完整没有反爬的网站用最最根本的方式就搞定了。

看到这里，你就说你学会采集了？NO，It's a long way off！

动态数据(Ajax、动态渲染)

随着互联网的开展，前端技术也在不时变化，数据的加载方式也不再是单纯的效劳端渲染了。如今你能够看到很多网站的数据，可能都是经过接口的方式传输的，或者即便不是接口那也是一些 JSON 的数据，然后经过 JavaScript 渲染所来。

这时，你要再用 requests 来爬那就不顶用了，由于 requests 爬下来的是HTML或jsp等源文件内容，和浏览器中看到的内容并不一样。真正的数据是需要经过 JavaScript 渲染，数据来源可能是 Ajax，也可能是页面里的某些 Data，也可能是一些 ifame 页面等。不过，一般情况下 Ajax 接口获取方式较多。

所以很多状况下需要分析 Ajax流，分析这些接口的调用方式，然后通过代码来模拟访问，请求相应的数据。但是有些接口带着加密参数，比方 token、sign 等等，又不好模仿，咋整呢？

一种办法就是去剖析网站的 JavaScript 逻辑，死磕代码逻辑，分析出各个参数含义，梳理出思路，再用爬虫模仿重写就行了。假如你解出来了，那么直接模仿的方式获取数据的效率会极高。当然，这就需要你会一些 JavaScript 知识了，当然有些网站加密逻辑做的太牛逼了。有时，你可能花一个星期也解不出来，最后还是放弃了。

这时候咋办呢？那我们就用一种简单粗暴的办法来获取数据，那就是直接用模拟浏览器访问的方式来爬取，比方用 Puppeteer、Pyppeteer、Selenium、Splash 等，这样爬取到的源代码，就是JavaScript 渲染以后的真正的网页代码，数据自然就好提取了。同时也就绕过分析 Ajax 等 JavaScript 逻辑的过程。这种方式就做到了可见即可爬，难度也不大。

当然，现在的网站有一些技术挺牛的，能够辨识出webdriver等驱动，看到你是用的 Selenium 等工具，直接拒绝访问或不返回数据，所以碰到这种网站，还是需要具体情况具体分析一下，找到解决的方法。

多进程、多线程、协程

上面说的模拟浏览器方法的方式挺简单的，但是就是爬虫数据的速度较慢，不适合生产环境下使用。

爬虫是 IO 密集型的任务，大多数状况下都是在等候网络的响应，如果网络响应速度慢或者网站响应慢，就一直处于等待的状态。但这个等待时间，其实是可以让 CPU 去做其他的事情。那需要如何实现呢？这时，多线程就派上用途了。

虽然说多线程有 GIL 锁，但对于爬虫来说其实影响并不大，某些场景下加上多进程、多线程，数据的爬取速度会呈指数的增长。那怎么做呢？这时threading、multiprocessing等出现了。

如果能再使用上异步协程，就更牛X了，结合使员工 aiohttp、gevent、tornado 等插件，你想搞几并发就搞几并发，但还是要控制好速度，一方面是为了避免网站封你 IP、封你账号、弹验证码、返回假数据，另一方面，也要做一个有道德的爬虫，不能把别人的网站搞瘫了。

总之，用上这几个，采集速度一定是不用担心了。

分布式布式

多线程、多进程、协程都能够加快采集的速度，但终还是单机版。要真正做到规模化，还得靠分布式来实现。分布式核心是资源共享。比方爬取队列、去重指纹等共享。现实中，小数据量的采集可以使用数据库，如MySQL、DB2、Oracle等实现，但是到规模化、大批量采集时，数据库会成为瓶颈，Redis等基于内存的NoSql数据库是个不错的选择。

如今主流的 Python 散布式爬虫还是基于 Scrapy 的，对接 Scrapy-Redis、Scrapy-Redis-BloomFilter 或者用 Scrapy-Cluster 等等，他们都是基于 Redis 来共享爬取队列的，总会多几少遇到一些内存的问题。所以一些人也思索对接到了其他的消息队列上，比方 RabbitMQ、Kafka 等等，其实效果也差不多少。

总之，想大规模、批量、高效的采集数据，分布式是必不可少的。

验证码识别

常在河边走哪有不湿鞋，爬取的网站多了，总会遇到那么几个难搞的网站，此时验证码就是其中之一。想要解决反爬，验证码首当其冲。

现在很多网站都会有各种各样的验证码了，比方最简单的图形验证码，要是验证码的文字规整的话，OCR 过一遍或者根本的模型库都能辨认，不想搞这个的话能够直接去对接个打码平台来搞，精确率还是有的。

但是现在图形验证码已经越来越少了，都在向行为验证码发展，如某验、某盾等等，国外也有很多，比方 reCaptcha 等等。一些略微简单一点的，比方滑动的，你能够找点方法辨认缺口，比方图像处置比对、深度学习辨认都是能够的。轨迹呢本人写个模仿正常人行为的，加点颤动之类的。有了轨迹之后咋模仿呢，假如你牛逼，那么能够直接去剖析验证码的 JavaScript 逻辑，把轨迹数据录入，那就能得到里面的一些加密参数，直接拿着这些参数放到表单或接口里面就能直接用了。当然也能够用模仿阅读器的方式来拖动，也能经过一定的方式拿到加密参数，或者直接用模仿阅读器的方式把登录一同做了，拿着 Cookies 来爬也行。

拖动只是一种验证码，还有文字点选、逻辑推理等，要是真不想搞，能够找打码平台来解出来再模仿，但毕竟花钱的，一些高手就会选择本人锻炼深度学习相关的模型，搜集数据、标注、锻炼，针对不同的业务锻炼不同的模型。这样有了中心技术，也不用再去花钱找打码平台了，再研讨下验证码的逻辑模仿一下，加密参数就能解出来了。不过有的验证码难得很，有的我也没搞定。

当然有些验证码可能是请求过于频繁时才会弹出来，这时换个IP什么的也就解决了。

封 IP

封 IP 也是个令人头疼的事，一般解决的办法就是使用代理。

代理很多种，市面上免费的，收费的太多太多了。但是访问速度都不是太好，这是可以买一批比较便宜的云主机作为代理服务器使用，不过就是成本高一点。如果对效率没有要求，可以把市面上免费的代理用起来，搭建一个代理池，搜集一切可用的免费代理IP，然后加一个测试器不断不时测试，测试的网址能够改成你要爬的网址。这样测试经过的普通都能直接拿来爬你的目的网站。

付费代理也是一样，很多商家提供了代理提取接口，请求一次可以获取几个代理IP，我们能够同样把它们接入到代理池里面。但这个代理也分各种套餐，什么开放代理、独享代理等等的质量和被封的几率也是不一样的，一般情况下IP还有时效。

有的商家还应用隧道技术搭了代理，这样代理的地址和端口我们是不晓得的，代理池是由他们来维护的，比方某布云，这样用起来更省心一些，但是可控性就差一些。

还有更稳定的代理，比方拨号代理、蜂窝代理等等，接入本钱会高一些，但是一定水平上也能处理一些封 IP 的问题。

不过这些背后也不简单，为啥一个好好的高匿代理就是莫明其妙爬不了，背后的一些事就不多讲了。

封账号

有些信息，只有在模仿登录的情况下才能看到，如果爬的过快，人家网站直接把你的账号封禁了，就啥都没得说了。比方爬公众号的，人家把你 WX 号封了，那就全完了。

一种处理办法当然就是放慢频率，控制下节拍。

还有种办法就是看看别的终端，比方手机页、App 页、wap 页，看看有没有能绕过登录的法子。

另外比较好的办法，那就是分流。假如你号足够多，建一个池子，比方 Cookies 池、Token 池、Sign 池反正不论什么池吧，多个账号跑出来的 Cookies、Token 都放到这个池子里面，用的时分随机从里面拿一个。假如你想保证爬取效率不变，那么 100 个账号相比 20 个账号，关于每个账号对应的 Cookies、Token 的取用频率就变成原来的了 1/5，那么被封的概率也就随之降低了。

反爬

上面说的是几种比拟主流的反爬，当然还有十分多奇葩的反爬。比方返回假数据、返回图片化数据、返回乱序数据、返回骂人的数据、返回求饶的数据，一般情况下，具体问题就需要具体分析了。

这些反爬也得当心点，之前见过一个反爬直接返回命令行 rm -rf 的也不是没有，你要是正好有个脚本模仿执行返回结果，结果就可以跑路了，哈哈哈....

JavaScript 逆向

这一步是比较有难度的。

随着前端技术的进步和网站反爬认识的加强，很多网站选择在前端上下功夫，那就是在前端对一些逻辑或代码停止加密或混杂。当然这不只仅是为了维护前端的代码不被随便盗取，更重要的是反爬。比方很多 Ajax 接口都会带着一些参数，比方 sign、token 等等，这些前文也讲过了。这种数据我们能够用前文所说的 Selenium 等方式来爬，但总归来说效率太低了，毕竟它模仿的是网页渲染的整个过程，而真实的数据可能仅仅就藏在一个小接口里。

假如我们可以把一些接口的参数真正找出其中的逻辑，用代码来模仿执行，那效率就会有成倍的提升，而且还能在一定水平上躲避上述的反爬现象。

但是.......好难好难啊。

Webpack 是一方面，前端代码都被紧缩和转码成一些 bundle 文件，一些变量的含义曾经丧失，不好复原。然后一些网站再加上一些 obfuscator 的机制，把前端代码变成你完整看不懂的东西，比方字符串拆散打乱、变量十六进制化、控制流扁平化、无限 debug、控制台禁用等等，前端的代码和逻辑曾经改头换面。有的用 WebAssembly 等技术把前端中心逻辑直接编译，那就只能渐渐抠了，固然说有些有一定的技巧，但是总归来说还是会破费很多时间。但一旦解出来了，那就万事大吉了。怎样说？就像奥赛题一样，解出来升天，解不出来 GG。

很多公司招聘爬虫工程师都会问有没有 JavaScript 逆向根底，破解过哪些网站，比方某宝、某多、某条等等，解出来某个他们需求的可能就直接录用你。每家网站的逻辑都不一样，难度也不一样。

App客户端

当然爬虫不只仅是网页爬虫了，随着互联网时期的开展，如今越来越多的公司都选择将数据放到 App 上面，以至有些公司只要 App 没有网站。所以数据只能经过 App 来爬。

咋爬呢？首当其冲的就是抓包工具了，如：Charles、Fiddler等，抓到接口之后，直接拿来模仿就行了。

假如接口有加密参数怎样办呢？一种办法你能够边爬边处置，比方 mitmproxy 直接监听接口数据。另一方面你能够走 Hook，比方上 Xposed 也能够拿到。

那爬的时分又怎样完成自动化呢？总不能拿手来戳吧。其实工具也多，安卓原生的 adb 工具也行，Appium 如今曾经是比拟主流的计划了，当然还有其他的某精灵都是能够完成的。

最后，有的时候可能真的就不想走自动化的流程，我就想把里面的一些接口逻辑抠出来，那就得搞逆向了，IDA Pro、jdax、FRIDA 等工具就派上用场了，当然这个过程和 JavaScript 逆向一样很痛苦，有时甚至得分析汇编指令。搞一个案例掉一把头发也不是不可能的。

智能化

上面的这一通，都搞熟了，祝贺你曾经超越了百分之八九十的爬虫玩家了，当然特地搞 JavaScript 逆向、App 逆向的都是站在食物链顶端的男人，这种严厉来说曾经不算爬虫范畴了，这种神我们就不算在里面了，反正我不是。

除了上面的一些技艺，在一些场所下，我们可能也需求分离一些机器学习的技术，让我们的爬虫变得更智能起来。

比方如今很多博客、新闻文章，其页面构造类似度比拟高，要提取的信息也比拟相似。

比方如何辨别一个页面是索引页还是详情页？如何提取详情页的文章链接？如何解析文章页的页面内容？这些其实都是能够经过一些算法来计算出来的。

所以，一些智能解析技术也营运而生，比方提取详情页，一位网友写的 GeneralNewsExtractor(GNE) 表现就十分好。

假设说我来了一个需求，我要爬取一万个新闻网站数据，要一个个写 XPath 吗？假如有了智能化解析技术，在一定的容错条件下，完成这个就是分分钟的事情。

总之，假如我们能把这一块也学会了，我们的爬虫技术就会如虎添翼。

运维

这块也是一个重头戏。爬虫和运维也是息息相关。

比方写完一个爬虫，怎样去快速部署到 100 台主机上跑起来。

比方怎样灵敏地监控每个爬虫的运转状态。

比方爬虫有处代码改动，如何去快速更新。

比方怎样监控一些爬虫的占用内存、耗费的 CPU 情况。

比方怎样科学地控制爬虫的定时运转、

比方爬虫呈现了问题，怎样能及时收到通知，怎样设置科学的报警机制。

这里面，部署大家各有各的办法，比方用 Ansible 当然能够。假如用 Scrapy 的话有 Scrapyd，然后配合上一些管理工具也能完成一些监控和定时任务。不过我如今用的更多是还是 Docker + Kubernetes，再加上 DevOps 一套，比方 GitHub Actions、Azure Pipelines、Jenkins 等等，快速完成分发和部署。

定时任务大家有的用 crontab，有的用 apscheduler，有的用管理工具，有的用 Kubernetes，我的话用 Kubernetes 就多一些了，定时任务也是很好完成。

至于监控的话，也有很多，一些爬虫管理工具自带了一些监控和报警功用。一些云后台也带了一些服务器监控的功能。我用的是 Kubernetes + Prometheus + Grafana，什么 CPU、内存、运转状态，了如指掌，报警机制在 Grafana 里面配一下也很便当，支持 Webhook、邮件以至某钉。

数据的存储和监控，用 Kafka、Elasticsearch 个人觉得也挺便当的，我主要用的是后者，然后再和 Grafana 配合起来，数据爬取量、爬取速度等等监控也都了如指掌。

结语

至此，爬虫的一些涵盖的学问点也就差不多了，怎样样，梳理一下，是不是计算机网络、编程根底、前端开发、后端开发、App 开发与逆向、网络平安、数据库、运维、机器学习都涵盖到了？上面总结的能够算是从爬虫小白到爬虫高手的途径了，里面每个方向其实可研讨的点十分多，每个点做精了，都会十分了不起。

爬虫常常学着学着，就成为了一名全栈工程师或者全干工程师，由于你可能真的啥都会了。但是没方法啊，都是被爬虫逼的啊，假如不是生活所困，谁愿意一身才气呢？

但是有了才气之后呢？摸摸头顶，卧槽，我的头发呢？

嗯，大家都懂的。最后最重要的，珍爱生命、珍爱每一根头发。

博主QQ

博主QQ：

博主微信

博主微信：

博主公号

博主公众号：

回到顶部

一个爬虫工程师的成长之路

语言的选择

初学爬虫

动态数据(Ajax、动态渲染)

多进程、多线程、协程

分布式布式

验证码识别

封 IP

封账号

反爬

JavaScript 逆向

App客户端

智能化

运维

结语

全部评论: 0 条

博主公众号: 博主微信:

热门文章

最新发布

最新评论