Python爬虫实践:如何快速、高效的爬取微信公众号阅读在看数

十点数据 1年前 ⋅ 5172 阅读

自从2013年,自媒体开始崛起。再到2014年,自媒体开始能够赚钱,自媒体逐渐成为这个时代的一个趋势性的潮流。

随着公众号平台的不断火爆,各个自媒体平台如春笋班拔地而起。自媒体的蓬勃发展,很大程度上重塑了信息传播的格局,同时也催生了庞大的市场红利,越来越多的人进入。

自媒体.jpg

对于经济发展来说,这是是好事,但对于数据采集这个垂直领域来说,并不见得!

自媒体平台的信息,几乎都是基于APP作为载体,很少有web端的网站。而且智能推荐越来越流行,我们看到的只是平台基于我们的浏览习惯,给我们推送的信息。并不是全部,这无疑又给采集又增加了一道障碍。

自媒体账号发布的信息,如果想不漏采,只有监测媒体号。平台多,采集难度大、成本高、效率低下,成为了最近数据采集的最大弊病。

微信公众号平台自从2012年上线,到2013年8月升级到了5.0版,同时调整账号类型(订阅号和服务号)以后,其发展越来越好,公众号的总量已经在3000万以上了,如何监测这些账号的发文、阅读、在看等信息呢?

今天给大家介绍四种采集的方法。

第一种:使用第三方的平台获取

第三方平台主要有:新榜、清博、拓途数据等数据服务商,其中新榜和清薄平台的[阅读数](http://www.blog2019.net/tag/%E9%98%85%E8%AF%BB%E6%95%B0?tagId=136)和[在看数](http://www.blog2019.net/tag/%E5%9C%A8%E7%9C%8B%E6%95%B0?tagId=137),更新的有一定的滞后。拓途数据的到时还可以,刚才用我自己的公众号测试了一下,差不多一两分钟吧,就把历史的信息都获取到了(我的账号发文较少,也就二十篇左右),阅读数和在看数也都对的上。

拓途数据.png

第三方平台呢,前期做了很多事情,你想使用其服务,当然是的买会员、充值了等等,不可能让你免费的。拓途数据效果虽然很好,可是加个也是挺贵的,不适合大批量监测。如果你检查的公众号比较少,又是一年半载的短期监测,不管是个人还是公司,第三方平台都是最划算的。因为自己想要搭建一套采集,其难度还是不小的,不是技术人员,还真是不行。

第二种方法:使用PC端模拟点击

如果你是个人,不想花钱买账号,自己又会一些[Python](http://www.blog2019.net/tag/Python?tagId=4),而且需要获取阅读数和在看数的数据又不多的情况下,这种方式倒是最合适的。因为这种方式主要涉及的的技术点有pymouse、[PyKeyboard](http://www.blog2019.net/tag/PyKeyboard?tagId=11)、pyperclip等,不过需要注意的是,PyKeyboard在输入汉字是有缺陷,需要转换一下,可以参考我以前的文章;

第三种:使用第三方工具;

第三方工具如八爪鱼、简数等,都有公众号的功能,具体的大家可以自己下载使用一下,具体的就不过多说明了。

第四种:基于微信公众号平台的方式;

这种方式其实是最难的,因为中间需要分析的东西很多,涉及到抓包工具的使用,数据流分析等等。其主要流程如下:

1:登录微信公众账号:。菜单栏中:素材管理—>新建素材,出现如下页面

wc1.png

点击超链接,选择其他公众号;

wc2.png

输入公众号,搜索,点击公众号,获取公众号文章列表。

wc3.png

然后点击文章,使用fiddler等工具抓包等等,

fiddler.png

然后在用代码模拟请求,获取阅读数和在看数。总之,这种方式方式是最难的,如果你是技术大牛,可以试试。

因为公众号的改版比较频繁,所以,可能你今天分析完了,明天就又不能用了,又要重新分析,周而复始。

不管是第二种,还是第四种方式,如果想获取公众号的阅读数和在看数,都只能走APP接口,由于公众号的限制越来越严,每个微信号或公众号每天只能访问8000~10000篇文章。所以,想要大批量的采集,还是需要大量的微信号才行。

数据采集从来都是道高一尺魔高一丈的对决!!

对决.jpg

今天就说到这里,改天把第二种和第四种的代码实现给处理一下

全部评论: 0

    我有话说: