爬虫工程师,如何高效的支持数据分析人员的工作?

十点数据 1年前 ⋅ 2783 阅读

01.jpg 数据分析是以统计分析方法为基础,对采集来的大量数据进行分析,并将其加以汇总、理解和消化,以提取有用信息和形成结论,最大化地开发出数据的功能,发挥数据的作用。

所以,数据采集,是科学地进行数据分析的基础。其采集数据的准确性,直接决定了数据分析输出内容的价值。

那么,数据分析中的数据采集该如何做呢?

它主要包括四部分:需求调研明确采集范围确定明确抽样方案明确数据采集方法数据清洗与抽取规则等五部分。

1、需求调研 需求分析.jpg 需求调研过程,其实就是把客户的原始需求,转换最终能够实施的基础方案。其过程中需要不断的和客户讨论、确认,同时需要讨论技术实现难易程度。如果技术无法实现、或者实现需要花费大量的人力、物力,则需要考虑折中方案,同时和客户确认是否认可。

在实际的工作中,我们会经常发现,有些需求只是售前或者商务和客户沟通确认,技术并未参与,导致最后技术上无法实现,或者实现的代价极大。 所以,一般情况下,需求的最总确认最好是技术,售前或者商务负责方案与客户之间问题的协调。

所以,只有这样在数据采集的时候才能控制好成本。只有做好周密的市场调研计划,才能够好好的做好数据采集这一个工作。

2、明确采集范围确定

数据1范围.jpg 采集范围一般包括:数据来源、采集的时间范围、采集数据的类别、所需要的数据属性等。通常来说,数据的资料一般分为一手资料和二手资料。这主要通过资料的来源而决定。什么是一手资料呢?二手资料是什么呢?一手资料就是未来某种目的采集所得的原始材料。

一般来说,采集一手资料所需要的费用比较高,但是一手的资料的准确性很高,这是因为一手资料的针对性强。二手资料是指采集的现成资料。现成资料主要就是互联网各个网站上发布的信息,以及各报刊、书籍等书写的资料,可能还有一部分是某些权威机构发布的统计数据,或者研究报告等。

3、明确抽样方案

在数据的采集中,一部分数据是可以直接采集。但是由于对成本等可控因素的考虑,及数据的采集范围的广度,很难直接获取全部数据。此时,就需要使用抽样的方法,对样本进行调查,并根据样本统计量估计总量。

4、明确数据采集方法

由于数据来源的多样,有些数据可能是我们已经采集的,这是就需要想办法按需求导出即可。有些来源,可能是需要第三方支持,这是则需求寻找资源并对其按需求进行测试,确定第三方数据商是否能够支撑需求。

有时为了控制成本,可能会考虑定制开发,在技术无法处理后,在寻求第三方数据支撑,或者是二者结合。比如微信的采集,一般情况下为了节省成本会只采集标题、时间和内容,对于阅读数在看数等未采集,这是就需要寻找第三方接口获取该部分数据。

总之,数据采集方法的确定,也是基于成本控制的要求,合理选择处理方式。

5、数据清洗与抽取规则

由于数据从互联网上采集而来,一定会出现一定概率的错误、冗余、虚假等数据。所以,在把数据提交给分析人员前,必须对数据进行清洗,同时根据一定的规则,抽检数据,以保证提交数据的准确性。

一般情况下,技术人员会和分析人员一起,先确定好一篇提取的业务关键词和过滤词,对数据进行第一次清洗。然后在对数据类型(新闻、论坛、博客、微博等)、内容的长度、内容中特殊字符等进行二次清洗。这样提交给分析人员的数据,基本上是和业务需求强相关了。

通过上面的五步骤,大家差不多了解了一次数据分析的全过程。只要每个步骤形成一定规则、步骤,就能够大大的降低分析的成本,提供工作效率。希望这些对你们的工作有所帮助。谢谢!

全部评论: 0

    我有话说: