爬虫系列之数据质量监控(一)

十点数据 1年前 ⋅ 3698 阅读

如需完整Word文档,请关注“十点数据”公众号获取。

一、概述

1.现状

最近SaaS平台、APP等产品,总是采集的数据中存在各种各样的问题,如标题解析成JavaScript代码,或者包含一段无用的字符、或者出现一个乱码字符串等等。

先前的那套监控机制的弊病似乎越来越大,已无法满足数据监控的需求。

随着现在的数据类型、定制的采集脚本、涉及到的人员等不断增多,采集难度的不断加大,各种各样的问题频繁出现。

为了制定一套真正能够实时监控数据质量,并能够快速定位问题,同时能够及时反馈,快速迭代采集器或脚本的体系,在原有分散监控的基础上,在数据推送接口处再次添加一层集中监控

2.优缺点

分散监控是指:各采集器或脚本自行监控数据的质量。但是有时由于任务急,或者为了省事,其实根本没有添加监控模块。

集中监控是指:在kafka统一推送接口处对数据质量、排重等进行处理;

1)分散监控的优缺点:

(1)优点

① 能够减轻统一推送接口处压力,缩短数据入kafka的时间;

② 减少接口出现异常的频率;

(2)缺点

① 相关人员可能修改监控指标,导致混乱,无法达到数据质量监控效果,无法定位问题;

② 可能由于任务紧急、或者为了省事,根本没有添加监控和排重机制,导致大量的数据重复和劣质数据,影响ES性能,同时严重影响产品的用户体验。

③ 浪费资源。由于每个采集器或定制脚本均需考虑监控问题,无形中增加了许多重复工作,增加了人力成本;

④ 产品迭代较慢。懒惰是人的本性,没有流程、机制的督促,绝大部分人都会用最省事的方法来处理问题。甚至认为这就是一个小问题,无关紧要,拖着拖着就忘了。

2)集中监控的优缺点:

(1)优点

① 减少人力等资源浪费;

② 统一规范监控机制;

③ 异常问题前置,提高产品的用户体验;

④ 降低人为风险。

⑤ 依据监控结果,通过流程和指定,督促相关人员不断迭代产品。

⑥ 对管理者来说,能够实时了解各部分采集中存在的问题,能够从全局思考,优化采集策略等。

⑦ 能够根据监控结果,一定程度上为管理者提供绩效考核的依据。

(2)缺点

① 增加了统一接口逻辑处理复杂度,增加了异常的概率;

② 降低了数据处理的速度。综合考虑,在可接受范围内,或满足需求时,可暂不考虑。

相关阅读:

爬虫系列之数据质量监控(二):信源系统设计

数据采集中,如何建立一套行之有效的监控体系?

一套价值十万的微信公众号采集解决方案(免费送)

数据采集采集架构中各模块详细分析

基于大数据平台的互联网数据采集平台基本架构

全部评论: 0

    我有话说: