如需完整Word文档,请关注“十点数据
”公众号获取。
一、概述
1.现状
最近SaaS平台、APP等产品,总是采集的数据中存在各种各样的问题,如标题解析成JavaScript代码,或者包含一段无用的字符、或者出现一个乱码字符串等等。
先前的那套监控机制的弊病似乎越来越大,已无法满足数据监控的需求。
随着现在的数据类型、定制的采集脚本、涉及到的人员等不断增多,采集难度的不断加大,各种各样的问题频繁出现。
为了制定一套真正能够实时监控数据质量,并能够快速定位问题,同时能够及时反馈,快速迭代采集器或脚本的体系,在原有分散监控的基础上,在数据推送接口处再次添加一层集中监控。
2.优缺点
分散监控是指:各采集器或脚本自行监控数据的质量。但是有时由于任务急,或者为了省事,其实根本没有添加监控模块。
集中监控是指:在kafka统一推送接口处对数据质量、排重等进行处理;
1)分散监控的优缺点:
(1)优点
① 能够减轻统一推送接口处压力,缩短数据入kafka的时间;
② 减少接口出现异常的频率;
(2)缺点
① 相关人员可能修改监控指标,导致混乱,无法达到数据质量监控效果,无法定位问题;
② 可能由于任务紧急、或者为了省事,根本没有添加监控和排重机制,导致大量的数据重复和劣质数据,影响ES性能,同时严重影响产品的用户体验。
③ 浪费资源。由于每个采集器或定制脚本均需考虑监控问题,无形中增加了许多重复工作,增加了人力成本;
④ 产品迭代较慢。懒惰是人的本性,没有流程、机制的督促,绝大部分人都会用最省事的方法来处理问题。甚至认为这就是一个小问题,无关紧要,拖着拖着就忘了。
2)集中监控的优缺点:
(1)优点
① 减少人力等资源浪费;
② 统一规范监控机制;
③ 异常问题前置,提高产品的用户体验;
④ 降低人为风险。
⑤ 依据监控结果,通过流程和指定,督促相关人员不断迭代产品。
⑥ 对管理者来说,能够实时了解各部分采集中存在的问题,能够从全局思考,优化采集策略等。
⑦ 能够根据监控结果,一定程度上为管理者提供绩效考核的依据。
(2)缺点
① 增加了统一接口逻辑处理复杂度,增加了异常的概率;
② 降低了数据处理的速度。综合考虑,在可接受范围内,或满足需求时,可暂不考虑。