见解

观点:在大数据世界中处理数据
文章

观点:在大数据世界中处理数据

今天是星期一早上,BIGCO品牌经理卢克走进他的办公室。他问办公桌上的数字助理设备,BIGCO的Acme软饮料品牌在周末的表现如何。一秒钟后,助理回答说Acme的销售份额下降了0.5%。卢克(Luke)问起减少的原因,并得知这是由于BIGCO西部地区的问题所致。他的数字助理会向他们发送电子邮件给销售经理汤姆,并附上他们的发现摘要。

两个小时后,在加利福尼亚州,汤姆使用报告深入分析了根本原因,将销售数据与BIGCO的装运数据结合在一起。在他融合了包括市场份额,天气和计量经济学在内的第三方数据之后,似乎在长时间的好天气中未能推广Acme就是一个促成因素。 Tom能够模拟各种促销对品牌份额和利润率的影响,并制定计划。卢克(Luke)批准了该计划,他的数字助理做了记录以监视情况并报告进度。

数字助理和智能机器很酷,但是最有用的业务见解来自将内部数据与大量外部数据源(无论是销售,装运,促销,财务还是其他一百多种)相结合。数据集成使这种情况得以发挥。如果没有数据集成,那么酷技术只能做的就是无助地盯着一堆无法组装成有用东西的砖块。

数据集成的基础

数据集成依赖于在不同数据集中链接包含相同信息(例如有关状态的信息)的字段的能力。如果所有数据集都使用相同的标识符,这将很容易,但是却不容易:有些使用两位数的标识符(IL,CT),有些使用全名(伊利诺伊州,康涅狄格州),依此类推。这是一个简单的示例:通用产品代码(UPC)标识了 类型 产品(例如10盎司的BIGCO的Acme汽水罐),可以用于销售点和库存。可以使用电子产品代码来识别单个物品-因此每个人都可以(可能像人一样,每瓶香槟’如果对汽水罐追踪非常感兴趣)可以使用不同的代码。其他代码用于标识产品的集合,例如店内组合包装和仓库托盘。

数据集成意味着协调这些不同的实体和编码系统。该过程的一部分是通过汇总或分解为通用数据来使数据准备好进行分析,例如,可以将UPC级别的销售点数据与品牌级别的广告数据组合在一起。最后,必须丰富数据以增强其在分析中的实用性:例如,对简短的产品描述进行补充,添加编码化的属性,例如制造商,品牌,尺寸,风味,包装,健康声明和成分。

数字业务的数据整理

数据集成的黄金标准是与数据仓库关联的提取,转换和加载(ETL)过程。 ETL提供了具有定义结果的自动化,高质量流程,并且是整理长期存在的高价值资产(如C-suite仪表板和KPI中使用的数据)的最佳方法。

在数字业务典型的大型数据集上使用ETL的问题在于ETL由专家领导,设置较长且需要进行持续的工作以合并新的和更改的数据。这与敏捷相反。企业需要利用大量的新数据源,因此无法事先知道其中哪些包含有价值的见解;迫切需要快速,轻巧,“足够好”的数据集成,以使数据科学家能够进行探索和实验。

解决集成瓶颈的方法是扭转ETL体系结构的局面:与其为人类提供制作集成过程的工具,不如为它提供人工集成的自动集成工具来处理异常。市场上有越来越多的此类基于云的集成平台,这些平台基于机器学习和统计最佳拟合映射进行操作。

ETL需要将数据复制到数据仓库中,随着大数据量,速度和种类的不断增长,这种情况很快就变得繁重。数据“联合”和“虚拟化”技术通过允许分析师查询多个远程数据源并在内存中创建虚拟集成视图而无需批量复制数据来解决此问题。由于直接访问源数据,因此避免了同步问题(无论何时更新信息,ETL模型中都需要同步)。

ETL还非常注重关系数据库中的数据。 数字发布了各种各样的新数据格式,包括Hadoop,NoSQL,Graph数据库,键值存储,消息,日志和文档。除了这些文本和数字存储外,与地图有关的信息,图像,视频和录音对企业也越来越重要。汤姆可能想使用卫星图像将按日细分的流量纳入他的分析,或者寻找Acme的销售额与在海滩或公园附近停放的车辆数量之间的相关性。和以前一样,越来越多的云平台能够连接到多种不同的数据格式,而无需它们是相关的。

数据整理的未来

您需要根据具体情况针对竞争性优先级进行优化,例如速度,准确性,完整性和专业知识的可用性:没有一种万能的解决方案。随着时间的流逝,流程也可能会从一种集成方式转变为另一种集成方式:Tom对Acme市场份额下降的初步分析使用的是“快速而肮脏的”数据集成方法,您不希望将其纳入C-套房。

ETL不会消失,但是智能机器将越来越多地围绕大数据展开工作,并能够可靠,自动和快速地集成它。这意味着汤姆的数字助理将不仅可以帮助他了解BIGCO Acme销售发生了什么以及原因,还可以做更多的事情。它将BIGCO数据与Internet上的任何数据或它可以访问的任何其他来源结合起来,以创建可以更好地预测BIGCO品牌销售的模型。最终,它将能够响应预测性请求,例如“我们如何将西部地区的销售额提高10%?”

但是还不是。

本文的版本最初出现在Vol.1中。 1第2期 零售技术观点.

点击“订阅”即表示我同意 隐私政策使用条款.