如果您的数据湖变成了数据沼泽,那么是时候采取措施了

计算机世界 / 2018年02月26日 01:51

新闻

...在云环境中运行的数据湖的组件、子组件和关系的详细架构视.-...

John+Dix

与德勤的分析实践领导讨论常见的分析问题和新的解决方案

编译 charles

作为Deloitte分析实践的领导,Paul Roma指导公司所有业务的分析产品,所以他了解公司要应对的一系列问题。《网络世界》总编辑John Dix最近和Roma讨论了公司面临的分析问题(提示:上面提到的沼泽),帮助提取更多价值的工具(认知分析和机器学习),还有不断发展的执行管理角色(标题并不重要,重要的是问题归谁)等很多问题。

客户通常希望您解决什么问题?他们想要解决一个具体的问题,还是更大的问题,关键的分析问题?

一般而言,我们的工作是要得到具体的业务成果。客户可能希望提高他们的消费者净推广得分(NPS,Net Promotion Scores),这是对消费者与某一公司及其产品的关系进行评分的行业标准。它之所以称为净推广,因为它是启发式的,把几个因素综合在一起,并建立一种方式来判断您自己。再比如,医疗机构可能来找我们,帮助他们改进某些医疗保健协议的结果,所以我们通常谈论的是业务成果。

通过访谈,您发现公司有他们需要的分析工具,或者他们也在寻找新技术输入吗?

较大的客户会拥有分析工具。我们到访的公司中没有一家是什么都没有的。问题更多地集中在使用上,而不是数据短缺,因为他们有大量的数据。现在,经过多年的积累,一般都会有汇总起来的数据仓库或者数据湖。但是,我已经看到数百万美元花在了数据湖上,实际成为我所谓的数据沼泽。他们花了所有的钱把一切都放在一起,而不对其做任何事情。现在的主要问题是怎样使用数据获得更好的结果。

考虑到有这么多的数据和许多挖掘数据的各种工具,您打算怎样帮助客户向前推进呢?

我提供三种方法来思考它。首先,如果您是基于结果,那么您会面对某些问题来解决问题。如果我想改进消费者关系,或者如果我想改进医疗保健的结果,那您至少是基于您想做什么。在分析数据时,经验会引导您创建某些域,并采取非结构化数据湖,开始应用结构化边界。

一旦做好了,您就可以开始使用更高级的工具,例如认知分析工具,在数据湖上应用结构,使用自然语言处理和机器学习,从数据中得出推测。

先进的技术已经不仅仅是提交报告,然后查看图表,了解其含义。现在,机器学习实际上可以创建因果分析,告诉您哪些变量的前提是什么,或者哪些数据域对特定结果最有影响。例如,在医疗保健中,机器能够说明为什么某一规程的重新住院率较高。因果分析导致这类分析。

先进的技术可能最能帮助我们去理解所有数据。没有先进的技术,就没有办法深入分析。没有工具来深入分析数据,只是运行报告会产生无尽的纸张,坦率地说,您永远不可能让任何人理解。

我们在很多业务中采用了定制的算法——无论是在医疗保健、供应链还是客户营销上,还采用了机器学习算法和监督学习周期工具,我们可以针对他们的数据运行这些工具,得出推测,您可以凭借经验来研究这些推测。

有趣。这些算法适用于纵向市场,建立这些算法有没有一个共同的基础?

我们有水平和纵向市场。纵向市场调整到制造业中的供应链或者消费品中的供应链,以及生命科学领域的治疗方案等市场,而水平市场始终不变。(后者的一个例子)是我们获得专利的稀疏矩阵完成算法。如果某一特定问题的数据湖并不足以满足您需要的所有变量,它运行预测算法来填充它,并创建关于趋势的假设。我们按照与大型医疗保健公司的糖尿病协议来运行它,准确性达到93%,我们可以推测出谁不符合他们的糖尿病协议,而且并不需要与其相关的任何合规数据。

这意味着您可以推测出谁没有做自己应该做的事情?

是的。例如,有人没有称重,有人没有做运动。它不能准确预测他们没有做什么,因为我们刚刚开始,但它可以预测谁不合规。我们希望将其准确度提高到90以上,然后我们将能够审查整个医院系统,因为在这一点上变得可以预测。在出现合规问题之前,您可以看到趋势得分。这个人有可能不合规,然后您可以让护士给他打电话,问他,您吃胰岛素的时候遇到麻烦了吗?您没有做运动是有什么原因吗?您没有去看医生,是因为您乘车遇到问题了吗?您可以开始寻找治疗方案中的具体问题,以尝试提供帮助。

这是您合同结束后留下的吗?

过去四年里,德勤已经成为产品和软件提供商。这是我以前努力的结果,为我们的公司开发出产品和解决方案,所以我对此非常熟悉。我们现在提供软件即服务产品,如果您愿意,我们会留下安装解决方案。我们都能做到。这不过只是涉及到我们要解决哪个问题——哪个是最有意义的,哪个是最经济的。

这类分析的促因来自于企业内部?

我认为最强的促因来自于业务部门,而不是董事会。我们为管理人员提供了很多工具,但通常您从业务主管开始,成功后,业务主管将其呈现给CEO和董事会,它变得更受欢迎,通常再应用到下一个业务部门。

我和一家金融公司的首席數据官谈过话,他告诉我,当他们开始一些大数据工作时,他们必须对关键客户数据的一系列差异进行协调。这对于很多企业而言是不是很典型?

是的。老实说,管理好数据似乎永远有问题。用于管理数据的工具变得越来越好,但是数据产生的速度太快,超过了工具的能力所及。这是一个非常典型的问题,是一个关键的方向性问题。它几乎成为每个问题的核心。

对于首席数据官——首先出现在金融领域的职务,但似乎更多的行业也出现了这一职务。随着对分析的重视程度的提高,您会看到有新角色出现吗?

绝对有。在某些企业中,首席营销官就是首席数据官。在其他企业中,首席数字官是拥有数据的人。我们首先要理解的第一件事是,谁拥有它,在哪一级别拥有的,什么级别的管理层真正的拥有数据。我们不需要鼓励每家企业都有CDO。我们鼓励的是数据适当的所有权和管理权,这样可以优先处理数据。

大多数客户解决这种所有权问题了吗?

一半一半。我要说的是,有一半的情况是,公司正处在这一过程中,他们会有一个路线图,其中会说明要通过哪些方式来提高数据安全性,通过哪些方式来改进先进的分析方法,他们会讨论如何让客户更好的掌握数据。

另一半在各方面还没有路线图,在这些情况下,我们通常建议把很多这类计划放到一起,从供应链到营销、制造、金融等等,都可以努力得出更好的业务结果。把计划放在一起,组织起来使用会更划算。

谈点别的,这些新的物联网投入有没有带来其他的大数据问题,没有吗?您看到了什么?

我们现在有相当大的物联网实际应用,需求迅速攀升。从它是一个数据问题来说,我们参与其中是因为某些成果策略存在问题,因为物联网项目通常比较昂贵而且耗时,很少有进展很快的项目。在过去的3到5年里,我们看到公司不断投入,并没有得到他们想要的回报。现而在的技术便宜得多,更好用。从我们的角度来看,我们认为它现在已经准备就绪了,取决于使用情况,我们看到了需求,有的正在实施,实现了投资回报。

还有没有任何其他重要的事情,我在这里没有想到的,但却急于解决的?

我们没有谈到的一个趋势是认知。您如何构建直观的系统,我可以采用它,开始像我们一样思考,开始理解口语,开始理解图像和图片?

谷歌预测,在未来三年内,超过50%的搜索是以音频、图片和视频的形式出现的。让我说的话,他们错了一年。让我说应该是四年。这种变化仍然非常大,将渗透到业务,渗透到我们的流程,渗透到应用程序中。

我们的企业系统解释口语和非结构化数据的能力以及以这些方式与我们互动的能力正在快速发展。我们有很多这方面的项目。它是很多行业中巨大的投资领域。

具体而言?

第一是医疗保健,其次是金融服务。但所有行业都会有投入,包括酒店和休闲业,这是因为消费者的参与。由于客户的参与,酒店业一直是消费品的巨大用户。我会说,您参与的程度越高,这些技术对您的帮助越大。

医疗保健领域有什么例子?

一个很好的例子,我们采用了其中的几个,使用认知技术建立一个实际案例,获取电子病历、药房处方记录、家族病史和健康风险评估,并在入户之前为医生编辑好这些内容,突出显示它们,“您需要看看这部分血液差异(这基本上是一次血液测试),因为LDL超出范围,大细胞是有问题的”,开始实际分析并提供建议。

然后医生可以反问:“你能给我推荐药物吗?”它会给出建议——“我会推荐这种药物,但不会使用这个,因为家庭病史有X类型过敏反应,因此这种药物禁止使用。”

机器可以在实时对话中给您提出这些建议。机器建立了一个认知链,允许您进行各种对话,它学会如何跟随医生,推断他们会问什么问题。第一次使用它时,它并不会去查看所有药房处方,提出建议。但是当医生每次都问时,它会将其添加到告诉医生的第一件事情中,随后它会做到这一点。没有任何人编写软件,系统开始变得更聪明。您训练它而不是开发它。坦率地说,这一趋势颠覆了我们的参与方式,也颠覆了我们的开发方式,以及我们考虑系统及其应用的方式。

(作者John Dix最早是在IDC從事网络和分布式处理开发,1986年帮助创刊《网络世界》,随后就职于《计算机世界》。)

原文网址:

http://www.networkworld.com/article/3159555/big-data-business-intelligence/if-your-data-lake-turned-into-a-data-swamp-it-might-be-time-to-take-the-next-step.htmll

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。