使您的企业数据为规范分析做好准备

导读：好消息：为规范分析准备好数据没什么特别之处。坏消息：您需要做所需的事情，以便为任何类型的分析准备好数据 - 这很难。Prescriptive a...

好消息：为规范分析准备好数据没什么特别之处。坏消息：您需要做所需的事情，以便为任何类型的分析准备好数据 - 这很难。Prescriptive analytics就是自动化您的业务。当我们在指南中探讨规范分析的复杂性时，这是一线希望。虽然很多复杂性是业务线和专家数据科学家必须处理的事情，但IT也不是不合时宜的。规范分析很难，并且没有银弹可以让你在没有经历进化分析链的情况下实现目标。您必须正确地获取数据收集和存储基础架构，正确的数据建模以及状态分类和预测权限。

这是规范性分析的底线，IT必须确保数据收集和存储基础架构部件适用于业务和数据科学部门。成功使用规范分析所需的数据清理和组织可以从两个方面考虑：将用于提供分析的数据的数量和质量。

首先，IT需要确保所有与组织相关的数据都被考虑和访问。这确实是任何分析工作的必要条件，但它可能比听起来更复杂。

考虑组织可能正在使用的所有应用程序：定制，现成，现场，云，遗留。每个都可能有自己的格式，存储和API。IT需要确保它们都可访问，而不会中断应用程序的运行。甲数据湖的方法可以是在这方面是有用的。

它变得更糟。数据也可以超越应用程序。例如，考虑所有内部文档和电子邮件。通常，大量数据以非结构化格式和未记录的来源存在。许多应用程序也没有文档记录，无法访问，缺少导出数据的API。对于那些人，你必须要么足智多谋，要么快速失败。

然而，即使你成功了，这也不是一次性的练习。应用程序不断发展，并与他们一起发展他们的数据。API更改，模式更改，添加新数据。新的应用程序会被混合使用，旧的应用程序会被弃用。掌握数据收集需要不断努力，这是您在开始规范分析之旅时需要考虑的成本。向数据湖添加语义可能会有所帮助。说到成本：当然，通常的IT供应话语也适用于此。您是否提前计划，将此项目作为具有预先确定的基础设施和人员成本预算的项目，并通过组织预算审批流程实现?或者你采取更灵活，按需付费的方式?

前者在理论上更安全，更符合组织流程。问题在于：除非您的数据来源相对有限且易于理解，并且您在跟踪和配置它们方面非常彻底，否则这种方法在实践中可能是不可能的。

后者更灵活，但也可能导致预算超支和影子IT问题。如果没有某种疯狂的方法，你最终可能无法控制，并且将数据存储在各处。虽然这不是100%严格的规则，但预算编制方法在使用本地存储时更有意义，而云存储和开发非常适合按需付费方式。

最后，数据新鲜度是需要考虑的另一个考虑因素。如果您希望您的分析能够实时反映现实世界，那么提供它的数据也应该是实时的。这意味着您应该考虑流式数据基础架构。虽然采用流媒体有好处，但它是一种新的范例，伴随着自己的学习曲线和软件/硬件/人员投资。

特色

这本电子书基于最新的ZDNet / TechRepublic特色，探讨了如何设置一个可以看到角落的分析基础设施，并为您提供避免正面崩溃的选项。

垃圾输入，垃圾输出是使用数据获取分析洞察力的黄金法则。因此，虽然获取所有数据是绝对必要的，但如果您只是将其转储到数据湖中并考虑您的工作已经完成，那么它将无济于事。这正是数据湖泊名声不好的原因 - 数据沼泽，任何人?

要了解“数据进化”主题 - 这应该是您的首要任务。数据治理，即。是的，这听起来很抽象，但它与构建管道以将数据引导到数据湖一样重要。每个数据集都应包含其谱系上的元数据(数据来自何处)，其获取日期以及访问权限和处理历史记录。

后一方面在今天的GDPR世界中变得越来越重要。当然，并非所有组织都处理用户数据，即使对于那些用户数据，也不是所有数据都与用户相关。不过，大多数组织至少都会触及一些个人数据。对于那些，GDPR规定需要适用。

那么问题就变成：什么更有效 - 分裂和征服，或者为所有数据提供GDPR准备治疗?在许多情况下，如果无论如何应用全圆数据治理的基础设施，将其应用于所有数据都是有意义的。这可能使make数据集处理成为一个不那么轻量级的过程。但是下游应用程序的元数据的好处可以很好地弥补这一点。

声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，谢谢。

推荐阅读