数据湖的最佳应用场景之一是作为组织最重要的数据来源,因为它能够从各个垂直领域摄取数据。这些数据可以是结构化的,也可以是非结构化的。
如果您想对不同的数据集进行研发,数据湖中数据的原始特性将非常有用。
这种统一的数据视图有助于您更好地理解数据,从而筛选出更合适的数据。
许多云巨头,例如 AWS 和 Microsoft Azure,都提供数据湖服务,并为其客户在数据管理方面带来了显著优势。
我们将通过数据湖的应用及其对不同组织的优势来了解其应用场景。
数据湖的主要应用场景有哪些?
1. 3Victors 利用 AWS 聚合其快速增长的旅行数据
3Victors 从遍布全球各地的众多预订系统中收集数据。
不久之后,其原生数据存储单元的容量就已告罄。此外,3Victors 还致力于为营销人员提供实时旅行洞察。
面对这两大挑战,3Victors 迅速意识到云计算是未来的发展方向。他们采用了 AWS 解决方案,将数据存储在数据湖中。
AWS 数据湖解决方案确保 3Victors 能够处理来自各种平台的超过 2300 亿条已定价的行程信息。
2. Azure 帮助 Grupa Pracuj 处理海量数据,并满足所有必要的合规性和安全措施。
在线招聘服务提供商 Grupa Pracuj 一直处于中东欧新兴就业市场的前沿。Grupa Pracuj 需要打造一套定制化的求职方案。
与此同时,它还必须遵守 GDPR 和其他个人数据处理政策。
Grupa Pracuj 与合作伙伴 TIDK 和 Beyond.pl 携手合作,利用 Azure 的数据湖和其他服务。
TIDK 的首席执行官承认,Azure 在处理海量数据方面发挥了巨大作用。Grupa Pracuj 生成了约 7500 万条定制化的职位推荐,借助 Azure 的服务,处理这些推荐所需的时间缩短了 80%。
不仅如此,安全措施也得到了加强,满足了处理敏感和个人信息的必要合规要求。
3. MiQ 借助 Qubole 降低了运营成本并缩短了 SLA 的响应时间。
程序化媒体合作伙伴 MiQ 在 2017 年年中发现,其数据湖系统需要升级才能跟上业务增长的步伐。
MiQ 面临的两大主要问题之一是运行仪表盘的成本。使用始终在线的 Spark 集群意味着巨额支出。
第二个问题是性能问题,即满足服务级别协议 (SLA) 所需的响应时间。采用 Qubole 的端到端数据湖解决方案后,成本降低了约三倍。
此外,Qubole 还帮助 MiQ 提升了系统稳定性。使用 Python 和 R 编写的自动化工作流的故障率约为 15-20%,而使用 Qubole 后,故障率降至约 1%。
4. Talend 的数据湖解决方案引领欧莱雅的研发创新需求
数据是欧莱雅持续研发的核心。欧莱雅面临的挑战是如何将所有海量数据集中到一个统一的平台,以创建用于研究的统一版本。
欧莱雅与 Talend 合作,管理其数据平台的数据使用方式。该平台拥有超过 5000 万条数据记录,涵盖了各种配方(用于产品研发)、原材料以及隐私法规等信息。
这个中央数据存储库有助于开发兼具创新性和安全性的新产品。
结论
虽然大多数企业规模庞大,但数据湖可以有效地帮助您在相对较小的范围内理清混乱的数据。
如果您面临与我们讨论的类似问题,那么数据湖的最佳应用案例或许正是您需要的解决方案。




