数据已成为所有企业不可或缺的一部分。数据处理和分析已成为企业繁荣发展的必要条件。
随着数据量呈指数级增长,数据分析工具也成为大多数企业的必备工具。
维护数据安全和保护企业数据不仅有利于企业发展,也是遵守隐私法律的必要条件。
美国著名管理顾问杰弗里·摩尔曾说过:“没有大数据,你就如同盲聋之人,身处高速公路中央。”
大数据分析是如何运作的?
首先,从网站、社交媒体网络和移动应用程序等生成的原始数据会被提取出来,然后使用 Apache Spark 等工具进行处理。
数据处理完成后,会使用 R 语言等工具进行分析,以发现其中的模式、趋势或预测。
Spark 有什么用途?
Apache Spark 是一个开源平台,因其闪电般的处理速度而广受用户欢迎。它声称在内存中比 Hadoop MapReduce 快 100 倍,在磁盘上快 10 倍。
Spark 之所以能够实现如此高的速度,是因为它即使在应用程序编程层面也能最大限度地减少磁盘写入次数。
Apache Spark 还通过在主节点上处理数据来避免不必要的 I/O 操作。
现在我们已经了解了 Apache Spark 流行的原因,接下来让我们通过一些 Apache Spark 用例来更深入地了解它。
Apache Spark 用例:应用示例
Apache Spark 在金融领域的应用案例
大型金融机构正在使用 Apache Spark 处理来自论坛讨论、投诉登记、社交媒体资料和电子邮件通信等渠道的客户数据,以便轻松地对客户进行细分。
这有助于他们分析信用风险评估,并为客户提供卓越的服务。
与许多其他信用卡公司一样,Capital One 通过识别和阻止未经授权的交易来打击网络欺诈。
欺诈者每年从大约 1000 万美国人手中窃取近 200 亿美元。信用卡公司别无选择,只能将这些损失注销。
在 Databricks 主办的 Spark Summit 会议上,Capital One 技术副总裁 Chris D’Agostino 解释了 Spark 集群如何帮助信用卡公司追踪欺诈者。
Capital One 借助 Spark、Databricks Notebook、Elastisearch 等工具筛选信用卡申请。这有助于他们建立基线,以便分析用户数据。
一旦有人申请新的信用卡,Capital One 的分析师就能根据其社会安全号码、电子邮件地址和居住地址等信息追踪其信用评分。
这些数据会与现有数据库进行比对分析。如果发现任何可疑数据与申请人提供的数据存在相似之处,申请就会被送至案件管理系统。
整个过程只需几毫秒。他们还可以通过直方图和模式识别进一步确认申请人是否被标记为可疑。
这项技术帮助 Capital One 银行大幅减少了信用卡欺诈案件。Chris D’Augustino 也很高兴这些技术能够帮助他减少损失。
Apache Spark 在医疗保健领域的应用案例
美国的医疗保健行业正在大量使用大数据分析工具。由于电子病历 (EMR) 产生的数据量巨大,他们依赖于快速处理工具 Apache Spark 来进行数据处理。
但是,由于数据隐私是强制性的,并且受到严格遵守,所有这些公司都必须符合 HIPAA(健康保险流通与责任法案)的要求。
因此,为了符合规定,医疗保健公司使用机器时会预先设定一些标准。他们可以在不泄露患者姓名的情况下访问基本的入院信息、人口统计信息、社会经济状况、实验室检查结果和病史。
罗氏(一家跨国制药巨头)的数据科学家程伟义 (Wei-Yi Cheng) 在 Spark Summit 峰会上介绍了 Apache Spark 在免疫疗法癌症治疗研究中的数据处理应用。
这项研究分析肿瘤图像,试图诊断某些类型的癌症是否可以使用这种新的免疫疗法进行治疗。
这项研究的关键在于识别癌症中的不同细胞类型,包括由免疫系统产生的有益T细胞、有害癌细胞以及血管。
由于显微镜下采集的细胞数量高达数百万,分析起来非常困难。
而Apache Spark正是在这一关键时刻发挥作用。科学家们正在使用名为Spatial Spark的库包来辅助这些计算。
据其首席数据科学家程伟义(Wei-Yi Cheng)介绍,为了便于加载和提高效率,他们将所有数据以Parquet格式加载到Hadoop中。
他们使用Spark加载Parquet文件,并利用Spark计算这些细胞与肿瘤以及血管之间的距离。
然后,他们将计算结果导入Hadoop,并借助Python和Impala进行分析。
这项研究帮助罗氏公司的研究人员深入了解了有益T细胞在肿瘤中的分布及其与血细胞的距离。
这些结果对于了解某些类型的癌症是否适用于该公司正在开发的免疫疗法至关重要。
但在 Spark Summit 上讨论此事时,该项目仍在进行中。为了量化数据并获得更多洞见,还需要添加许多新功能。
Apache Spark 在电子商务领域的应用案例
阿里巴巴是全球领先的电子商务公司之一,它使用 Apache Spark 来处理从其网站和应用程序收集的 PB 级数据。阿里巴巴可能拥有规模最大的 Spark 作业,这些作业甚至会持续数周。
阿里巴巴使用 Spark 的目的如下:
图分析平台
阿里巴巴的产品和业务团队基于用户、网站和其他数据的多重关系图进行决策。在使用 Spark 之前,他们只能依靠直觉来做决策。Spark 和 GraphX 的交互性帮助他们轻松地做出关键决策。
该平台提供了一些关键指标,帮助他们基于图和事实做出决策。这些关键指标包括:
- 度分布
- 二度邻居
- 连通分量
Apache Spark 在旅游领域的应用案例
全球领先的旅游网站 TripAdvisor 利用 Apache Spark 帮助用户规划完美旅程。其 Spark 平台能够快速提供个性化的客户推荐。
TripAdvisor 也使用 Apache Spark,通过轻松比较数千个网站的价格、商品和其他信息,为数百万旅行者提供旅行建议。
Apache Spark 帮助他们快速读取和处理评论、价格和产品信息,并以易于阅读的格式呈现。
未来值得关注的事项:
我们可以肯定地说,Spark 的未来一片光明,并且各方都在努力确保 Spark 在未来保持其重要性。
Apache Spark 的 Spark 2.3 版本带来了重大改进,它集成了 Kubernetes,并利用 Spark Streaming 提供实时处理功能。
预计 Spark 3.0 将于今年年底或明年年初发布。
许多专家预测,Spark 将与深度学习平台实现更顺畅的集成,并且还将专注于新兴的人工智能技术。




