从BigDL到Analytics Zoo:英特尔让AI从实验室无缝走入流水线 原创

理科生的“缜密思维”,文科生的“流利口才”,跟着英特尔高级首席工程师、大数据技术全球CTO戴金权,一起了解到英特尔构建统一大数据分析+AI平台的最新版图。

至顶网个人商用频道 06月03日 北京消息(文/黄当当):时隔一年,再一次见到戴金权,他是现任英特尔高级首席工程师、大数据技术全球CTO,负责领导英特尔全球的工程团队在高级大数据分析上的研发工作。

英特尔戴金权:从BigDL到Analytics Zoo,让AI从实验室走进流水线

同时,他还有另外一个身份,英特尔BigDL 和 Analytics Zoo项目创始人,作为英特尔推动深度学习民主化的重磅武器,BigDL和Analytics Zoo也被列为英特尔AI开发三大工具之一。

究竟BigDL和Analytics Zoo的神奇之处在哪里?在2019全球人工智能技术大会之后,戴金权接受了至顶网的采访。与他的交谈,我们也从这个不仅有着理科生的“缜密思维”,同时也有着文科生的“流利口才”的专家口说,了解到英特尔构建统一大数据分析+AI平台的最新版图。

硬汉的“软”实力:BigDL 和 Analytics Zoo

从设备端到边缘再到数据中心、云端完整的计算架构,英特尔攒足了硬件层面的全栈实力,嗅觉灵敏的它,还将触角伸向了充满探索的领域。

英特尔戴金权:从BigDL到Analytics Zoo,让AI从实验室走进流水线

正如“硬汉”外表下,其实也有一颗“软萌”的心,这位善于用创新解决世界上最艰巨的问题和挑战的芯片巨人,现在还将硬件的端到端人工智能全栈实力“复制”到软件:

  • 最底层的算法开源帮助用户更高效开发计算库
  • 再到上层各种机器学习或者深度学习框架
  • 再到最上层开源工具包

BigDL 和 Analytics Zoo是英特尔两个开源项目,它们的存在正是帮助大数据用户、数据工程师、数据科学家、数据分析师在已有的大数据平台上使用人工智能技术,英特尔于2016年开源了基于 Spark 的分布式深度学习框架 BigDL,此后不久又在 Spark、TensorFlow、Keras 和 BigDL 之上构建了大数据分析 +AI 平台 Analytics Zoo。

简单来说,BigDL 是一套基于 Spark 分析流水线、以有机方式构建而成的分布式深度学习框架,能够实现主流深度学习框架 TensorFlow、Caffe 以及 Torch 等同样的功能。用户可以借助 BigDL 将 Spark/Hadoop 作为统一的分析平台,从数据摄取、清洁与预处理,到数据管理、机器学习、深度学习以及部署与可视化,一站式完成所有工作。

但这仍然不够。

在部署 BigDL 的过程中,有一部分用户反映希望能继续使用自己更熟悉的其它深度学习框架,例如 TensorFlow,并希望使用 TensorFlow 进行训练。因此,英特尔又在 BigDL 开源半年后推出了 Analytics Zoo,以帮助客户省去在大数据管道上手工“拼接”众多独立组件的繁琐操作。

Analytics Zoo 作为一个更高级别的数据分析 +AI 平台,能够帮助用户利用 Spark 的各种流水线、内置模型、特征操作等,构建基于大数据的深度学习端到端应用。

某种意义上来看,Analytics Zoo是 Spark 和 BigDL 的扩充,可以将 Spark、TensorFlow、Keras 和 BigDL 无缝合并到一个集成管道中,方便地扩展到企业已有的大型 Apache Hadoop/Spark 集群,进行分布式训练或推理。

Analytics Zoo 最大的优势是能够在现有基于 Spark 与英特尔至强服务器的基础设施之上无缝运行各类主流深度学习框架和模型,让用户可以选择使用适合自身需求的深度学习框架做模型训练,无需购买或者设置不同的硬件基础设施。

跨越断层:让AI从实验室,真正走入生产流水线

从 BigDL 到 Analytics Zoo,其实也看到了英特尔软硬层的统一。

戴金权表示,用户在应用开发之时,可能在一个笔记本上构建一个简单的原型,在实验环境取得不错效果后,后续希望部署到生产系统中,这就容易出现一个“断层”。

即大数据处理工作与深度学习模型算法之间的断层,深度学习顶尖研究人员不断在突破模型,但是数据科学家、分析师、普通用户却很难将模型应用到现实的生产环境当中去。

这也是英特尔选择将 BigDL 和 Analytics Zoo开源的目的。

“通过开源 Analytics Zoo,第一是能够将不同的框架无缝的集成到流水线里面去,第二是在开发过程中,可以嵌入各种深度学习的功能。这是我们的一个主要的出发点,可以帮助用户将整个大数据分析+ AI 的应用从端到端流水线构建出来,而且它可以很方便的从笔记本运行到集群、运行到生产环境当中去,这是我们在底层Analytics Zoo这个平台里所做的工作。”

戴金权还认为,当深度学习、人工智能应用场景更加广泛,要处理的数据更加广泛,因此构建端到端的大数据处理分析加上机器学习、深度学习的统一流水线成为刚需,而软件是一个很好途径,因为它更贴近用户。

如此来看,不仅是硬件,软件对于英特尔同样重要,尤其是在推进AI更广泛的部署中,“今天可以看到一个趋势,就是这些大数据也好、AI也好,这些基础软件都是在一个开源的生态系统中来进行开发、优化,英特尔本身来说是在开源系统中非常重要的角色。”

回到AI实际部署的话题,戴金权同样表示,其实BigDL 和 Analytics Zoo的初衷,正是希望将大数据处理分析和深度学习很好的整合在一个处理的工作流或者流水线当中,让AI不再停留在实验室,还要走到实际应用当中去。

目前,Analytics Zoo也已被MasterCard、腾讯、韵达物流等实际运用到生产线中,借助该技术,韵达每年传递的4.7亿件快递,可以快速完成分拣和运输,不但降低了一线快递小哥的繁重工作,还提升了运输车辆的效率,减少成本。

如今,英特尔将聚焦点放在了基于软件和硬件的协同创新上,因为计算力是在指数级的增长,如果想实现指数级的增长,必须要硬件和软件共同创新,软件社区和硬件社区应相互交流,并真正去思考彼此的问题,比以往任何时候都更重要。

来源:至顶网商用办公频道

0赞

好文章,需要你的鼓励

2019

06/03

15:16

分享

点赞

邮件订阅
白皮书