至顶网个人商用频道 06月03日 北京消息(文/黄当当):时隔一年,再一次见到戴金权,他是现任英特尔高级首席工程师、大数据技术全球CTO,负责领导英特尔全球的工程团队在高级大数据分析上的研发工作。
同时,他还有另外一个身份,英特尔BigDL 和 Analytics Zoo项目创始人,作为英特尔推动深度学习民主化的重磅武器,BigDL和Analytics Zoo也被列为英特尔AI开发三大工具之一。
究竟BigDL和Analytics Zoo的神奇之处在哪里?在2019全球人工智能技术大会之后,戴金权接受了至顶网的采访。与他的交谈,我们也从这个不仅有着理科生的“缜密思维”,同时也有着文科生的“流利口才”的专家口说,了解到英特尔构建统一大数据分析+AI平台的最新版图。
硬汉的“软”实力:BigDL 和 Analytics Zoo
从设备端到边缘再到数据中心、云端完整的计算架构,英特尔攒足了硬件层面的全栈实力,嗅觉灵敏的它,还将触角伸向了充满探索的领域。
正如“硬汉”外表下,其实也有一颗“软萌”的心,这位善于用创新解决世界上最艰巨的问题和挑战的芯片巨人,现在还将硬件的端到端人工智能全栈实力“复制”到软件:
BigDL 和 Analytics Zoo是英特尔两个开源项目,它们的存在正是帮助大数据用户、数据工程师、数据科学家、数据分析师在已有的大数据平台上使用人工智能技术,英特尔于2016年开源了基于 Spark 的分布式深度学习框架 BigDL,此后不久又在 Spark、TensorFlow、Keras 和 BigDL 之上构建了大数据分析 +AI 平台 Analytics Zoo。
简单来说,BigDL 是一套基于 Spark 分析流水线、以有机方式构建而成的分布式深度学习框架,能够实现主流深度学习框架 TensorFlow、Caffe 以及 Torch 等同样的功能。用户可以借助 BigDL 将 Spark/Hadoop 作为统一的分析平台,从数据摄取、清洁与预处理,到数据管理、机器学习、深度学习以及部署与可视化,一站式完成所有工作。
但这仍然不够。
在部署 BigDL 的过程中,有一部分用户反映希望能继续使用自己更熟悉的其它深度学习框架,例如 TensorFlow,并希望使用 TensorFlow 进行训练。因此,英特尔又在 BigDL 开源半年后推出了 Analytics Zoo,以帮助客户省去在大数据管道上手工“拼接”众多独立组件的繁琐操作。
Analytics Zoo 作为一个更高级别的数据分析 +AI 平台,能够帮助用户利用 Spark 的各种流水线、内置模型、特征操作等,构建基于大数据的深度学习端到端应用。
某种意义上来看,Analytics Zoo是 Spark 和 BigDL 的扩充,可以将 Spark、TensorFlow、Keras 和 BigDL 无缝合并到一个集成管道中,方便地扩展到企业已有的大型 Apache Hadoop/Spark 集群,进行分布式训练或推理。
Analytics Zoo 最大的优势是能够在现有基于 Spark 与英特尔至强服务器的基础设施之上无缝运行各类主流深度学习框架和模型,让用户可以选择使用适合自身需求的深度学习框架做模型训练,无需购买或者设置不同的硬件基础设施。
跨越断层:让AI从实验室,真正走入生产流水线
从 BigDL 到 Analytics Zoo,其实也看到了英特尔软硬层的统一。
戴金权表示,用户在应用开发之时,可能在一个笔记本上构建一个简单的原型,在实验环境取得不错效果后,后续希望部署到生产系统中,这就容易出现一个“断层”。
即大数据处理工作与深度学习模型算法之间的断层,深度学习顶尖研究人员不断在突破模型,但是数据科学家、分析师、普通用户却很难将模型应用到现实的生产环境当中去。
这也是英特尔选择将 BigDL 和 Analytics Zoo开源的目的。
“通过开源 Analytics Zoo,第一是能够将不同的框架无缝的集成到流水线里面去,第二是在开发过程中,可以嵌入各种深度学习的功能。这是我们的一个主要的出发点,可以帮助用户将整个大数据分析+ AI 的应用从端到端流水线构建出来,而且它可以很方便的从笔记本运行到集群、运行到生产环境当中去,这是我们在底层Analytics Zoo这个平台里所做的工作。”
戴金权还认为,当深度学习、人工智能应用场景更加广泛,要处理的数据更加广泛,因此构建端到端的大数据处理分析加上机器学习、深度学习的统一流水线成为刚需,而软件是一个很好途径,因为它更贴近用户。
如此来看,不仅是硬件,软件对于英特尔同样重要,尤其是在推进AI更广泛的部署中,“今天可以看到一个趋势,就是这些大数据也好、AI也好,这些基础软件都是在一个开源的生态系统中来进行开发、优化,英特尔本身来说是在开源系统中非常重要的角色。”
回到AI实际部署的话题,戴金权同样表示,其实BigDL 和 Analytics Zoo的初衷,正是希望将大数据处理分析和深度学习很好的整合在一个处理的工作流或者流水线当中,让AI不再停留在实验室,还要走到实际应用当中去。
目前,Analytics Zoo也已被MasterCard、腾讯、韵达物流等实际运用到生产线中,借助该技术,韵达每年传递的4.7亿件快递,可以快速完成分拣和运输,不但降低了一线快递小哥的繁重工作,还提升了运输车辆的效率,减少成本。
如今,英特尔将聚焦点放在了基于软件和硬件的协同创新上,因为计算力是在指数级的增长,如果想实现指数级的增长,必须要硬件和软件共同创新,软件社区和硬件社区应相互交流,并真正去思考彼此的问题,比以往任何时候都更重要。
好文章,需要你的鼓励
这项来自苹果公司的研究揭示了视频大语言模型评测的两大关键问题:许多测试问题不看视频就能回答正确,且打乱视频帧顺序后模型表现几乎不变。研究提出VBenchComp框架,将视频问题分为四类:语言模型可回答型、语义型、时序型和其他类型,发现在主流评测中高达70%的问题实际上未测试真正的视频理解能力。通过重新评估现有模型,研究团队证明单一总分可能掩盖关键能力差距,并提出了更高效的评测方法,为未来视频AI评测提供了新方向。
这篇来自KAIST AI研究团队的论文提出了"差分信息分布"(DID)这一创新概念,为理解直接偏好优化(DPO)提供全新视角。研究证明,当偏好数据编码了从参考策略到目标策略所需的差分信息时,DPO中的对数比率奖励形式是唯一最优的。通过分析DID熵,研究解释了对数似然位移现象,并发现高熵DID有利于通用指令跟随,而低熵DID适合知识密集型问答。这一框架统一了对DPO目标、偏好数据结构和策略行为的理解,为语言模型对齐提供理论支持。
VidText是一个全新的视频文本理解基准,解决了现有评估体系的关键缺口。它涵盖多种现实场景和多语言内容,提出三层评估框架(视频级、片段级、实例级),并配对感知与推理任务。对18个先进多模态模型的测试显示,即使最佳表现的Gemini 1.5 Pro也仅达46.8%平均分,远低于人类水平。研究揭示输入分辨率、OCR能力等内在因素和辅助信息、思维链推理等外部因素对性能有显著影响,为未来视频文本理解研究提供了方向。
ZeroGUI是一项突破性研究,实现了零人工成本下的GUI代理自动化在线学习。由上海人工智能实验室和清华大学等机构联合开发,这一框架利用视觉-语言模型自动生成训练任务并提供奖励反馈,使AI助手能够自主学习操作各种图形界面。通过两阶段强化学习策略,ZeroGUI显著提升了代理性能,在OSWorld环境中使UI-TARS和Aguvis模型分别获得14%和63%的相对改进。该研究彻底消除了传统方法对昂贵人工标注的依赖,为GUI代理技术的大规模应用铺平了道路。