作者 | 黄当当
英国牛津大学教授、《大数据时代》作者维克托•迈尔-舍恩伯格认为,一场生活、工作与思维的大变革,正在全球范围内扩散,大数据开启了一次重大的时代转型。
但如何让“数据”变得“有用”,并从中构建对未来世界的洞察力,这就需要一门重磅级的学问——数据科学。
《哈佛商业评论》曾宣称,“数据科学家”是二十一世纪最性感的职业,因为要比计算机科学家更懂统计学,比统计学家更懂计算机科学,并且还是一个善于讲故事的人,懂得获取、清洗、探索、建模、解释数据的人,再把数据融入到易懂的形式中,让数据讲故事,并且再把故事讲给别人听。
因此,有人这样定义“数据科学家=统计学家+程序员+讲故事的人+艺术家”。也正因跨越不同学科交叉的多元性,注定了一个“数据科学”项目的复杂性。尤其在推进AI项目,进行大数据并行计算时,平稳持续可靠成为第一要义,因为任何一个硬件问题导致的错误,可能背后都要花费更长的时间与精力,崩溃就在一瞬间。
然而,另一个噩耗也传来。据国际权威机构Statista 的统计和预测,2035年,全球数据产生量将达到 2142 ZB,而1 ZB 约同于10亿G,这背后的巨大数据量,尤其在数据驱动创新的时代,无疑等待“数据科学家”的将是更严峻的压力和考验。
数据科学,本就是一条漫长的路。如今,新的需求也随着AI的到来,使得AI项目开发需求变得“水涨船高”。而一台能够服务于AI开发需求的,且在桌面使用适合高强度计算要求的工作站,成为数据科学行业的必需品。
01
/ 一台设备,走完“数据科学”全流程 /
通常来说,一个AI项目实现,要经过数据准备、模型开发和训练,以及模型部署等三个阶段,整个过程对平台的算力都有着很高的要求。
而上述三个阶段,围绕硬件工具平台,数据科学家通常会有三个选择,即一是在服务器上,二是在云端,第三则是找到一台适合高强度计算要求的“数据科学工作站”。
毫无疑问,前两者有着更强的算力和性能,但也有高昂的费用与成本,并且,对于AI项目的开发和部署阶段而言,两者的性价比并不理想——而在这个特定的阶段,恰巧给了数据科学工作站更多发挥空间。
举例来说,在AI项目开发的试验阶段,如果有一台合适的数据科学工作站,数据科学家们就可以获得其他平台无法获得的便利,比如轻松装载容器开发包或平台;对算法、模型进行随意的迭代和修改;并且,由于数据就在本地,使得开发阶段的数据修改也变得异常轻松。
综合上述对比,如何把每一分钱花到刀刃上?惠普给出了一套方案。现在,用惠普Z系列数据科学工作站就可以组建一个属于个人或者小型团队的数据中心,既能摆脱网络束缚,也能提高团队效率,掌握数据先机。
而“同等预算,更多优势”正是惠普数据科学工作站的独家优势之一。用户可以针对计算类型定制数据科学工作站配置,获得独占的计算资源和充足存储空间,无需排队和上传,一台机器即可完成包含数据准备、清洗、挖掘、可视化、建模、训练和测试的全流程工作,也无需担心数据外传带来的业务风险。
02
/ 开箱即用,专为“数据科学”优化 /
数据科学项目中,越是计算密集型任务,内存的占用量就越大,这时一个数据出错,很容易就会导致计算结果错误或者程序崩溃。而“ECC内存”正是可以实现错误检查和纠正技术的内存条,它可以防止在软件、数据调用或是大数据并行计算时,出现蓝屏或数据读取失败。
因为关系到数据科学家在AI开发全流程的稳定性,惠普在HP Z4/Z8 G4数据科学工作站上,配备了带ECC纠错的内存,以确保万无一失。
当然,这还不够。解决了数据科学家在AI开发和部署阶段的平台所需,又解决了计算密集型任务最担心的可靠性和稳定性问题,接下来就是软件了——开箱即用。
毕竟数据科学家,称之为“科学家”,很重要的一点,就是需要把更多宝贵的时间用在科研上,而不是浪费在平台的组装。要知道,从完成试错到配备一套新的数据科学平台,通常要花费数天,甚至数周的时间。
作为数据科学领域的专家,惠普一直以专业与创新应对日新月异的市场变化,从一开始就考虑到数据科学用户的使用需求,即在出厂前就对硬件配置进行调优,为用户提供强大性能的同时,还预装载了满足复杂数据科学工程要求的软件堆栈:
包括内置Ubuntu 20.04操作系统,配备NVIDIA RTX GPU和NVIDIA CUDA工具包、Docker、Git、Visual studio Code、PyCharm、Python 2&3、TensorFlow、RAPIDS在内的多款常用数据科学软件和套件,真正让用户实现“开箱即用”。
03
/ 创新应用,多个“成功案例”背书 /
通过把脉前沿科技和趋势,洞察用户需求,惠普打造了包括 ZBook Studio、ZBook Firefly、ZBook Fury、Z4 / Z8在内的「数据科学工作站」革命性产品。无论数据大小或工作流如何,惠普总有一款理想设备满足需求。
目前,对计算性能要求最为严苛的行业,比如在 AI 已经广泛应用的航天、医疗、安防、文娱、零售、汽车等多个领域,惠普数据科学工作站早已战绩丰硕,拥有多个“成功案例”做背书,为“爆炸式创新”按下快进键。
美国航空航天局的科学家利用惠普Z系列数据科学工作站的强大功能,将太阳图像分析所需的时间从90天缩短至1.5小时。
CyArk世界遗产数字档案馆测试惠普 Z8 工作站的数字存档能力,因为他们发现这款数据科学工作站非常适合处理数字存档工作流程,性能远超他们当前正在使用的工业机器。
除了行业赋能,惠普数据科学工作站还走近了中国高校AI项目研究中,与东华大学人工智能合作基地,以及与上海工程技术大学科研基地——人工智能技术研究院,共同打造高校AI联合实验室。借助于惠普Z系列数据科学工作站,高校科研项目解决了目前面临的算力挑战和IT需求,大大缩短研发周期,让科研真正走出实验室,实现科技成果转化。
比如,智能制造领域,在与东华大学人工智能学院合作的“工业大数据分析、机器视觉与模式识别”项目研究上,惠普数据科学工作站ZBook Studio G7,轻松解决了高校科研人员在改变纺织品、生产检测模式中遇到的算力问题;在“智能工艺、机器人制造”的项目研究中,惠普数据科学工作站ZBook Firefly 14 G8,为科研人员打破数据运算限制,提供了可靠的GPU算力,使项目中工业场所复杂的制造过程能够实现实时的运算分析和反馈控制。
此外,上海工程技术大学科研基地——人工智能技术研究院也表示,第一次选型就看中了HP Z8 G4数据科学工作站。凭借强悍的性能和运算效率,惠普Z系列计算平台在高校人工智能应用开发中,轻松助力科研人员处理海量数据集,以及多路应用运算方面的问题,在为高校科研提供“最强算力”的同时,还推动着智能制造快速发展。
04
/ 应对下一个数据技术时代:时刻准备 /
当然,人工智能是一条艰辛而漫长的创新之路,不遗余力地为高校 AI 研发,乃至为千行百业赋能,对于在血液里就流淌着创新精神的惠普而言,还仅仅是开始。
接下来,面对AI领域的发展和海量数据的增长需求,越来越多的数据科学学生、科学家、分析师等更多专业人士,需要一款更专业、与时俱进、不断完善与修炼的数据科学工具,去完成洞察与创造。
就像PC的发展史,从KB到GB到TB,从专业团队操作到人人可用,数据科学发展也在经历类似的过程,高能力、低门槛,优质算力资源正在实现更好的触达,让数据科学家个人或者组织团队更好地获取匹配的算力工具与AI开发体验。
现在,每时每刻,我们都在产生数据。未来数据的需求也势必“水涨船高”,而算力工具的进化,还将继续。
正如惠普Z系列官网的Slogan——为下一个数据技术时代做好准备。
是的,惠普已经准备好了。
本文由「黄当当」原创出品,转载或内容合作请联系 Huang.dangdang@zhiding.cn;违规转载必究。
好文章,需要你的鼓励
施耐德电气以“新质服务+产业向‘新’行”为主题,第六次参会,展示全新升级的“新质服务体系”,围绕创新驱动、生态协同和行业赋能三大核心领域,以全新升级的“新质服务体系”,助力中国产业向高端化、智能化、绿色化迈进。
香港中文大学联合上海AI实验室推出Dispider系统,首次实现AI视频"边看边聊"能力。通过创新的三分式架构设计,将感知、决策、反应功能独立分离,让AI能像人类一样在观看视频过程中进行实时交流,在StreamingBench测试中显著超越现有系统,为教育、娱乐、医疗、安防等领域的视频AI应用开启新可能。
甲骨文正在成为大规模基础设施供应商的可靠选择。该公司通过AI技术推动应用开发,构建GenAI模型并将智能代理集成到应用套件中。CEO萨弗拉·卡茨透露,公司剩余履约义务达4553亿美元,同比增长4.6倍,并预测OCI收入将从2026财年的180亿美元增长至2030财年的1440亿美元。甲骨文正积极布局AI推理市场,凭借其作为全球最大企业私有数据托管方的优势地位,有望在云计算领域实现重大突破。
Atla公司发布Selene Mini,这是一个仅有80亿参数的AI评估模型,却在11个基准测试中全面超越GPT-4o-mini。通过精心的数据筛选和创新训练策略,该模型不仅能准确评判文本质量,还能在医疗、金融等专业领域表现出色。研究团队将模型完全开源,为AI评估技术的普及和发展做出贡献。