8月11日,小米集团正式公布小米自动驾驶技术的研发进展,这也是继去年3月30日官宣进入智能电动汽车行业后,小米在500天里,首次官方披露部分技术与人员的筹备细节。
截至目前,小米在自动驾驶领域首期投入33亿元研发费用,组建了超500人规模的顶级研发团队,同时通过全资并购以及对上下游企业的产业投资等方式,小米稳步推进在自动驾驶领域的中长期产业布局。
在发布会现场,小米还公布了自动驾驶技术路面测试的实拍视频,充分展示其自动驾驶技术算法及全场景覆盖的能力。
小米集团创始人、董事长兼CEO雷军表示,小米自动驾驶技术采用全栈自研的技术布局策略,项目已取得超预期进展。
首期投入33亿研发费用,广纳人才、全产业链布局
自动驾驶技术是智能汽车决胜的关键点,小米自宣布进军智能电动汽车行业之后,就选择了从技术难度最高的自动驾驶领域切入,通过重金投入、组建顶级团队,以及产业投资的上下游布局等三大举措并进,实现了从零到一的关键突破。
雷军透露,小米自动驾驶项目第一期投入33亿研发费用,专属团队规模已超过500人。到今年年底,团队整体规模预计将突破600人。
据悉,自官宣造车后,小米汽车自动驾驶团队吸引了众多行业顶级人才加入,目前500人规模的团队中,由50位顶级专家组成骨干团队,博硕占比超过70%,涵盖了传感器、芯片、感知规控算法、仿真技术、高精地图、高准定位、工具链、训练能力等自动驾驶全栈技术所需人才,核心骨干成员还拥有微软、谷歌等全球顶级人工智能公司的研发背景。
小米还全资收购了自动驾驶创业公司深动科技,重点充实了自动驾驶相关的技术和人员力量。
同时,小米还致力于自动驾驶领域的中长期产业链布局,投资了十余家自动驾驶领域上下游企业,涉及自动驾驶解决方案、核心传感器、核心执行器以及域控制器等方向,相关投资的总金额超过20亿元。
全栈自研算法,2024年进入行业第一阵营
小米自动驾驶技术在起步之初,制定了全栈自研算法的技术布局战略,覆盖感知预测、高精定位、决策规划等自动驾驶核心技术领域,自建全自研数据闭环系统,高效驱动核心算法及产品功能迭代。
在小米披露的自动驾驶路面测试的实拍视频中,测试车辆在无保护自动掉头,自动环岛绕行及自动下连续坡道等多个行车场景,都实现了准确、安全、智能的自动辅助驾驶体验,效果令人惊艳。
通过对泊车场景的重点打磨,小米自动驾驶团队宣布将创新推出一体化的泊车智能解决方案,涵盖“预定车位”、“自主代客泊车”、“机械臂自动充电”等多项功能,未来还将打通其他停车场服务,在遵守国家相关法规前提下,实现智能化与服务化的体验融合。
雷军表示,小米自动驾驶技术第一期规划140辆测试车,将陆续在全国进行测试,目标是2024年进入行业第一阵营。
在短短一年多时间内,小米自动驾驶技术实现了从无到有的跨越式突破,成为行业备受关注的新锐力量,背后离不开小米集团多元融合的科技生态支撑。针对自动驾驶技术的研发,除了超500人规模的专属团队,还有来自人工智能实验室、小爱团队、手机相机部等多个协同团队的强力支撑,共同打造科技引领的自动驾驶体验。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。