2022年8月11日,小米秋季新品发布会在京举行,除了小米MIX Fold 2、Redmi K50至尊版等重磅产品首发,小米首款全尺寸人形仿生机器人CyberOne也正式亮相。
CyberOne是继去年小米仿生四足机器人Cyberdog后,小米机器人Cyber家族的新成员,内部艺名“铁大”,它具有高情商、可感知人类情绪,视觉敏锐、可对真实世界三维虚拟重建,“小脑”发达、可实现双足运动姿态平衡,四肢强健、动力峰值扭矩300Nm等领先技术能力。
全栈自研,“小米科技生态”新成果
“CyberOne背后的智能、机械能力,全部由小米机器人实验室全栈自研完成,背后有无数的软件、硬件、算法的开发工作,投入巨大。”小米集团创始人、董事长兼CEO雷军表示,CyberOne以人工智能为内核,以标准人形为载体,是小米对未来科技生态的一次探索,也是小米多元融合技术体系的新成果。
CyberOne身高177CM、体重52KG,是一款真正意义上的全尺寸人形仿生机器人。相比于仿生四足机器人而言,人形机器人机械复杂度更高,需要性能更强大的电机、更多的机身自由度、复杂的人形双足控制算法。此次CyberOne支持多大21个自由度,并能实现各自由度0.5ms级别的实时响应,可充分模拟人的各项动作。
机器人的运动性能与各关节电机性能息息相关,而人形机器人对于电机的要求则更为苛刻,需要在尽可能小体积的前提下,爆发出更强劲的动能,以CyberOne上肢关节电机为例,小米自研了一枚重量仅为500g,额定输出扭矩高达30n·m的高效电机,保证上肢灵活性。CyberOne髋关节主要电机瞬时峰值扭矩可达300n·m,配合自研的人形双足控制算法,行走姿态更加平稳。其他方面,CyberOne支持单手握持1.5KG重物、反向拖动上肢复现运动等功能。总体而言CyberOne是一个小脑发达、运动能力超强的人形机器人。
和人一样,视觉是人形仿生机器人感知环境的重要途径。CyberOne搭载自研Mi-Sense深度视觉模组,结合AI交互算法,使其不仅拥有完整的三维空间感知能力,更能够实现人物身份识别、手势识别、表情识别,CyberOne真正做到了不仅看得到也能看得懂。CyberOne在与外界沟通交流方面,搭载了自研MiAI环境语意识别引擎和MiAI语音情绪识别引擎,能够实现85中环境音识别和6大类45种人类情绪识别,CyberOne能够陪你一起开心,也能够像个老朋友一样在你失落时给你一个拥抱。以上所有的能力均集成在CyberOne的大脑中,并且配合OLED显示模组,进行交互信息实时显示。
探索不止,让机器人走进人们的生活
机器人被誉为“制造业皇冠顶端的明珠”,而人形仿生机器人则是机器人领域公认的终极目标。相比于以机械能力见长的工业机器人,人形仿生机器人的技术难点在于尽可能模拟人在各类场景下“感知-认知-决策-执行”的过程。在对仿生人形机器人的研究过程中,产生的大量新技术能够更好的服务于人。
CyberOne的研发就是小米打造一个“连接人与万物”科技生态的探索过程。从智能手机到可穿戴设备、智能家居,再到智能制造、智能电动汽车以及仿生机器人,小米正在构建不断延展的科技场景,围绕人的生活和工作,更好为人服务,更紧密连接人和万物,形成不断进化的小米科技生态。
雷军表示,在智能机器人领域,人形仿生机器人的技术集成度最高、难度也最大,小米还处于刚刚起步的第一阶段,CyberOne每天都在学习新的技能,“我们相信,未来智能机器人一定会走进人们的生活”。
CyberOne的研发涉及包含仿生感知认知技术、生机电融合技术、人工智能技术、大数据云计算技术、视觉导航技术等各领域的尖端技术。各领域的技术突破也将催生更多的应用场景落地,例如以机械性能为核心的工业机器人、以情感识别技术为核心的家庭陪伴机器人、以大数据云计算技术为核心的公共服务机器人等。未来将会在越来越多的小米产品上看到CyberOne的影子。
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。