2019年年初,小米正式启动“手机+AIoT”双引擎战略,这是小米公司未来五年的核心战略。 “5G+AIoT”是贯穿集团全产品、全平台、全场景的服务能力,是小米互联网基因在新时代全面爆发的“题眼”,是我们真正为用户带来智能科技美好生活的关键。”今年年初的全员信中,小米公司董事长兼CEO雷军再次强调,“在“5G+AIoT”战场上,未来5年我们将至少投入500亿元!我们要把AIoT、智能生活的持续优势转化为智能全场景的绝对胜势,彻底确立智能时代的王者地位。”
显而易见,小爱同学在小米公司双引擎战略中扮演着至关重要的作用,是推动AI技术落地的重要保障。截止2019年12月31日,小米集团共提交专利申请33000余件,其中AI领域专利申请数量已进入全球互联网企业第一阵营。小爱同学作为小米AI战略布局的重要一环,可谓责任重大。回顾2019年,我们一起来看小爱同学究竟有哪些全新的技术加持,助推小米双引擎战略的突飞猛进。
从硬核技术到场景落地小爱同学无处不在
“总体而言,刚刚过去的2019年,小爱同学一方面在不断夯实基础技术,包括基础NLP、基本的语音识别及唤醒、智能问答、人机对话等,另一方面也在研制使得小爱同学更加个性化、更加智能化的相关技术,包括端到端个性化语音识别与合成、多轮连续对话、就近唤醒、分布式放音、离线机器翻译等等。借助于公司强大的智能硬件生态,包括端到端语音识别、就近唤醒、分布式放音、离线机器翻译等在内的部分技术达到了行业一流水平。” 小米AI实验室主任、小米NLP首席科学家王斌讲到,“未来我们将进一步深入研究多模态交互、复杂任务连续对话、深度内容理解、用户行为分析等技术,期待打造一个更加完美的小爱同学,给用户带来极致的体验。”
回首过去的2019年,小爱同学拥有了多达20项全新的技术加持,这些新技术也正在源源不断的落地到小米更多智能硬件产品中。比如大家耳熟能详的就近唤醒及全屋立体声播放技术、麦克风阵列技术、声学认证系统、语音唤醒和识别技术、声纹识别听声识人技术、MiNLP分词系统、全双工自然连续对话、复杂自然对话等等。
诸多硬核技术的加持,让小爱同学的硬件产品成为市场最具辨识度的品牌产品。同时,小爱同学也成为小米公司AIoT战略发展的风向标,是小米在智能化路上的重要参考。
解决场景刚需 13款小米智能设备已经实现就近唤醒功能
AI人工智能是未来行业的大势所趋。小米是行业内最早打造AIoT生态链的互联网科技公司之一。多年的布局使得小米能够更加高效准确的将技术落地产品,给用户带来最为实际的场景体验。
2018年4月,小米基于分布式拾音技术的就近唤醒功能在国内智能音箱行业进行首发,领先其他品牌一年时间。目前为止,就近唤醒功能已在小爱音箱、小米电视、IoT设备三个品类的10余款产品上线。
小米多设备就近唤醒算法可以根据用户唤醒时的距离、朝向等维度智能判决,选择用户期望的音箱响应,解决了多设备唤醒一呼百应的问题,大幅度提升了用户体验。
目前,就近唤醒功能已上线小米AI音箱、小爱音箱mini、小米小爱智能闹钟、小米壁画电视、小爱触屏音箱、小爱音箱万能遥控版、小爱音箱Play、小米小爱音箱、小米小爱音箱Pro、小米小爱音箱HD、小米电视5、Redmi小爱音箱Play、小爱触屏音箱Pro 8等13款产品。峰米投影仪、手机等设备也即将支持就近唤醒。
上面所讲只是小米智能产品中使用到小爱同学就近唤醒的一项技术。实际上,譬如麦克风阵列技术、声学认证系统、语音唤醒和识别技术、声纹识别听声识人技术、MiNLP分词系统、全双工自然连续对话、复杂自然对话等等全新技术都已经在小米智能产品中开始应用,真正服务于用户,解决实际场景下的诸多问题。
走进亿万家庭消费者给予小爱同学一致好评
截至2019年11月底,小爱音箱系列累计售出超过1500万台,累计唤醒超过340亿次,有41%的活跃用户在使用语音控制IoT设备,小爱音箱已经成为家庭语音控制的中枢。通过普通消费者给予的评价反馈能够看出,大家一致给予小爱同学非常高的肯定。
比如微博网友蜘蛛丫头Sissi就提到,“12点了,被小爱同学提醒明早定了7点的闹钟,不要睡太晚。妈耶,可能一个人太久了,被一个机器人感动的不行不行的。”网友有猫饼的Michelle也表示,“今天也是被人工智能感动的一天,回家后对着黑洞洞的屋子说了一句:我回来了。小爱同学立刻回答说:我再,累不累啊?要不要听点新闻。尼玛,你说还要求啥自行车。”
上述只是记者随意在网上拔下来的两段对小爱同学的点评,相关评价实际很多。能够获得消费者认可和肯定,也是小爱同学在陪伴消费者的日子里,不再是冰冷的智能机器,它能够智能化的给人更加有温度的反馈和陪伴。这应该是未来人工智能要努力的方向,小爱同学显然已经先人一步。
“技术事关小米生死,技术立业是小米血液里最重要的东西。”小米公司创始人、董事长兼CEO雷军曾经多次在公开场合讲到。行业人士表示,小米公司虽然成立不足十年,但公司一直坚持打造工程师文化,技术创新已经渗透到公司每一个员工骨子里。小爱同学的技术积累可以说是突飞猛进,这无疑给小米“5G+AIoT”双引擎战略提供了最大的保障。相信未来,小爱同学将会出现在消费者更多的实际生活场景中,通过将技术落地实际场景的模式不断推动智能生活的实现和普及。
好文章,需要你的鼓励
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。
这项由中国人民大学高瓴人工智能学院研究团队发表的研究解决了大语言模型评判中的自我偏好问题。研究提出了DBG分数,通过比较模型给自身回答的分数与黄金判断的差异来测量偏好度,有效分离了回答质量与自我偏好偏差。实验发现,预训练和后训练模型都存在自我偏好,但大模型比小模型偏好度更低;调整回答风格和使用相同数据训练不同模型可减轻偏好。研究还从注意力分析角度揭示了自我偏好的潜在机制,为提高AI评判客观性提供了重要指导。
这篇研究提出了DenseDPO,一种改进视频生成模型的新方法,通过三大创新解决了传统方法中的"静态偏好"问题:使用结构相似的视频对进行比较,采集细粒度的时序偏好标注,并利用现有视觉语言模型自动标注。实验表明,DenseDPO不仅保留了视频的动态性,还在视觉质量方面与传统方法相当,同时大大提高了数据效率。这项技术有望推动AI生成更加自然、动态的视频内容。