11月3日,钉钉官宣AI魔法棒功能正式上线。
作为阿里系接入大模型的一个重量级应用,钉钉AI魔法棒已经在钉钉聊天、文档、知识库、脑图、闪记、Teambition等17项产品、60+场景中开放测试。
我们近日就其中应用最多的聊天AI、文档AI进行了一系列应用测试,感受了一下阿里大模型具体在协同办公软件中的应用体验。
语意理解完整,有时也会“犯懒”
钉钉魔法棒是被直接作为一个功能模块嵌入到钉钉页面顶部,是实实在在以一个“魔法棒”的标识出现的,在正式上线后,钉钉魔法棒已经可以正常使用,不过,现在的钉钉AI魔法棒依然有明显的「邀请测试」标识。
由此可见,钉钉认为这一功能还需要继续进化。
作为通过大模型提供基础能力的产品,钉钉AI魔法棒首先是一个Chatbot。
在测试过程中,我们首先让它回答了哲学三问:你是谁?从哪里来?到哪里去?
面对这样一个看似简单的问题,钉钉魔法棒能够get到这三个问题的字面意思,并给出一个相对正确的标准答案。
进一步交流后,我们发现,钉钉魔法棒也有“犯懒”的时候,当你问它“钉钉这款软件怎么样”时,它会先给你一个简单的介绍,告诉你这是阿里旗下的企业协作平台,拥有打卡签到、审批、日志等一些功能。
但关于钉钉的更多功能介绍,则是会甩给你一份产品使用手册,让你自己查阅。
在一系列对话测试中,作为一个Chatbot,钉钉魔法棒已经有了不错的理解能力和应答能力,你可以让它帮你推荐几款好用的线上办公软件、也可以让它给你规划一个美国七日游的出行攻略,甚至可以让它就一些软件进行简单的功能对比。
优点是,钉钉魔法棒有问必答,而且大多数情况能够给出一些建议;缺点是,它目前给出的答案并不一定是最优解,也不一定会有多详细。
例如,钉钉魔法棒推荐的办公软件中,有一款软件是“航天易办公app”,我们并没有在安卓手机应用商城中找到这款软件,显然这款软件很难说是一款主流或好用的协作办公软件。
而在被问及“飞书是不是比钉钉更好用”时,钉钉魔法棒也会指出,“钉钉界面比飞书稍有繁琐,有一些广告和推销信息,如果用户注重简洁无广告,飞书确实更适合。”
作为测试版功能,钉钉也在生成的每个内容后增加了评价反馈极致,如果你对生成的内容不满意,可以直接给差评,并从“内容不匹配”、“内容不完整”、“表达不合逻辑”、“存在事实性误差”、“有敏感词或观点”五个选项中选出不满意的原因。
由于接入了通义万相,钉钉魔法棒也具备文生图功能,不过,这一功能在聊天AI功能中无法正常启用,需要手动切换到文档AI功能中再使用。
依然有幻觉,办公新助手
钉钉魔法棒的文档AI功能,有点像微软引入ChatGPT的word文档,可以提供一些文生文、文生图、文生表格等功能。
在文档AI中,当我们让钉钉魔法棒“为以大模型为主要讨论内容的年会做一个半天的活动策划”时,它会自动生成年会的各个环节设置,并就相应环节做出一两句话的简要介绍。
如果对生成的内容不满意,你可以通过“换一换”功能,让钉钉魔法棒根据这个需求重新生成一个策划。
根据半天活动需求,钉钉魔法棒原本生成了8个环节,而且生成的“主题演讲”和“主题论坛”环节上其实是重复的,除此以外,生成的其他内容与主题演讲内容加起来,已经远超出半天所能涵盖的内容。
因而,在文档AI中通过钉钉魔法棒生成的内容更多是为我们提供创意和思路,最终生成的内容在应用时还需要二次调整。
不过,为了测试钉钉魔法棒的AI能力,我们在此基础上也尝试让它“继续写”了三次,最终它给出了20个环节,但其中生成的部分环节多有重复,这也是当下生成式AI仍然存在的“幻觉”问题的体现。
除此以外,“文生文”功能中,还可以对生成的内容进行诸如润色内容、丰富内容、精简内容、改写语气等调整,这些功能对于学生写论文或员工做汇报,尤其是文案创作者在改文案时,甲方提出诸如改语气、丰富或精简内容明确需求时,会有一定帮助。
随后我们又让钉钉魔法棒“根据前面的大模型年会制作一张议程表格”(流程经调整),得到了如下图右侧的这张表格:
可以看到的,表格和流程并没有完全对齐,而且生成的是一整天的活动议程。
最后,我们还通过钉钉魔法棒为“大模型年会”生成了一张主题图片,从而完成了这次“大模型年会”的文案策划。
值得注意的是,钉钉为文档AI加入了一个特别的“排版美化”功能,通过这一功能,你可以直接为你的word文档套用钉钉事先制作好的几个模板,来对内容进行整体美化。
小结
整体测试下来,我们有以下几点感受:
1、钉钉魔法棒生成内容的逻辑性已经很不错,但对内容的理解能力,尤其是隐喻、比喻等更深层含义的理解能力依然需要继续优化;
2、AI大模型正在改变内容生产模式,新的内容生产模式中,我们更多需要考虑的是如何提供精准的提示词,让AI为你分担重复、繁琐的工作,例如拟一个年会流程、做一个简单的活动策划等;
3、现在AI生成的内容更多是为我们提供框架和灵感,还做不到一步到位,给你一个完整的作品,因而现在的AI更多是被定义为copilot。
对于大多数人来说,初次体验与AI合作会很吃力,不知道它的能力边界在哪里,也不知道如何让它为我们生成我们想要的内容,但AI终究是大势所趋,尽量将AI作为工具、融入工作中,是避免被AI代替最好的方式。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。