根据TechCrunch获得的内部聊天资料,负责改进谷歌Gemini AI的外包人员正将其输出的答案与竞争对手Anthropic的Claude模型输出进行比对。
随着科技企业竞相构建更强大的AI模型,他们往往会将自家模型的性能与竞争对手进行比较。但具体比较标准主要是行业通行的基准性能测试,很少会由外包人员直接用响应结果作为评判依据。
负责评估模型输出准确性的Gemini外包人员需要根据多项标准(例如真实性和冗长性)对他们看到的各项响应打出评分。根据TechCrunch看到的资料,外包人员在每条提示词上最多有30分钟来判断Gemini和Claude哪边生成的答案质量更高。
其中还提到,外包人员最近注意到在他们用于将Gemini同其他未具名AI模型进行比较的谷歌内部平台上,直接提到了Anthropic Claude的字眼。
Gemini外包人员收到的输出中至少有一条明确提到:“我是Claude,由Anthropic创建而成。”
在一段内部聊天中,外包人员发现Claude的回复似乎比Gemini更强调安全性。一位外包人员写道:“Claude的安全设置是所有AI模型中最为严格的。”在某些情况下,Claude不会响应它认为不安全的提示词,例如扮演其他AI助手。在另一案例中,Claude还因结果可能包含“裸体与拘禁”等“严重违反安全规定”的内容而拒绝回应提示词。
在Anthropic的商业服务条款中,明确禁止客户在未经Anthropic批准的情况下出于“构建竞争产品或服务”或者“训练竞争性AI模型”等目的访问Claude模型。但谷歌本身是Anthropic的主要投资者,所以情况又复杂了起来。
负责Gemini项目运营的谷歌DeepMind发言人Shira McNamara拒绝透露谷歌是否获得Anthropic关于访问Claude的授权,Anthropic方面也未做出置评回应。
McNamara表示,DeepMind确实会“比较不同模型的输出”以进行评估,但不会使用Anthropic模型直接训练Gemini。
McNamara强调:“当然,根据行业标准惯例,我们在某些情况下会对模型的输出进行比较以作为评估过程中的一部分。但是,任何声称我们使用Anthropic模型训练Gemini的说法都是不准确的。”
不久前有消息称,目前谷歌正要求参与该公司AI产品项目的外包人员在专业领域之外对Gemini的AI响应打分。外包人员则在内部聊天资料中表达了担忧,提到Gemini可能会在医疗保健等高度敏感的问题上生成不准确信息。
好文章,需要你的鼓励
这项研究介绍了Ankh3,一种创新的蛋白质语言模型,通过多任务预训练策略显著提升了模型性能。研究者采用两种互补任务:多掩码概率的掩码语言建模和蛋白质序列补全,使模型仅从蛋白质序列就能学到更丰富的表示。实验表明,Ankh3在二级结构预测、荧光预测等下游任务中表现优异,尤其在模型未曾训练过的任务上展现出强大泛化能力,为蛋白质设计和分析开辟了新路径。
法国波尔多大学研究团队开发了一个突破性框架,用于神经退行性痴呆症的差异化诊断。该框架将3D脑部MRI转换为文本报告,并利用强化学习优化的大语言模型进行详细诊断推理。不同于传统"黑箱"方法,这一系统能生成透明、有因果关系的解释,同时保持高诊断准确率。研究显示,通过群组相对策略优化(GRPO)训练的轻量级模型能展现复杂推理行为,包括假设检验和非线性思考,提供与临床决策流程一致的排序诊断结果。
这项研究提出了CLUE框架,首次能够生成自然语言解释来揭示AI事实核查系统不确定性的来源。与现有方法不同,CLUE能识别文本片段间的冲突与一致关系,并解释它们如何影响模型的预测不确定性。实验表明,CLUE生成的解释在三种语言模型和两个事实核查数据集上都更忠实于模型不确定性,用户评价其更有帮助、信息更丰富、冗余更少且逻辑更一致。CLUE不需要微调或架构更改,适用于任何白盒语言模型,为事实核查提供了实用支持。
来自香港科技大学和MiniMax的研究团队开发了SynLogic,一个可合成35种逻辑推理任务的框架与数据集,填补了AI逻辑训练资源缺口。研究表明,在SynLogic上进行强化学习训练显著提升了模型逻辑推理能力,32B模型在BBEH测试中超越了DeepSeek-R1-Distill模型6个百分点。更值得注意的是,将SynLogic与数学和编程数据混合训练不仅提高了这些领域的学习效率,还增强了模型的泛化能力,表明逻辑推理是构建通用AI推理能力的重要基础。