据彭博社报道,谷歌与苹果间签署的Safari默认搜索引擎协议对这家搜索巨头而言意义重大,谷歌甚至不惜将搜索广告收入中的36%交给苹果,以保持其搜索引擎在苹果浏览器上的默认首选地位。
谷歌和苹果一直反对公开这份长期默认搜索协议中的具体细节。但就在本周一司法部的谷歌搜索业务垄断案审理期间,谷歌首席经济专家Kevin Murphy在证词中不慎说出了这部分内容。
专门发布谷歌最新庭审消息的账号Big Tech on Trial在社交媒体平台X上评论称,“这可能是整场庭审中的最大失误。”
根据彭博社的报道,Murphy话音刚落,谷歌律师John Schmidtlein“明显为之一颤”。谷歌之前曾声称这些信息必须保密,否则“将对谷歌自身乃至交易对象的市场竞争地位发生不合理的损害。”
美国司法部将谷歌与苹果的交易作为此次庭审的核心,指控谷歌通过协议维持对搜索业务的非法垄断。对于司法部来说,这一细节也证实了iPhone端上的默认搜索选项对于谷歌这位广告业巨头有着何等巨大的价值。
微软CEO表示,美国司法部认为谷歌为默认搜索交易支付如此高昂的费用,明显是为了阻止竞争对手、将搜索用户锁定在自家服务之内,并维持其在搜索行业的主导地位。微软CEO萨蒂亚·纳德拉还提出,谷歌在AI领域的进步有望继续巩固这一主导地位。今年9月,苹果一位高管凭证称,谷歌与苹果之间的默认搜索交易似乎利润颇丰,苹果甚至甘愿为此放弃自建竞品搜索引擎。
目前还不清楚谷歌搜索广告收入中,具体有多大部分来自Safari浏览器端,但相关猜测倒是不少。Statista报道称,2022年谷歌的全年广告收入为2240亿美元。基于这一数据,Engadget估计苹果可能凭借默认搜索交易从谷歌那边拿到了数百万美元的回报。
此前,有消息人士向《纽约时报》透露,谷歌曾在2021年的交易中向苹果支付了约180亿美元,但具体收入分成一直晦暗不清。本周一,长久的疑问终于有了答案。美国司法部近期的审理还显示,谷歌为这份合同支付了总计260亿美元的费用,但从迅速攀升的广告收入来看,这份买卖做得并不算亏。据Statista的报道,到2027年,谷歌的全球广告收入可能达到近3400亿美元,这主要是受谷歌搜索引擎流量的推动,且目前搜索引擎流量占其全球广告收入的“约38%”。
Digital Content Next公司CEO Jason Kint在X上发帖指出,总的来说,全部默认搜索交易在谷歌“当前年收入中至少贡献了900亿美元”。
上个月,谷歌公司CEO桑达尔·皮查伊作证称,默认交易“确实有一定影响”,只要“处理得当”确实能带来“巨大的价值”。但他同时坚守住谷歌的主要辩护观点,即苹果等合作伙伴之所以愿意与谷歌达成交易,前提是谷歌的优秀搜索引擎确实傲视同侪。
如果司法部证明这些默认搜索交易确实让谷歌在一般搜索市场上构成了非法垄断,那么谷歌可能将被迫拆分其搜索业务。这不仅会改变谷歌的业务基本盘,同时也会对苹果等合作伙伴造成巨大冲击。
虽然庭审进入新的一周,但谷歌从交易中获利的脚步一刻未曾停歇。据Search Engine Land报道,从2022年到2023年,谷歌的广告收入增加了50亿美元。似乎正如纳德拉所预料,皮查伊将这些收益归因于AI驱动下谷歌产品(包括搜索服务)的创新回报。
皮查伊在声明中表示,“我们将继续致力于让AI为更多人提供帮助,我们已经取得了令人振奋的进展,未来还将交出更漂亮的答卷。”
主持反垄断审判的Amit Mehta法官认为,谷歌与苹果之间的默认搜索协议正是此次司法部诉谷歌案的“核心”。随着谷歌为了维持交易而向苹果支付的分成比例的年,司法部希望说服Mehta认定此项交易有利于谷歌在与对手竞争时获取不公平优势。本周,谷歌一方证人的失误可能会扰乱谷歌原本设计好的辩护思路和自述节奏。
Mehta法官预计要到2024年才会对此案做出裁定。
好文章,需要你的鼓励
DeepResearchGym是一个创新的开源评估框架,专为深度研究系统设计,旨在解决当前依赖商业搜索API带来的透明度和可重复性挑战。该系统由卡内基梅隆大学研究团队开发,结合了基于ClueWeb22和FineWeb大型网络语料库的可重复搜索API与严格的评估协议。实验表明,使用DeepResearchGym的系统性能与使用商业API相当,且在评估指标间保持一致性。人类评估进一步证实了自动评估协议与人类偏好的一致性,验证了该框架评估深度研究系统的有效性。
这项研究介绍了FinTagging,首个面向大型语言模型的全面财务信息提取与结构化基准测试。不同于传统方法,它将XBRL标记分解为数值识别和概念链接两个子任务,能同时处理文本和表格数据。在零样本测试中,DeepSeek-V3和GPT-4o表现最佳,但在细粒度概念对齐方面仍面临挑战,揭示了当前大语言模型在自动化XBRL标记领域的局限性,为金融AI发展提供了新方向。
这项研究介绍了SweEval,一个新型基准测试,用于评估大型语言模型在企业环境中处理脏话的能力。研究团队从Oracle AI等多家机构的专家创建了一个包含八种语言的测试集,模拟不同语调和上下文的真实场景。实验结果显示,LLM在英语中较少使用脏话,但在印地语等低资源语言中更易受影响。研究还发现较大模型通常表现更好,且多语言模型如Llama系列在处理不当提示方面优于其他模型。这项工作对企业采用AI技术时的安全考量提供了重要参考。
这项研究提出了"VeriFree"——一种不需要验证器的方法,可以增强大型语言模型(LLM)的通用推理能力。传统方法如DeepSeek-R1-Zero需要验证答案正确性,限制了其在数学和编程以外领域的应用。VeriFree巧妙地计算正确答案在模型生成的推理过程后出现的概率,作为评估和训练信号。实验表明,这种方法不仅能匹配甚至超越基于验证器的方法,还大幅降低了计算资源需求,同时消除了"奖励黑客"问题。这一突破将有助于开发出在化学、医疗、法律等广泛领域具有更强推理能力的AI系统。