至顶网个人商用频道 09月18日 北京消息 9月11-9月13日,首届北京国际语言文化博览会(以下简称语博会)在京举行,作为本次大会的首席战略合作伙伴,中译语通科技(北京)有限公司(以下简称中译语通(GTCOM))全程深度参与。9月12日举行的语博会“语言科技与人类福祉”国际语言文化论坛上,中译语通(GTCOM)CEO于洋发表题为“人工智能时代的语言科技创新”的主旨演讲。回顾中译语通(GTCOM)五年来的发展进程,以及对如何构建语言科技、语言服务新生态的思考,并解读中译语通(GTCOM)在人工智能时代契机下的语言科技创新之力。
传承历史到砥砺前行
语言是文化的象征,而文化则离不开传承,关于语言的话题从来没有像今天这样如此丰富。从文化到经济、从政治到军事、从现实到虚拟,在科技领域作为人工智能核心的语言智能引领潮流。中译语通(GTCOM)则在这样的契机下,运势而生。于洋用数据解读了这5年来中译语通(GTCOM)的发展轨迹。
2014年中译语通(GTCOM)发布了机器翻译,随着技术的跃升,目前中译语通(GTCOM)在机器翻译领域已扩展到32种语言,992种语言方向,每天访问量超过了1.5亿次,而通过机器翻译进行大数据的运算,一天超过200亿次,也就是说机器翻译每天要翻译4000亿次,这些数字的背后是依托亿万级语料库、强大的技术研发实力及40余年的优秀管理运营经验的积淀。2015年,中译语通(GTCOM)首创跨语言大数据概念,发起语言大数据联盟(LBDA),当前联盟在全球已经拥有167所高校和语言研究院所的加入。
随着互联网的深入,大数据、人工智能时代的到来,则让中译语通(GTCOM)拥有更大的展现舞台,并在短时间内完成从语言服务企业到跨语言大数据提供商的华丽战略转型,打造出译云语言科技生态、译见大数据技术生态两大核心生态,当人们还沉浸于大数据、人工智能带来的思维颠覆时,中译语通(GTCOM)已站在了“巨人的肩膀上”。
构建语言科技、语言服务新生态
随后于洋侧重讲述了对语言科技、语言服务新生态构建的思考。在新生态下,机器翻译将起到“连接器”的作用。目前中译语通(GTCOM)可以承载每天3000万+篇网页数据,5亿+的社交数据日更新,多达65+种语言,以及EB级全球互联网开放性文本及多媒体数据。于洋提出,如果能把所有的语言符号去除“语言”的外壳,“化身”为可分析的结构化数据后,经过分析和解构,我们能清晰的看到这些数据点绘制出的一幅数据地图,挖掘数据背后的奥秘,将会爆发出更大价值。
正如于洋所谈到的那样,未来跨越语言、跨越时间的海量数据,将成为人工智能纵深发展的驱动力。在今天,我们讲的人工智能,它只是一种算法、一种技术,而数据则会贯穿始终。一年前人们的认知停留在算法秒杀一切,在今年,人们更多看到的是数据升级下的巨大潜能。当我们拥有了海量的、高质量的数据时,数据就足以秒杀算法。
未来,中译语通(GTCOM)将继续深耕大数据应用领域,致力于推动语言科技、语言创新服务的融合发展,通过跨语言大数据和AI认知技术的发展,打破语言壁垒,大大提升科研能力和认知范畴,这无疑将对语言服务行业带来巨大影响力。同时机器学习技术在机器翻译上的应用也赋予冰冷的机器思考的能力,正如本次论坛主题所阐述的那样,以语言科技之名,创新人类福祉,最终让AI+大数据+语言科技认知智能的场景化应用变得触手可及。
好文章,需要你的鼓励
随着员工自发使用生成式AI工具,CIO面临影子AI的挑战。报告显示43%的员工在个人设备上使用AI应用处理工作,25%在工作中使用未经批准的AI工具。专家建议通过六项策略管理影子AI:建立明确规则框架、持续监控和清单跟踪、加强数据保护和访问控制、明确风险承受度、营造透明信任文化、实施持续的角色化AI培训。目标是支持负责任的创新而非完全禁止。
NVIDIA研究团队开发的OmniVinci是一个突破性的多模态AI模型,能够同时理解视觉、听觉和文本信息。该模型仅使用0.2万亿训练样本就超越了使用1.2万亿样本的现有模型,在多模态理解测试中领先19.05分。OmniVinci采用三项核心技术实现感官信息协同,并在机器人导航、医疗诊断、体育分析等多个实际应用场景中展现出专业级能力,代表着AI向真正智能化发展的重要进步。
英国正式推出DaRe2THINK数字平台,旨在简化NHS全科医生参与临床试验的流程。该平台由伯明翰大学和MHRA临床实践研究数据链开发,能够安全传输GP诊所与NHS试验研究人员之间的健康数据,减少医生的管理负担。平台利用NHS现有健康信息,安全筛查来自450多家诊所的1300万患者记录,并使用移动消息系统保持试验对象参与度,为传统上无法参与的人群开辟了研究机会。
Salesforce研究团队发布BLIP3o-NEXT,这是一个创新的图像生成模型,采用自回归+扩散的双重架构设计。该模型首次成功将强化学习应用于图像生成,在多物体组合和文字渲染方面表现优异。尽管只有30亿参数,但在GenEval测试中获得0.91高分,超越多个大型竞争对手。研究团队承诺完全开源所有技术细节。