至顶网个人商用频道 05月07日 北京消息(文/陶婧婕)提到AI(人工智能),人们往往最先想起的是AI智能音箱、AI智能机器人、AI手机等等让人目不暇接的产品。其实,AI落地的场景远不止于此。我们每天会用的导航地图APP内,有些就加入了AI技术;当你浏览电商APP时,首页推荐满足你心仪的产品,很多都是通过AI技术对“你”进行分析,之后再进行精准推送;AI还可以帮助艺术家鉴别画作的真伪,帮助新闻工作者写文章,甚至还可以帮助医生更好的掌握医患的病情……AI,正在加速渗透到各行各业当中。结合从业人员关注的AI技术+行业的融合问题,至顶网采访了影谱科技创新研发中心负责人吉长江,从而试图了解AI技术赋能文化娱乐行业的心路历程。
工信部原副部长杨学山曾表示,人工智能领域的创业一定要围绕价值,首先必须是真正的经济社会和生活中需要解决的问题;其次必须要把解决这个问题带来的价值,通过商业模型变成利润。这对于大多数人工智能企业来说都是个挑战,但也有少数企业实现了从解决问题到带来价值再到创造利润的过程。
以影谱科技为例,他们在过去多年一直在通过视觉技术带动文娱产业发展,提供基于智能影像生产相关的商业化综合服务,通过视频原生影像平台可自动扫描并挖掘视频内容中的海量可视化信息资源,自动批量智能拟真像素制作处理,通过综合利用智能影像生产等技术,影谱为视频产业降低制作环节生产成本,提高生产作业效率发挥了巨大作用。
吉长江认为,AI技术的“韧性”来自于对垂直行业的深入理解,对技术的需求一定是从市场中来,然后再到市场和用户中去。例如,现在短视频领域存在着一种矛盾,就是用户对于视频的需求激增,尤其随着近两年短视频的爆发,对视频的需求是越来越紧迫,量越来越大,但是产量却是不足的,尤其是有一些媒体形式还停留在文字跟声音这个阶段上,怎么让他们把这种单一的信息形式快速的转换成更迎合用户需求和口味的视频的方式,这是非常有价值的工作;另一方面,就是传统影视内容生产的自动化程度不高,传统影视制作非常依赖于计算机,但是即使有这样的工具存在,工作量还是非常巨大并且很繁琐,因此,提升视频的生产效率同样备受期待。他们的一些工作都是通过洞察到这样的行业痛点而产生研发初衷的,理解行业是必要条件。
“影像,谱未来”是影谱科技的技术使命,吉长江也认为,影谱的研发工作一直也是围绕影像端展开的。为什么要用AI技术来产生视频内容呢?吉长江解释道,视频创作的方式可能有两种,一个是,比如说要创造一个电影,从手工搭建场景、制作道具开始,然后把这些元素叠加在一起,形成一种影像。还有一种,比如提到一个概念,或者一个想法的时候,你并不能把里面的所有元素在你脑海当中造出来,而是从过往的视觉经验中“生成”某种影像的东西,这种现象特别符合现在AI的本质。AI的本质就是从数据中学习和提取特征,进而把这个特征还原成我们所需要的东西。当我们积累了足够多素材的时候,这条路理论上是能走的通的。比如“飞翔的感受”,可以从坐飞机的经验、或者看到鸟类飞翔的状态想象出来,我们称这种经验数据为素材库。素材库内的内容,我们可以从以往的影视资料当中来提取,画面、镜头等内容都可以成为素材,当素材库的量达到一定的级别,变成个海量的时候,我们就可以从这个素材库中进行特征学习,然后采用组合或生成的技术,进行视觉内容的创造,这就是影谱智能影像生产的实现过程。
据了解,自动化视频生产AGC(Auto- Generating Video Content)是影谱科技的核心引擎之一,可以实现影像的识别及内容生产。今年两会期间,影谱就通过自由素材库的内容,尝试根据语义场景生产可视化信息,为“委员全息履职”栏目带来更丰富的内容和趣味性。
吉长江表示,AGC是四个要素的组合,即数据+算法+领域知识+商业模式,缺一不可。好的技术未必是有用的技术,根本是看能不能解决实际的问题。
近期,网络上用AI技术把一个人的脸换成另外一个人的脸的恶搞视频非常多,这种现象引申出来一个新的名词——AI作恶。把AI技术用于不好的地方,大家从伦理的角度来理解这个事情,如果沿着这条路走下去的话,一定是死胡同。吉长江认为,技术的真正价值在于能够整合到现有行业和技术解决方案中,优化和重构产业格局。比如上面说的视频AI换脸,应用到虚拟主持人方面就为媒体行业带来了很好的生产变革。
还有很多领域可以让AI技术大展拳脚,比如说短视频与VR。短视频领域的火爆,抖音等APP的成功,有一个非常有利的条件,用户能够用最简单的方式(手机拍摄)来生产内容,吉长江认为,这个可能还是一个比较初期的方式,未来,随着技术的进步发展,包括硬件条件的进步成熟,或许人人都可以去做视频特效,人人都可以去做建模,这可能是下一步的趋势。
好文章,需要你的鼓励
微软研究院推出VIBEVOICE,这是一种革命性的AI语音合成技术,能够一次性生成长达90分钟的多人对话音频。
成均馆大学团队开发出选择性对比学习新方法,让机器通过观察人类交互场景学会识别物体功能部位。该技术突破传统局限,采用动态学习策略,能根据信息质量调整学习方式,在多个数据集上显著超越现有方法,为机器人、自动驾驶等领域的智能交互应用奠定重要基础。
微软与三星达成合作,将Copilot人工智能助手集成到三星的智能电视和显示器产品中。用户可以通过语音或遥控器直接与Copilot交互,获得智能问答、内容推荐、设备控制等服务。这一合作标志着AI助手从传统计算设备向家庭娱乐设备的进一步扩展,为用户提供更加智能化的观看体验。
新加坡南洋理工大学研究团队开发出EgoTwin系统,这是首个能够根据文字描述同时生成第一人称视频和匹配人体动作的AI框架。该系统通过创新的头部中心动作表示方法和因果交互机制,解决了视角对齐和动作画面同步的核心难题,在17万样本的真实数据集上实现了显著性能提升,为VR内容创作、影视制作等领域提供了新的技术可能。