给猫咪戴上墨镜、让麦田圈变成甜甜圈、在沙滩上显示你的名字…… 三言两语就能让AI生成一段视频,从早期的Runway到Pika,再到前阵子引起热议的Sora,每款产品出现,舆论都直指好莱坞,视频制作的门槛立刻被拉了下来。
其实Pika Labs的成立到现在也不过一年时间,去年11月29日,Pika 1.0发布时,宣传视频展现出惊艳的生成效果,只有4人的小团队,加上创始人是从斯坦福退学的两位年轻华裔女性,让Pika在当时变得极具话题性,也在中国引起热议。
不过Pika生成视频的效果至今没有什么进步,看起来也很难与Sora抗衡,所以目前Pika也只是更多地在功能和使用体验上下功夫。
在短短不到半年时间里,Pika增加了不少新功能,不仅能根据视频画面生成音效,还能为人物对口型,最近还推出了风格选项。Pika正试图把自己打造成一个“all in one”的视频制作工具,从画面到声音,一手包办。
Pika非常好上手,除了可以上传照片和视频外,使用方法基本和ChatGPT无异——输入你的指令,发送出去就行了。不过Pika比较麻烦的是,每次只能生成3秒钟的视频,如果想用Pika制作较长的视频,需要订阅它的几档付费计划,这样就能直接在上一次生成的3秒钟视频里接续生成后面的内容。
不过在生成完的视频下方点选“Add 4s”后的对话框界面,可以看出,它延长视频时间的方法,也只是在上一次生成的视频画面基础上,搭配提示词,而且也只能生成4秒钟而已。
所以我也可以截取生成完视频的最后一帧,配合提示词,让之前生成的故事延续3秒钟。
不过和许多生成式AI一样,Pika生成的内容也有一定的不可控性,想要最好的效果,不仅要精心设计提示词,也需要多多试错。
在修改视频的步骤上,Pika最近推出了修改风格(Styles)的选项,提供动漫、阴郁、3D、水彩、自然、粘土动画、黑白7种选择。
在实际选择一种风格后,就能看到一句提示词,说明这些改变风格的选项本质上还是通过输入提示词来实现的。
对比生成效果,构图虽然没有多大变化,风格夜的确是粘土动画,但整体的颜色还有任务的神态并没有很好的还原出来。
可能是为了弥补视频生成能力的不足,所以Pika一直在丰富自己的功能。前阵子还加入了音效(Sound Effects)生成能力,简单来说,就是让Pika识别视频内容,并搭配一段合适的音效。
有时候Pika为视频生成的音效完全看不出与视频本身有任何关联性,所以Pika每次都会提供三种音效供选择,这也许也算是一种“补救措施”吧。
不过生成的音效到底能用,还是取决于视频内容,如果没有明显的场景,Pika可能也难以决定放怎样的音效比较适合。
比如烟花的画面就比一间会议室或简单的人像更容易识别,你甚至不需要额外补充提示词,它就能生成完全符合画面内容的音效。
如果是人像画面,其实对口型(Lip sync)功能更适合它,只是这个功能与Pika的主要能力关联性不是很强,因为这个选项需要上传视频或照片,或者在生成好的视频里面点“编辑”按钮才能出现,而不是在文生图的过程中“顺便”完成一下。
可以输入文字,选择几个预设的声音,让他们帮你朗读,或者直接上传音频,根据音频内容对口型。
朗读的声音还是比较自然的,而且讲中文的语气也挺自然的,但问题是口型不太自然,能看得出是AI生成的。
Pika目前给我一种“泛而不精”的印象,什么功能都要沾一点,但表现都不尽如人意。也许现在的Pika定位娱乐体验多于生产力,从输入框旁边的骰子按钮就能看出这一点。
不过Pika也在丰富各种功能,而且每一项功能的使用体验都可以说相当精美,对于生成视频的画面比例、反向提示词、运动强度等等也有专门的区域做调整,甚至还提供了文件夹方便管理生成的项目,可以看出它在生产力上面也有十足的野心。
好文章,需要你的鼓励
雅虎、Quora、Medium等在线媒体品牌正采用名为RSL的新协议,防止AI公司未经授权复制其内容用于模型训练。RSL协议基于RSS标准开发,为AI时代的互联网提供缺失的许可层。该协议旨在成为比robots.txt更强大的技术层,应对目前占互联网流量一半以上的AI爬虫。Reddit、MIT出版社等多家机构已加入该协议。随着AI导致网站流量下降25%,出版商正通过诉讼或授权协议寻求补偿。
腾讯ARC实验室推出AudioStory系统,首次实现AI根据复杂指令创作完整长篇音频故事。该系统结合大语言模型的叙事推理能力与音频生成技术,通过交错式推理生成、解耦桥接机制和渐进式训练,能够将复杂指令分解为连续音频场景并保持整体连贯性。在AudioStory-10K基准测试中表现优异,为AI音频创作开辟新方向。
思科280亿美元收购Splunk后的18个月里,两家公司专注于将Splunk的机器数据分析技术与思科网络产品线融合,打造"思科数据织网"。Splunk平台高级副总裁表示,收购后的协同效应为Splunk带来新动力,公司策略得到放大而非偏离。双方快速整合工程团队,推出AI Canvas等项目,致力于解决企业IT数据孤岛问题。新举措包括将机器数据与业务洞察连接,推出面向Snowflake的联邦搜索功能。
Meta与特拉维夫大学联合研发的VideoJAM技术,通过让AI同时学习外观和运动信息,显著解决了当前视频生成模型中动作不连贯、违反物理定律的核心问题。该技术仅需添加两个线性层就能大幅提升运动质量,在多项测试中超越包括Sora在内的商业模型,为AI视频生成的实用化应用奠定了重要基础。