谁能代表在线笔记?2008年,App Store刚刚诞生,Evernote作为第一批上线的应用程序,下载量急速增长,甚至一度成为在线笔记应用的代名词。如今Evernote已经走向衰落,2016年出现的Notion迎头赶上,迅速风靡多国,成为新一代笔记王者。2022年,同样是几乎与ChatGPT的诞生同步,Notion AI在11月开启内测。
尽管界面风格与使用体验截然不同,但Notion的确与Evernote存在相似的地方。例如保存网页的功能,可以让公开的在线资料变成私有的笔记内容。不过Notion认为这远远不够,它希望用户能用它搭建一个专属于自己的“维基百科”,原本功能已经相当丰富的Notion,在AI加入以后也让内容的收集、整理和查找变得更加容易。
按下空格键召唤AI,输入指令,它就能生成内容。Notion AI的使用体验就像与ChatGPT对话一样,但返回的内容又不完全一样。当我让它总结一篇文稿的时候,它则是直接在下方列出里面的重点,而不会像ChatGPT那样先来一个“开场白”。
这和我们使用智能音箱的体验有点像,有的智能音箱搭载的虚拟助理会力求表现得像个人类,连关灯这样的小事都要用语音回应,实在有点反人类,所以后来很多智能音箱都提供了一个静音或以提示音回应智能家居命令的选项。
不得不说,这样的细微之处,Notion处理得非常好。作为一款笔记产品,如果AI返回的内容有一大堆开场白,用户就必须手动把这些内容清除掉,使用ChatGPT生成的内容很多时候也需要这么做。
不过对于ChatGPT,我们依然可以通过额外的指令让它直接返回重要的内容,无非也就是多输入几个字,每月额外支付费用订阅Notion AI看起来还是有点小题大做了。
其实Notion AI能做到的不仅如此,Notion从一开始就希望AI功能可以和产品融合得更好。比如你可以直接在对话中询问有关其他笔记的内容,或是把两个笔记关联到一起,如果直接在ChatGPT上进行这样的操作,至少可能需要三四轮对话才能完成了。
这项功能一直没有加入什么新玩法,所以如果想把Notion当作一个编辑器,让它帮你生成个插图这种事就别想了。
不过Notion已经从另一个角度出手,在原有功能基础上,Notion AI又在本月推出全新功能——Q&A。遗憾的是,目前这项功能同样处于内测阶段,并非所有用户都能立刻体验到。
尽管如此,但是官方给出的介绍也足够详细,简单来说,就是可以把你在Notion上记录过的内容作为数据库,你可以用自然语言向它提问,或是查找笔记、罗列笔记内容等等。
根据一些内测用户反馈的使用体验,可以看出Notion对这项功能的设计也相当谨慎,甚至没有类似ChatGPT那样的“对话记录”。这也说明Notion希望它只是一个搜索工具,与聊天机器人作出区隔。
值得一提的是,在搜索里加入AI这件事,已经快被遗忘的Evernote也做了,同样强调可以通过自然语言来搜索。当我输入一段搜索需求时,能看到它的确返回了一些结果,有意思的是,它还会显示一个“阅读更多内容”,点开就会发现系统使用了哪些关键词。
这行字像极了“Let me Google that for you”(我来给你Google一下)那个网站最后出现的“拜托……真有那么难吗?”简直是对一个中老年互联网用户的侮辱!
虽然Evernote也列出了一些预设指令,但有些让它帮忙汇整笔记内容的指令输入进去后,它并不能返回任何有用的信息。
相比之下,早在2018年从Evernote独立出来的“印象笔记”,虽然也快被用户遗忘,但是它的“印象AI”看起来更有诚意些。
印象AI的功能设计和Notion AI如出一辙,操作逻辑也差不多,只是在“/”基础上加入了以拼音首字母为缩写的指令。比如我想让它“继续写作”,输入“/jxx”就可以了。
印象笔记在中国也做了一个类似Notion的产品——Verse,准确来说,更像是结合了Notion与Obsidian两款笔记应用的产品。只是我实在想不出这个名称的由来,可能是“metaverse”?至于logo就有点似曾相识了:
尽管如此,Verse这款产品的完成度还是很高的,在Verse里使用印象AI,视觉上也和Notion AI很像,但是唤醒指令稍有不同:
Notion可能考虑到通常人们很少在段落的最初就敲空格,所以就以空格键作为直接唤醒AI的方式,使用“/”则会出现包括AI在内的更多功能;
印象笔记也许是考虑到中文空两格的写作习惯,再加上魔法棒在很多时候已经代表了软件上的AIGC功能,所以只有“/”一个快捷键。
两种方法都不会对使用体验造成太大影响,简单来说就是“习惯就好了”,不过两者对于内容的理解可能不大一样:
印象AI:尝试用里面内置的示例文件来继续编写,接续上面的代码块示例,它直接生成了一个车轱辘话小剧场。
Notion AI:同样的文件内容,放到Notion上,选择继续编写,Notion AI生成的内容看起来乱七八糟,但可以看出它似乎在模仿原本的逻辑和格式。
为什么会出现这种差异?也许和产品本身使用的大模型有关,但也可能和软件开发者对大模型的微调方式有关。
还记得OpenAI前阵子推出的GPTs吗?用户可以自己动手设计一些自然语言指令,以此开发出各式各样的聊天机器人,也许Notion和印象笔记同样是在这些地方“动手脚”,只是具体细节上的不同,导致生成结果出现这样的差异。
在用自然语言开发应用程序实现之前,通过自然语言为应用程序构建一套完成度较高、体验优秀的人工智能也许已经成为现实。看来,开发者们未来不仅要比拼码代码的能力,在训练大模型的技巧上,也要快马加鞭了!
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。