最近不少修图软件都开始推出生成式AI功能了,比如这两周大火的Remini、Lensa可以根据照片内容生成其他风格的图片,老牌的Canva也接入了AI实现图像生成功能。
Remini
不过想要不受限制的使用这些工具,用户都需要额外支付订阅费用,而且这些软件功能颇为单一,每年两三百的订阅费用实在算不上便宜。
DALL·E出现后,ChatGPT的用途也进一步扩大到了图像生成,但写提示词一直都是个麻烦事,所以官方才推出了“GPTs”,在它的探索页面就能看到一个“DALL·E”专属的分类。
在这个分类下,排名比较靠前的几个GPTs里面,实用性比较强的就是logo设计和纹身设计,其他几个虽然乍看之下比较有用,但还是娱乐属性更多一些。
Logo设计师
在前12名图像GPTs当中,刚好有两个都针对logo设计推出。排在第4名的“LOGO”,在刚开始对话的时候,如果你没有提供更多信息,它会主动提问:
它在文中提到“提供的文件”,说明这个作者在创建GPTs的过程中,不仅提供了提示词,还上传了一份文件作为参考。
所以按照普通用户的使用逻辑,我用这个“LOGO”生成了几个logo,可能是作者提供的文件资源太有限,经过几轮修改,生成的结果看起来都有些差强人意,不是太复杂就是太简陋。
相比“LOGO”,排名比较靠前的“Logo Creator”在收到用户提出需求之后,先按照它自己的思路提几个预先设置好的选择题,从风格(活泼/严肃)、复杂度(1-10)、色彩搭配、生成数量几个角度提问。
不论一开始提出怎样的问题,它都会先提出这四个提问,可以通过这种循序渐进的模式获得最终生成的图片,也可以选择从第一题开始跳过所有提问,直接用默认选项生成。
生成效果看起来的确比“LOGO”好一些,后续修改生成的logo图片完成度也相对比较高,这可能也是它排名位于DALL·E分类第2名的一大原因。
故事插画师
在这些图像生成工具里面,“Consistent Character GPT Fast & High Quality”也是比较特殊的一款,虽然排在第11位,定位看起来也是介于实用性和娱乐性之间,但是它能为你的人物故事添加连贯且割裂感不那么强的插图。使用方式十分简单,点击预先设置好的开始按钮或直接发送需求,它就会开始向你提问。
和“Logo Creator”类似,它会先询问这个角色的性别、名字、更多细节(年龄/国籍/发型/服装等),这样一个基本人物造型就设计出来了。
接下来它会询问你希望这个人物做什么动作,或是做出什么样的表情,之后需要你加以描述。虽然生成的结果还是有一定的随机性的,比如生成了几个不同的动作后,还是会看到这个人物的面部特征发生一些变化,但有时候生成出来的一套图片已经是一种“基本可用”的状态。
虽然还很难说它是一套优质的作品,但用在社交媒体上作为段子内容的补充还是绰绰有余的。
如何让GPTs成为设计师?
不过有时候我们会需要符合某些特定需求的GPTs,DALL·E让ChatGPT有了图像生成的能力,但也需要一套逻辑严谨的提示词才能达到很好的效果。通过使用这些热门GPTs工具,我也发现它们似乎存在某些共通性,这也许会是设计一套好的提示词所必须的条件。
明确角色任务:
让GPT进入自己的角色,它是平面计师还是插画师?特别擅长哪些方面的设计?如果是设计一个为他人使用的GPTs,可能还要明确它在每一次的对话中的主要任务,确保对话不偏离主题。
制定约束条件:
细化任务的内容,基础信息如生成图像的风格、画面比例、细节丰富程度等等,有时候可能还要明确不要在画面里出现什么样的内容,之后再明确执行步骤。
迭代生成结果:
为了提供更符合要求的内容,有时需要在一次任务的执行过程中进行多次迭代,这类似于我看到AI生成内容后给它一个反馈,再让它重新生成一次。实际上我也可以让它自行评估生成的结果,然后再根据评估的内容重新生成一次。
按照这样的特点,我尝试设计了一套提示词,由于是需要直接使用的,所以需要在使用时预先设定好所有需求,也省略了向用户提问题的步骤:
你是一名资深平面设计师,尤其擅长简单流畅的标志设计。现在请你设计一个标志,请按照以下规则和流程来执行。
规则:
- 设计的图形要切实符合用户需求的标准。
- 不要使用可能侵害他人权利的图形,包括一些已经存在的标志如Adidas、Nike、Google等等。
- 生成的图像以1:1的比例呈现。
- 标志图像使用的背景为纯色,务必干净整洁,不要有任何场景。
流程:
你需要执行以下3个步骤:
1. 根据需求直接生成内容,确保生成的图像完全符合需求条件;
2. 根据第1步生成的结果,明确列出第1步生成的图像存在哪些问题,包括但不限于:
- 画面不够简洁
- 画面比例错误
- 颜色搭配错误
3. 根据第1步生成的内容和第2步提出的问题,重新生成图像,保证符合用户需求的前提下,完善图像设计。
返回格式如下,"{xxx}"表示占位符:
### 第1步
{生成结果}
### 第2步
{第1步图像的具体问题}
### 第3步
{生成结果}
### 用户需求:
(在这里填入你的个性化需求)
这套提示词首先明确了自己是一个擅长简洁标志设计的平面设计师,它要做的任务就是设计标志;在规则中明确了它需要生成的图像尺寸和内容限制;在流程中设计了一次自我评估与迭代过程。
其实这样的提示词还有很多自定义的空间,例如可以在规则中添加更多要求,比如让它只能生成圆润的图形,或者是在流程中执行多次迭代,虽然是以获取最终生成的图像结果为目的,却也得到了多个不同的设计方案。
按照这样的逻辑,只要有足够的限定条件,你甚至可以把这个图像设计的提示词改造成其他类型,比如写代码生成、文案编辑等等。虽然目前生成的结果依然存在某些不确定性,对于专业设计师来说,却还是具有很高的参考价值。
好文章,需要你的鼓励
这项研究由浙江大学、复旦大学等机构联合完成,提出了ReVisual-R1模型,通过创新的三阶段训练方法显著提升了多模态大语言模型的推理能力。研究发现优化的纯文本冷启动训练、解决强化学习中的梯度停滞问题、以及分阶段训练策略是关键因素。ReVisual-R1在各类推理基准测试中超越了现有开源模型,甚至在某些任务上超过了商业模型,为多模态推理研究开辟了新途径。
这项研究提出了一种名为"批评式微调"的创新方法,证明仅使用一个问题的批评数据就能显著提升大语言模型的推理能力。研究团队对Qwen和Llama系列模型进行实验,发现这种方法在数学和逻辑推理任务上都取得了显著提升,平均提高15-16个百分点,而且只需要强化学习方法1/20的计算资源。这种简单高效的方法为释放预训练模型的潜在推理能力提供了新途径。
新加坡国立大学研究团队开发了名为IEAP的图像编辑框架,它通过将复杂编辑指令分解为简单原子操作序列解决了当前AI图像编辑的核心难题。研究发现当前模型在处理不改变图像布局的简单编辑时表现出色,但在需要改变图像结构时效果差。IEAP框架定义了五种基本操作,并利用思维链推理技术智能分解用户指令,实验证明其性能显著超越现有方法,尤其在处理复杂多步骤编辑时。
Character AI的研究者开发出TalkingMachines系统,通过自回归扩散模型实现实时音频驱动视频生成。研究将预训练视频模型转变为能进行FaceTime风格对话的虚拟形象系统。核心创新包括:将18B参数的图像到视频DiT模型改造为音频驱动系统、通过蒸馏实现无错误累积的无限长视频生成、优化工程设计降低延迟。系统可让多种风格的虚拟角色与人进行自然对话,嘴型与语音同步,为实时数字人交互技术开辟了新可能。