小红书封面 Skill
读取文章内容或结构化入参 → 抽取封面目标 → 逐步补全缺失信息 → 多路生成 → Judge 改进 → 收敛输出提示词或封面图。
重要:一次只问一个问题,等用户回答后再问下一个。
运行模式
根据用户意图选择模式:
- prompt_mode:只输出可复制到图片生成模型的封面提示词。
- image_mode:先生成最终封面提示词,再在 Codex 中调用图片生成能力直接生成封面图。
- production_mode:生成更适合落地的封面资产。优先生成无字或弱文字底图,再用后期方式叠加清晰中文标题,避免图片模型生成错误中文。
默认:
- 用户说“生成提示词”“给我 prompt” →
prompt_mode - 用户说“生成封面图”“直接出图”“做一张封面” →
image_mode - 用户强调“可发布”“中文字要清楚”“生产可用” →
production_mode
详细入参见 references/input-schema.md。详细模式规则见 references/generation-modes.md。详细 Judge 规则见 references/judge.md。持久进化规则见 references/evolution-policy.md。
读取规则:
- 用户提供结构化参数时,先读取
references/input-schema.md。 - 用户要求直接出图或生产可用封面时,读取
references/generation-modes.md。 - 用户要求优化质量、对比多个方案、解释为什么这样设计,或需要生成最终版本时,读取
references/judge.md。 - 用户要求这个 Skill 自升级、沉淀经验、集中训练、复盘使用记录时,读取
references/evolution-policy.md,并使用memory/。
核心原则
这个 Skill 的目标不是直接写出一段封面提示词,而是持续逼近一个更可能被点击、被理解、被记住、并能稳定生成的封面方案。
运行逻辑:
文章内容
→ Target 提取
→ 信息补全
→ 标题 / 构图 / 主视觉多路尝试
→ Judge 找最弱点
→ 按改进动作修正
→ 输出最终提示词或生成封面图
→ 更新本轮记忆
Target 提取
在正式提问前,先从文章内容里提取封面目标。不要向用户展示长分析,只在内部使用。
必须提取:
- 内容主题:这篇文章到底讲什么
- 核心受众:谁最应该点开
- 点击动机:用户为什么要点
- 情绪方向:震惊、好奇、爽感、专业、温暖、反差、危机感、获得感
- 视觉主锤:封面上最应该被一眼看到的东西
- 标题方向:4-8个字,优先短、狠、具体
如果文章信息不足,先基于已知内容生成临时 Target,再通过后续问题补全。
如果安装目录里存在 assets/examples/,可把示例封面作为 Target Box:学习它们的构图、层级、标题密度、人物占比、遮挡关系和情绪强度,但不要复刻具体标题、人物、配色或画面元素。
Action Team
拿到用户回答后,不要只按模板直出。先在内部生成至少 3 个候选方向:
- 标题 Agent:提炼 3 个 4-8 字标题,优先保留高点击词、身份词、结果词、冲突词。
- 构图 Agent:判断用户所选风格是否匹配文章目标;如明显不匹配,给出更适合的备选风格,但仍尊重用户最终选择。
- 主视觉 Agent:把抽象主题转成具体物件、动作、卡片、界面、道具或空间关系。
- 情绪 Agent:让人物表情、动作、标题和背景情绪一致。
- 风险 Agent:检查是否存在文字太多、主体不清、抄参考图、发光特效廉价、元素超安全区、标题不可读等问题。
Codex 图片生成规则
默认输出比例:
- 小红书封面默认竖版
3:4 - 默认目标尺寸为
1080x1440 - 不要只在提示词里写 3:4;生成后必须检查实际画幅
当运行模式是 image_mode:
- 先完成 Target、Action Team 和 Judge。
- 如果用户只提供正文、没有上传任何图片,先问是否要提供参考图,不要直接生成。
- 优先询问三类参考图:人脸参考图、现场/产品素材图、想模仿的样图风格。
- 用户明确说没有参考图,或要求直接生成无参考图版本后,才写出最终封面提示词。
- 在 Codex 环境中调用图片生成能力生成封面图。
- 检查生成结果是否为竖版 3:4。
- 如果不是 3:4,优先重新生成;如果重生成不可行,则裁切/排版成 1080x1440。
- 返回生成图片,并简短说明采用的标题、风格和需要用户复查的视觉点。
当运行模式是 production_mode:
- 优先生成无字或弱文字底图,明确保留标题区域。
- 不让图片模型承担长中文排版。
- 如果可用后期排版工具,使用确定性排版叠加中文标题。
- 输出前检查标题清晰度、对比度、安全区、主体遮挡和 3:4 画幅。
如果当前 Codex 环境不能生成图片,则退回 prompt_mode,输出可直接用于图片生成的最终提示词。
参考图提问话术:
要不要上传参考图?可以给:
1. 人物/亲子参考图,用来保持出镜人物一致;
2. 活动现场图,用来做背景或素材;
3. 想模仿的封面样图,用来对齐风格。
如果没有,我可以直接做无参考图版本。
Judge 改进器
输出最终提示词前,必须让 Judge 做一次改进循环。Judge 不负责打分,负责把评估转成具体修改。
内部执行:
Draft
→ 找出当前最弱点
→ 说明为什么会影响小红书封面效果
→ 给出具体改进动作
→ 生成 Revised Draft
→ 检查是否还有明确改法
Judge 必须检查:
- 标题是否短、具体、有点击钩子
- 主视觉是否具体,不是抽象概念
- 人物、产品、标题是否只有一个第一主角
- 构图风格是否匹配文章目标和素材
- 图片模型是否能稳定生成
- 中文标题是否需要进入
production_mode - 安全区、遮挡、对比度是否适合小红书封面
默认最多改进 2 轮。若已经没有明确改进动作,或继续改会让画面更复杂,就停止并输出当前最佳版本。
Loop 规则
继续迭代,如果:
- 标题不够短、不够具体,或第一眼读不懂
- 主视觉仍是抽象概念,没有落到具体物件或动作
- 人物动作、标题、背景情绪不一致
- 风格模板和文章目标不匹配
- 画面里有两个以上元素同时抢主角
- Judge 找到明确可执行的改进动作
停止迭代,如果:
- 已经没有明确可执行的改进动作
- 两轮修改只是在换词,没有提升构图质量
- 继续强化会牺牲文字可读性或图片可生成性
- 用户明确要求快速输出
Memory 更新
每次完成后,必须产生轻量 Memory。Memory 的作用不是立刻改写 Skill,而是记录本轮有效经验,等待多次验证后再晋升为正式规则。
保留:
- 本轮有效标题结构
- 有效主视觉隐喻
- 有效构图选择
- 有效人物动作 / 表情
- 有效颜色和字体搭配
降权:
- 太抽象的视觉表达
- 过长标题
- 与素材不匹配的风格
- 廉价特效
- 让主体和标题抢焦点的组合
Memory 分三层:
memory/evolution-log.md # 每次运行后的观察
memory/rule-candidates.md # 多次重复后等待晋升的候选规则
memory/deprecated-rules.md # 需要降权或淘汰的失败路径
默认只在回答末尾展示 1-3 条本轮记忆。只有用户要求持久进化、集中训练、复盘或升级 Skill 时,才写入 memory/ 文件。
不要从单次生成直接改写 SKILL.md。稳定规律优先进入 references/evolution-policy.md 或其他 references;只有影响核心执行路径时,才升级 SKILL.md。
问题流程(逐一问,不要一次全问)
第1问:选风格
列出以下10种风格,让用户选一种:
- 深色渐变风 — 人物居中,大字覆盖后方,深色渐变背景,高对比强冲击
- 纯色扁平风 — 人物抠图感,纯色背景,干净清爽
- 产品主视觉风 — UI截图/产品占主体,人物做引导手势,适合有素材图
- 对比卡片风 — 人物手持两张对比卡片近大远小推向镜头,适合前后对比内容
- 极简留白风 — 大面积留白,文字是主视觉锤,人物轻量出镜
- 海报拼贴风 — 多张参考图叠加构图,分层有纵深,适合素材丰富的内容
- 人物侧置留白风 — 人物偏一侧占小比例,大面积留给标题,版面大气
- 背影构图风 — 人物背对镜头,制造代入感和想象空间
- 局部出镜风 — 只露手/半脸/侧脸,产品或文字是绝对主角
- 正面对视风 — 人物直视镜头,眼神接触,文字环绕脸部四周
第2问:图1
问用户是否有人脸参考图(图1):
- 有 → 让用户上传,提示词里写"参考图1的五官特征"
- 没有 → 让用户描述人物(性别、大致外貌),提示词里直接描述
第3问:人物表情
(背影构图风跳过此问)
给用户以下选项:
- 捂嘴惊讶 — 双手捂嘴,眼睛睁大,震惊感
- 张嘴震惊 — 嘴巴微张,眼神放大,强烈惊讶
- 开心大笑 — 嘴角上扬,眼睛弯起,真实喜悦
- 兴奋雀跃 — 眉飞色舞,身体前倾,藏不住的激动
- 自信得意 — 嘴角微扬,眼神笃定,"就这么简单"的感觉
- 托腮思考 — 单手托腮,眼神若有所思
- 推荐种草感 — 微笑点头,眼神看向镜头,"你一定要试试"
- 交给模型决定
第4问:额外素材
问用户有没有图2、图3等额外素材(UI截图、产品图、其他参考图):
- 有 → 问有几张、每张是什么内容
- 没有 → 跳过
第5问:背景色调
给用户以下选项:
- 浅色系 — 白/米白/浅灰,干净清爽
- 深色系 — 深灰/墨黑,沉稳有力
- 暖色调 — 米黄/暖棕/柔橙系,温暖感
- 冷色调 — 浅蓝灰/青灰系,冷静专业
- 高饱和撞色 — 模型根据选题选一对高对比色,活力感
- 交给模型决定
注意:极简留白风、人物侧置留白风默认浅色系背景,此问可跳过或仅问具体浅色色调。
第6问:字体风格
给用户以下选项:
- 超粗黑体 — 粗壮有力,干货/科技类首选
- 柔和圆体 — 圆角笔画,温暖亲切
- 手写涂鸦体 — 笔触自然,个性感强
- 极简无衬线 — 笔画均匀,国际范,设计感
- 复古宋体 — 有衬线,古典怀旧感
- 交给模型决定
第7问:字体颜色效果
给用户以下选项:
- 纯白 — 深色背景首选,干净清晰
- 纯黑 — 浅色背景首选,沉稳有力
- 渐变色 — 模型根据背景色调自行搭配
- 描边效果 — 字体加轮廓,增加层次感
- 交给模型决定
第8问:封面标题
根据文章内容提炼1-3个候选标题(4-8个字),让用户确认或修改。
最终输出格式
问完所有必要问题后,按以下结构输出:
## 封面提示词
[可直接复制到图片生成模型的完整提示词]
## 生成建议
- 画幅:竖版 3:4,适合小红书封面
- 重点:提醒用户最需要检查的 1-2 个视觉点
## 本轮记忆
- 保留:[本轮有效规则]
- 避免:[本轮需要降权的方向]
如果用户明确只要提示词,只输出 封面提示词,不要附加分析。
生成提示词的核心要求
拿到所有答案后,按对应风格模板生成提示词。提示词必须做到:
- 人物姿势具体:说清楚身体位置、手在哪、动作细节,不要"她做了一个动作"这种模糊描述
- 主体元素详细:主视觉元素长什么样、上面有什么内容、大小比例、动态或静态
- 空间关系清晰:前景/中景/后景各是什么,哪个遮挡哪个
- 背景和字体各风格不同:不要把同一套颜色字体套到所有风格上
- 先对齐 Target 再写模板:模板只是承载结构,标题、主视觉、情绪和颜色必须服务文章目标
- 先生成候选再收敛:至少比较 3 个标题/主视觉方向,让 Judge 找出最弱点并改进后写入最终提示词
风格一:深色渐变风
人物居中,大字覆盖人物后方,深色渐变背景,高对比强冲击。
视觉特征
- 背景:深色渐变(用户指定色调,或模型根据选题决定)
- 字体:超粗,白色或渐变色,覆盖在人物身后
- 前景:少量扁平图标或3D拼贴物件点缀
- 整体:高饱和,又整齐又凌乱的美感
固定
- 人物:参考图1五官,只要半身
- 元素不超出安全区
变量
- 人物表情和动作
- 主视觉元素和叙事行为
- 中央大字
- 前景散点小元素
- 背景具体色调
- 字体风格和颜色
提示词模板
参考图1的[性别]五官特征,保持五官一致性,只要半身。
[具体表情描述],[人物身体位置和姿势],[右手/左手的具体动作],
[主视觉元素的叙事行为,描述清楚人物和元素之间发生了什么],
[主视觉元素的详细描述:形状/内容/大小/动态],
(如有图2/图3:[参考图编号]作为[具体呈现方式和位置])
巨大的中文大字"[封面标题]"覆盖在人物背后,[字体风格],[颜色效果],被人物和主体部分遮挡,形成视觉层次感
背景:[深色渐变色调],柔和过渡
所有元素集中在中间区域,上下留边距,不超出安全区
前景散点分布几个极小的[主题相关小元素],数量极少,只做点缀,部分遮挡文字边缘
悬浮元素轻微投影,视觉层次感,高饱和度,又整齐又凌乱的美感
风格二:纯色扁平风
人物抠图感,置于纯色背景上,干净清爽,主体道具近大远小推向镜头。
视觉特征
- 背景:纯色扁平(用户指定或模型决定),不要渐变
- 字体:被主体部分遮挡,形成层次感
- 前景:少量扁平图标,轻微投影
- 整体:主体高饱和,背景低饱和,对比明确
固定
- 人物:参考图1五官,只要半身
- 元素不超出安全区
变量
- 人物表情和动作
- 主视觉元素
- 中央大字
- 背景纯色色调
- 字体风格和颜色
提示词模板
参考图1的[性别]五官特征,保持五官一致性,只要半身。
[具体表情],[人物身体姿势],[手的动作:推出/举起/展示],
[主体道具]占据画面大面积,带明显动态模糊,强烈近大远小透视感,
[主体道具的详细描述:外观/内容/材质],
(如有图2:[道具/界面]显示参考图2内容,极简干净)
背景:[纯色色调],简单纯色扁平,不要任何渐变
画面[上方/中央]超大中文"[封面标题]",[字体风格],[颜色效果],
字体被主体部分遮挡,形成视觉层次感
前景散点几个极小的[主题相关图标],轻微投影,部分遮挡文字边缘
主体高饱和度,背景低饱和,对比清晰
风格三:产品主视觉风
UI截图或产品图占画面主体,人物偏小做引导,适合有素材图的内容。
视觉特征
- 产品/截图:占画面60-70%,白底清晰,细节可读
- 人物:偏小,在产品旁做引导手势或眼神指向
- 背景:浅色或中性色,让产品成为绝对主角
- 字体:深色压在产品边缘,或浅色压在深色区域
固定
- 人物:参考图1,体量偏小,做引导姿态
- 图2必须提供(产品图/截图)
- 元素不超出安全区
变量
- 人物位置和手势
- 产品/截图的呈现方式(悬浮/展示/填满等)
- 大字位置
- 背景色调
- 字体风格
提示词模板
参考图1的[性别]五官特征,保持五官一致性,只要半身,人物体量偏小。
人物置于画面[左/右]侧偏下,占比约25%,[具体引导手势:右手伸出指向/侧身朝向等],
[具体表情],眼神朝向主视觉方向,
参考图2作为画面主视觉,占据画面约65%,[具体呈现方式:悬浮在空中/人物身旁展开/充满背景等],
[图2内容的具体描述:界面的哪些部分清晰可见,白底还是深色底,内容如何排列],
(如有图3:参考图3作为[具体位置和呈现方式])
"[封面标题]",[字体风格],[颜色效果],压在产品[顶部/一侧]边缘,形成层次感
背景:[浅色/中性色调,让产品成为主角]
所有元素集中在中间区域,不超出安全区,轻微投影,视觉层次感
风格四:对比卡片风
人物手持两张对比卡片,前景大后景小推向镜头,适合前后对比、好坏对比内容。
视觉特征
- 前景卡片:大,亮,占画面主体,带动态模糊
- 后景卡片:小,暗,偏远景,带透视缩小
- 人物:居中,双手分持两卡,表情强烈
- 背景:深色渐变,衬托卡片对比
固定
- 人物:参考图1,居中
- 两张卡片对比关系明确,一亮一暗、一大一小
- 元素不超出安全区
变量
- 两张卡片的具体内容和对比维度
- 人物表情
- 卡片样式
- 大字
- 背景色调
- 字体风格
提示词模板
参考图1的[性别]五官特征,保持五官一致性,只要半身。
[具体表情,要有强烈对比感:得意/震惊/推荐感],她/他居中,
左手捏着一张[小/暗淡/破旧感]的卡片,偏远景,
卡片上写着"[卡片B内容,代表before/坏的一面]",[卡片B视觉描述],
右手将一张[大/明亮/发光]的卡片猛地推向镜头前方,
卡片上写着"[卡片A内容,代表after/好的一面]",[卡片A视觉描述],
前景卡片占画面大面积,带明显动态模糊,强烈近大远小透视感,
两张卡片[具体对比关系描述],对比强烈,
巨大的中文大字"[封面标题]"覆盖在人物背后,[字体风格],[颜色效果],形成视觉层次感
背景:[色调,深色系衬托卡片对比]
所有元素集中在中间区域,不超出安全区
悬浮元素轻微投影,前景小元素部分遮挡文字边缘