AI 游戏实机视频 Prompt Pack 工厂
给一张参考图或一段角色描述 → 一份可直接复制的"图片 prompt + 视频 prompt + 序列时间轴 + 配音脚本"完整生产包。
🚨 最高优先级红线
- 不抄主教程文档里的具体例子:教程主文档里的"赛博朋克双角色对峙""雨夜城市天台""主角维多""七年了他还在等那个答案"这些都是教学示例,不是可复用素材。每次实例化的主体、场景、对白、角色名必须 100% 原创。
- 变量字典只是参考骨架:年代质感词典、HUD 词典、视角词典、情绪词典只告诉你"该写到什么颗粒度、覆盖哪些维度",不要原样塞进输出。要按当前角色和游戏类型重新组织措辞。
- 不要在视频 prompt 里写台词原文:Seedance 中文对口型很弱,台词只能由字幕条(图片侧 HUD)+ 后期 TTS 配音承担,视频 prompt 只描述"嘴部自然开合 N 次 + 情绪 + 微表情"。
- 设定图 prompt 前面不要加任何与提示词无关的说明内容:0 号角色四视图、0.5A UI 总览图这类设定图 prompt 直接出 prompt 本体即可,前面不要加跑图步骤介绍、用途解释、参考图说明段、注释铺垫等元说明文字。章节标题下空一行直接放 prompt,不写任何前置说明。
违反任一即整份重做。
触发后第一步:识别输入模式 + 一次性问完参数
输入模式判定
- A. 参考图模式:用户附了图片 → 你先看图提取主体特征(性别 / 年龄 / 服装 / 发色 / 标志性道具 / 风格调性),把特征写进后面所有 prompt 的"主角描述"位
- B. 关键词模式:用户只给了文字(角色名 / IP 名 / 描述) → 第一个产物必须是「角色参考表 Prompt(0 号)」,让用户先用 GPT Image 2 出一张角色三视图作为后续锚点
- C. 混合模式:用户既给了图又给了关键词(如"基于这张图,但变成赛博朋克版") → 以图为基础 + 用关键词覆盖差异维度
一次性合并表单(不要分多轮问)
如果用户的输入里没有覆盖以下参数,一次性把所有缺的参数列出来,让用户一次回答完。已经能从上下文推断出的参数直接默认,不要重问。
请确认以下 5 项(已默认的可以略过,要改的告诉我):
1. 叙事模式:演示向(默认)/ 剧情向(带对白字幕)/ 混合向(前 gameplay 后 cutscene)
2. 镜头数量:默认 6 个 / 可选 8 / 10 / 12
3. 游戏类型:默认 [基于角色推断],可改 [开放世界 / 动作 RPG / Roguelike / 潜行 / 生存 / 模拟经营 / 对战格斗 / 横版动作 / 视觉小说 / 解谜]
4. 年代风格:默认 [基于角色推断],可改 [街机 / PS1 / PS2 / PSP / PS3-360 / PS5 现世代 / Switch 卡通 / 假未来主机]
5. 视角:默认 [基于游戏类型推断],可改 [第三人称越肩 / 第一人称 / 俯视 2.5D / 等距 / 横版 2D / 固定 / 过场电影机位]
默认推断规则(让用户少回答):
- 如果是 Q 版 / 卡通 / 童年 IP(小马宝莉、洛克王国、宝可梦、小红帽童话) → 默认 Switch 卡通渲染 + 动作 RPG / 对战格斗 + 第三人称越肩
- 如果是写实 / 暗黑 / 都市角色 → 默认 PS5 现世代 + 开放世界 + 第三人称越肩
- 如果是赛博朋克 / 科幻 → 默认 PS5 现世代 + 第一人称 FPS 或第三人称越肩
- 如果是横版风格角色 → 默认横版 2D + 横版动作 + 横移镜头
- 如果用户明确说"剧情向",叙事模式自动切剧情向,镜头数升到 8
输出结构(硬约束)
文件落盘
输出落盘到:~/Downloads/调研报告/{项目名}-实机视频Pack/,目录里只放一份 MD:prompt主包.md。项目名格式:YYYYMMDD-角色简称-游戏类型(例:20260427-洛克王国小红帽-对战RPG)。
同时完整内容也要在对话里粘出来给用户看,不要只说"已落盘"。
MD 内容骨架
# {角色名} {游戏类型} 实机视频 Prompt Pack
> 生成时间:YYYY-MM-DD
> 输入模式:参考图 / 关键词 / 混合
> 参数:叙事模式 / 镜头数 / 游戏类型 / 年代 / 视角
> 角色锚点描述:[一段 30 到 50 字的角色特征摘要,作为所有 prompt 的一致性锚点]
---
## 0|角色四视图设定 Prompt(先用这条出锚点,后续所有镜头沿用这个形象)
[一段中文段落 prompt,纯文本,无代码块,无负面词。生成"左侧一张大尺寸正面特写头像(从头部到锁骨清晰展示面部 + 发型 + 头饰 + 领口装束)+ 右侧依次正面全身、侧面 90 度全身、背面全身三视图(完整展示从头到脚的造型与装备细节)",四个独立角度水平并排在纯白背景上,柔和均匀的正面光照,无任何环境元素,画风匹配本项目目标年代质感(Switch 卡通 / PS5 写实 / PS2 复古等),干净抗锯齿描边,比例 16:9,作为后续所有镜头的角色形象锚点参考。**这张图是给 Seedance 做角色一致性参考用的,必须极度克制:纯白底、无配饰之外的环境元素、无戏剧化光影、无表情变体、无装备拆解小图、无色板色块**。]
---
## 镜头组(图片 prompt + 视频 prompt 配对)
### 镜头 1|{镜头主题}
**图片 Prompt**(喂 GPT Image 2,用 ```plaintext {wrap} 代码块包起方便一键复制 + 保证 `{{{图N}}}` 三层花括号不被 MD 渲染破坏。本镜头需要挂哪几张参考图,由 prompt 内文里出现的 `{{{图N}}}` 集合直接确定,不另写挂图清单):
```plaintext {wrap}
[首段:参考图说明段。例:"本次跑图输入的参考图共 N 张:第 1 张是主角四视图设定稿(角色锚点){{{图1}}}、第 2 张是项目 UI Style Guide 总览图(HUD 样式基准){{{图2}}}、第 3 张是镜头 X 成品截图(HUD 实战基准){{{图3}}}。本镜头生成时角色形象沿用第 1 张参考图、HUD 整套样式与位置沿用第 3 张参考图。"]
[第二段:场景与主角描述(中文段落,覆盖风格定锚 / 视角 / 主角动作 / 场景 / 画面质感)]
[第三段:HUD 描述段。直接在内文用"沿用第 N 张参考图({{{图N}}},即镜头 X HUD 实战基准)的样式与位置"句式 + 描述本镜头变化点]
[末段:比例 X:Y。]
视频 Prompt(喂 Seedance 2.0,代码块):
@图片1 作为首帧。延续画面的视觉调性、HUD 排布与角色造型不变。
镜头:{镜头运动 + 节奏词}。
[演示向:主角动作 + 环境动效] / [剧情向:嘴部开合 + 情绪 + 微表情 + 字幕条稳定]
时长 {N} 秒。
约束:避免肢体扭曲、身份漂移、HUD 文字突变。
镜头 2|...
(按数量重复 N 个镜头组)
0.7|HUD 参考图继承图谱(生产时每镜头该挂哪张图)
[JSON 形态记录每个镜头 produces 什么 / consumes 哪些前序锚点 / introduces 哪些临时 HUD 元素 + 自然语言操作步骤]
镜头序列时间轴
| 段 | 时长 | 镜头主题 | 镜头运动 | [剧情向] 字幕 / 旁白 |
|---|
(合计时长写在表格下方)
[仅剧情向] 字幕脚本
| 镜头 | 说话角色 | 对白原文 | 时长建议 | 情绪 |
|---|
[仅剧情向] TTS 配音脚本
为每条对白指定建议音色(豆包 / ElevenLabs / 火山引擎语音合成的音色名 + 语速 + 情感参数)。
后期建议
- 剪辑工具:剪映 / CapCut / Final Cut
- 音效库:freesound / Zapsplat / Soundsnap
- BGM 风格参考:[基于游戏类型推荐 2 到 3 种参考乐风,不抄具体曲目]
- 水印建议:"Captured on {目标主机}"
## 图片 Prompt 写作要求
### 演示向图片 prompt 结构(中文段落,用 ```plaintext {wrap} 代码块包起)
**重要**:本 skill 的图片 prompt 因为内文有 `{{{图N}}}` 引用变量(三层花括号在 MD 渲染时容易被解析破坏),**必须用 ```plaintext {wrap} 代码块包起**保证花括号原样保留方便用户一键复制。这条规则**覆盖** Irene 的全局偏好"图片 prompt 用纯文本段落无代码块",只在 ai-gameplay-pack skill 内生效。视频 prompt 也照常用 plaintext wrap 代码块。
每个镜头的图片 prompt 是**一整段连贯中文文字**(在代码块内),覆盖以下维度但不要用 1/2/3 列点:
1. 风格定锚:开头一句"生成一张《{风格参考}》风格的游戏实机截图"或"……过场动画截屏"
2. 视角 + 主角 + 动作:第三人称越肩 / 第一人称 / 等距 + 主角具体描述(基于角色锚点)+ 正在做什么
3. 场景:地点 + 时间 + 天气 + 3 到 5 个环境元素
4. 画面质感:年代质感词 + 光照氛围 + 后处理(动态模糊 / 反射 / 泛光 / 颗粒)
5. HUD 描述:分位置写(左上 / 右下 / 顶部中央 / 底部中央),每个位置具体到元素 + 字体
6. 收尾约束:比例 16:9(剧情过场可写 21:9 letterbox)、看起来像真实 {目标主机} 实机画面
### 剧情向图片 prompt 额外要求
- HUD 简化为剧情演出模式:其他 UI 淡出,只保留底部字幕条
- 字幕条规格:半透明黑色,高度约画面 1/8,左侧白色描边角色名"{角色名}",中间对白原文"{对白}",字体现代无衬线白字描黑边
- 比例可以用 21:9 电影画幅
- 主角动作描述要带情绪和微表情(眉头微皱 / 嘴角抽动 / 抿嘴 / 眼神涣散)
### 字数控制
每条图片 prompt 200 到 350 字之间。少于 200 字颗粒度不够,超过 350 字模型容易抓不住重点。
### 比例和分辨率(每条都必须带,0 号到 N 号无一例外)
每条图片 prompt 的**末尾必须显式带上**:「比例 X:Y」。比例选择规则:
- **演示向 / 游戏内截图 / 0 号四视图**:`比例 16:9`(默认横屏游戏画面)
- **剧情向过场动画 cutscene**:`比例 21:9`(电影 letterbox 画幅)
- **竖屏短视频专用版本**:`比例 9:16`(小红书 / 抖音 / 视频号)
- **方形 IP 卡 / 装备图标**:`比例 1:1`
如果项目同时要横屏剪辑版 + 竖屏短视频版,0 号锚点四视图和镜头组都用 16:9 出主版本,竖屏发布时再单独用 9:16 复跑一份。
**违反即重做**:自检清单里会校验每条 prompt 是否带比例。
## 视频 Prompt 写作要求
### 演示向视频 prompt 结构(```plaintext {wrap} 代码块)
```plaintext {wrap}
@图片1 作为首帧。延续画面的视觉调性、HUD 排布与角色造型不变。
镜头:{slow push-in / gradual pull-out / smooth lateral pan / tracking shot follow / gentle orbit / stable aerial drone / subtle handheld / locked-off fixed 八选一}。
主角动作:{一个或一组具体动词,幅度要拉满,让人一眼看出在玩游戏,举例:跑动 5 到 8 步步幅大金发被气流明显吹起 / 法杖从腰侧抬至头顶杖头爆出强光 / 一记完整大幅度挥砍武器尾迹拖出弧光}。
互动反馈(关键):{至少一个 HUD 元素或场景元素的动态变化,让画面有"在玩游戏"的反馈感,举例:技能图标从亮变灰冷却环形进度条顺时针填充 / 蓝条快速从满槽下降到三分之一 / 任务标记从屏幕外滑入定位并弹一下 / 经验数字滚动跳动 / 物品弹窗从屏幕边缘滑入到位 / 操作提示按键图标做按下脉冲一次 / 战斗提示框从画面边缘滑入}。
环境动效:{1 到 2 个持续性环境动效作为底子}。
音效(点睛笔,1 到 2 个最关键的拟声音效就够,不要堆叠):{挑本镜头最具辨识度的 1 到 2 个声音,例如"任务标记滑入'叮'一声"、"按键按下'咔'+ 远处鸟鸣"。绝不写整段音效清单堆叠或抽象描述如"激烈的战斗音"}。
光照与 HUD 元素位置稳定不漂移(位置不变 ≠ 状态不变,状态可变样式不可变)。
时长 {5 到 10} 秒。
画面比例:{16:9 / 9:16 / 21:9}。
约束:避免肢体扭曲、身份漂移、HUD 样式漂移。
关于音效的说明:音效只是点睛笔不是大餐,每段视频写 1 到 2 个最关键的拟声音效就够,千万不要堆叠整段音效清单。Irene 强约束:"音效只要一点点,千万不要过度"。原则:① 抓住本镜头最具辨识度的那一声(任务标记滑入的"叮"/ 印章扑落的"咚"/ 闭坊鼓的低频"咚"),其他全部留白让画面呼吸;② 拟声词具体(叮 / 咚 / 咔 / 沙沙 / 噼啪)而非抽象("激烈的战斗音");③ 模型把握节奏 + 后期剪辑对位都靠这 1 到 2 个关键点。
剧情向视频 prompt 结构
@图片1 作为首帧(@图片2 作为可选末帧用于情绪递进)。延续画面的视觉调性、HUD 字幕条与角色造型不变。
镜头:{镜头运动 + 节奏词}。
角色表演:{角色名} 面向{方向},嘴部自然开合 {2 到 3} 次表示说话状态,眉眼传达{情绪词},{次要动作如握紧拳头/低头/转身/后退半步}。
环境氛围:{雨水/风/烟雾/灯光闪烁等持续性动效}。
音效(点睛笔,1 到 2 个最关键的情绪音效就够,不要堆叠):{挑能强化本镜头情绪的 1 到 2 个最具点睛感的音,例如"轻轻一声叹息 + 远处雨声"、"角色握拳骨节响 + 静默瞬间"。}
HUD 字幕条位置、文字内容、字体保持稳定不变。
时长 {5 到 8} 秒。
画面比例:{16:9 / 21:9 / 9:16}。
约束:避免身份漂移、字幕文字突变、嘴型夸张错位、肢体扭曲。
视频 prompt 的比例必须和对应图片 prompt 的比例一致,否则 Seedance 会做奇怪的裁切或拉伸。
角色朝向 + 180 度对抗轴线(硬约束,所有图片 prompt 必须明示)
AI 生图模型默认会让所有重要角色"面对镜头出英姿亮相",结果两个角色站在同一画面里就变成"各打各的",没有真正的对抗 / 对话 / 互动感。每条图片 prompt 必须明示每个角色的朝向,多人镜头要建立清晰的对抗轴线。
朝向必须显式声明
- 单人探索 / 跑图:主角朝向 = 行进方向,不是面对镜头。写法:"主角呈四分之三侧背身朝向画面深处行进方向"或"主角呈侧身姿势朝向画面右方奔跑"
- 双人对峙 / 战斗:双方朝向相反形成内向轴线。写法:"主角呈四分之三侧身朝向画面右方 + 敌人呈四分之三侧身朝向画面左方与主角形成对抗轴线,两人视线在画面中央交汇"
- 双人对话:同上,双方面对彼此而非面对镜头
- 召唤 / 配合:召唤者与被召唤精灵朝向同一方向(共同对敌)。写法:"主角朝向画面右方施法 + 精灵朝向画面右方扑向敌人方向"
- 倒地 / 击退:倒下方向应与击退方向一致(被从左方击中应朝右倒、被从右方击中应朝左倒)
允许面对镜头的特例(只有这些场景)
- 标题画面 / 角色 0 号四视图 / 角色定妆稿(仪式感亮相)
- 第一人称视角(玩家就是镜头)
- 剧情向角色独白特写"对镜头说话"
- UI 总览图
标准对抗写法模板
画面左侧主角呈四分之三侧身姿势朝向画面右方{动作描述},{发型 / 服装}被{方向相反}的气流吹动;画面右侧敌人呈四分之三侧身姿势朝向画面左方与主角形成对抗轴线,{敌人状态描述},{敌人头部 / 武器}指向主角方向。两个角色之间形成清晰的内向对抗轴线视线在画面中央{交汇 / 对峙}。
违反即重做:自检清单加一条"双人镜头是否明示双方朝向并形成对抗轴线"。
进度条逻辑一致性(跨镜头连续性,硬约束)
每个项目在产出 0.5 号 UI Style Guide 的同时,还要产出一份「进度条状态链表」(编号 0.6),把所有镜头里出现的进度条(血条 / 蓝条 / 经验条 / 技能冷却环 / 敌方血条 / 任务进度)的每镜头状态记录下来。用 JSON 数组 + 自然语言段落双形态产出,严禁用 markdown 表格(表格无法整段复制喂给模型或 LLM 校对)。
JSON 数组形态:
{
"progress_chain": [
{
"shot": 1,
"shot_name": "<镜头主题>",
"hp": "<状态描述,如 hidden / full / 60% / full_with_red_pulse>",
"mp_or_stamina": "<状态描述>",
"level_exp": "<状态描述,如 LV 14 60% / LV 14 60%→76%>",
"ammo_or_count": "<状态描述>",
"skill_cooldown": "<状态描述>",
"enemy_hp": "<状态描述,如 not_present / full / 100%→25% / fade_out>",
"extra": "<其他变化补充>"
}
]
}
自然语言段落形态(每镜头一句,串成跨镜头闭环叙事,给读者一眼看出逻辑因果):
"镜头 1 标题画面所有 HUD 隐藏;镜头 2 特写