AI Media Generator
幫使用者把想法變成高品質的 AI 生成內容 (圖片、影片、音樂),核心工作是 寫對每個平台的 prompt 以及 必要時自動操作網站。
🤖 Auto-Pilot Mode (超傻瓜一句話到成品)
觸發: 使用者說「幫我做 X」「做一個 X」「生個 X」「我要 X」這類命令式、且 X 含媒體類型 (圖/影片/音樂/MV/短片/海報/動畫) 或風格關鍵字 → 直接進 auto-pilot 不問。
流程 (見 templates/auto-pilot.md 完整版):
- Intent Parser — 一句話拆 9 slot (媒體/長度/畫面比/主題/風格/角色/場景/音訊/語言)
- Fill Defaults — 沒講的用預設 (video 預設 10s 16:9;動漫預設 Shinkai+Ghibli;電影預設 Deakins DP…)
- Platform Decider — 按 references/selector.md + quick pick 矩陣自動選
- Script + Storyboard Auto-gen — 自動寫 logline + 角色卡 + 分鏡
- Prompt Crafting — 強制套語彙庫 (見下方硬規則)
- Preview + Go — 30-秒 override 視窗,使用者回「go/確認/OK」才執行;無回 + 需花錢 → 停;無回 + 免費 → 30 秒後自動繼續
- Execution + Report — 按 automation/click-protocol.md + site-profiles/ 協議操作
Auto-Pilot 必停的 checkpoint (不代做):
- ⛔ 付費 paywall / 升級提示
- ⛔ 送出前最終一次確認
- ⛔ 下載 / 分享 / 公開發布
- ⛔ 敏感內容 (真人照片疑似裸露/暴力/政治人物)
- ⛔ click-protocol.md 定義的「irreversible action」
Auto-Pilot 禁止行為:
- ❌ 幫 Claude 已知的事問使用者 (「你要幾秒的影片?」— 10s 預設就好)
- ❌ 一次拋多選項 — 選 1 個最佳 commit,讓使用者在 Preview 階段才決定改不改
- ❌ 寫純 generic 填詞 prompt (
beautiful / masterpiece / detailed) — 違反下方硬規則(注意:cinematic / 4K / 8K在新一代模型如 Seedance 2.0 是有效 token,看平台分流) - ❌ 代付款
使用者自然語言 flags 可 override 預設: 使用者一句話可帶「用 Kling / 5 秒 / 豎屏 / 免費 / Ghibli 風 / 有對白」等自然語言 flag,auto-pilot 掃 templates/user-flags.md 對照表自動套用。使用者不懂術語也 OK — 「做個抖音」「可愛一點」「夢幻」都有對應翻譯。
⚡ Token-Efficient Mode (大專案必讀): 本 skill 30+ 檔 / 7000+ 行,全量讀會爆 context。Auto-Pilot 預設套 templates/token-efficient-mode.md 的 7 層策略 (lazy load / grep / 子代理 / preset 跳過 / cache polling)。一般任務目標 ~25-40k tokens,不是 100k+。豪華模式 (全量讀) 只在 benchmark / 學 skill / 陌生平台探索時啟用。
🔴 硬規則 (Mandatory)
Meta 優先序(2026-04-21 實戰鐵律)
Prompt 寫對一次 ≫ 操作快 10 次。
根因:寫錯 prompt → 重做 → 等 8-10 分鐘。操作 25 秒 vs 5 分鐘差距(~4.5 分鐘),遠遠小於「一次 prompt 失敗」成本(~10 分鐘等待 + token 浪費)。所以速度優化的真正優先序:
- 第一優先:查平台簽名 + 寫對 prompt → references/community-prompt-patterns.md(跨 X/Threads/Reddit/小紅書/Bilibili 社群驗證,單一 source of truth)
- 第二優先:單次提交極速化 → automation/site-profiles/
- 第三優先:等待不 polling →
Bash run_in_background:true + sleep 400
順序反了 = 浪費 40+ 分鐘做 4-5 次嘗試才生出可用的。
Prompt 必備語彙
每次產 image / video / music prompt,都必須從 skill 進階語彙庫挑 token — 不是選配,是必做。
流程:
- 最優先查:references/community-prompt-patterns.md — 按目標模型查簽名 token + 長度甜蜜點 + 禁忌(⚠️ 平台吃不同 token,Seedance/Wan 吃導演名 = 災難)
- 決定任務類型 (攝影感/電影感/廣告/時尚/MV/VFX/社群短片)
- 挑對應 reference 檔讀:
- 電影/攝影類 → cinematic-direction.md 必讀
- 廣告/時尚/MV/品牌 → commercial-direction.md
- 特效/物理/大氣 → vfx-effects.md
- 原生音訊 (Veo/Sora/Vidu Q3) → sound-design.md
- 多鏡/剪接/節奏 → editing-transitions.md
- 快速路徑:先查 preset-packs.md 找最近的 preset,換占位符即可
- 每個 prompt 至少嵌入 5-8 個高訊號 token,從下列層挑(看平台分流):
- 導演/DP 名 (Deakins、Lubezki、Hoytema、王家衛、新海誠…) — ✅ MJ/Sora 2/Veo;❌ Flux/Nano Banana Pro/Seedance/Wan
- 鏡頭/焦段 (Panavision anamorphic / 85mm / C-Series 等) — 通吃
- 底片/感光 (Kodak Vision3 500T / Cinestill 800T 等) — ✅ Flux/MJ;❌ Seedance
- 光比/燈光 (Rembrandt / 4:1 contrast / volumetric god rays 等) — 通吃
- 色彩分級 (teal-orange / bleach bypass / A24 indie 等) — 通吃
- 構圖/景別 (rule of thirds / medium close-up 等) — 通吃
- VFX/大氣 (halation / Tyndall effect / particles 等) — 通吃
- (Veo/Sora) 音訊三層 (Dialogue / SFX / Soundtrack)
禁用模式(通用 + 平台特定)
通用原則: 寧可 5 個具體 token,不要 20 個泛詞。 但 generic 與否看平台。
真正全平台垃圾(任何時候都別用):
beautiful / masterpiece / detailed / high quality / professional(這幾個從沒在新一代模型有實證效果)--no blur等 flag-style 負面 prompt(多數模型不吃,用自然語言no blur反而 OK)
⚠️ 平台特定(注意「2026-04-21 vs 2026-05-18 推翻」— 模型升級會改變斷言):
- ⚠️
cinematic/4K/8K/35mm-50mm-85mm— 舊版 Seedance 1.0 弱,Seedance 2.0 大量吃(v1.1.0 修正)。Kling / Sora 2 / Veo 3.1 / MJ v7 / Flux 全吃。 - ❌ Seedance 2.0:
fast(改extreme speed / kinetic / rapid)、多動詞同句、多主體獨立動作、chaotic wide 無時間區塊、個別 DP 名(藝術運動 / 品牌風格 OK) - ❌ Flux / Nano Banana Pro:artist names(訓練時被 scrub)、
--ar語法 - ❌ Runway Gen-4:>60 字 prompt(最短的模型)、synonym drift
- ❌ Kling:stacking 多個相機運動、>4-5 distinct nouns
先查 community-prompt-patterns.md — 該檔每個模型都有「禁忌」section,且註明 cross-platform 推翻歷史。
驗證自檢
Prompt 寫完問自己:
- 查過 community-prompt-patterns.md 目標模型章節?
- Token 符合該平台簽名(不是隨手亂塞)?
- 避開該平台禁忌?
- 長度在甜蜜點(不過長不過短)?
4 題都過 → 送。缺一題回去改。
核心原則
-
先問清楚「要什麼」,再決定「用哪個」。同一個想法送到不同模型,prompt 寫法完全不同。先釐清:
- 媒體類型:靜態圖 / 影片 / 音樂 / 複合 (MV、分鏡動畫)
- 用途:社群貼文 / 廣告 / 電影感短片 / 角色一致性專案 / 文字海報
- 手上資源:有沒有參考圖、首尾幀、角色圖、歌詞
- 預算/可用性:免費網站 / 付費會員 / API 金鑰
-
讀對應的 reference 檔。本 skill 的知識是分散式的。不要從腦中記憶硬編 prompt — 每次都先讀目標平台的 reference 檔,因為各模型版本更新很快,檔案裡有最新的語法、參數、連結。
-
中英混寫時有規則:主體名詞、運鏡術語、模型參數用英文;情感描述、文化元素 (漢服、水墨、國風)、旁白/歌詞用中文。Seedream 與 Kling 的中文支援最好;Midjourney、Flux、Runway、Veo 英文效果明顯較佳。
-
Prompt 長度。多數模型在 60–150 字 / tokens 之間最佳;Flux Kontext 上限 512 tokens;Veo 建議 3–6 句話;Sora 偏好「分鏡式」描述。reference 檔有每個模型的具體上限。
-
輸出格式。除非使用者明說只要 prompt 本文,否則給他們:
- 一個 可複製的 prompt 區塊 (通常英文)
- 一段 繁中說明:這個 prompt 為什麼這樣寫、哪些 token 可以換掉、預期輸出會長怎樣
- 一組 建議參數 (aspect ratio、時長、model variant、seed 等)
- 如果有平台特殊語法 (tag、metatag、參考圖槽位),把它結構化呈現
工作流
Step 1 — 選平台
如果使用者已指定平台 (「用 Kling」「幫我寫 Suno prompt」),直接跳 Step 2。
否則讀 references/selector.md 按「媒體類型 × 用途 × 資源」選出 1–2 個最佳候選平台,並把推薦理由用 2–3 句話告訴使用者。如果落差很大 (例如「免費 vs 付費最佳」),給使用者選擇。
Step 2 — 讀對應的 reference 檔
根據選定平台,一定要 讀對應檔案,不要憑記憶寫 prompt:
影片 (Video)
- Kling → references/kling.md
- Seedance 2.0 pro / 1.0 Pro / Lite → references/seedance.md
- Vidu Q2 / Q3 → references/vidu.md
- Runway Gen-4 / Aleph / Act-Two → references/runway.md
- Google Veo 3 / 3.1 → references/veo.md
- OpenAI Sora 2 → references/sora.md
圖片 (Image)
- Seedream 4.0 / 4.5 / 5 → references/seedream.md
- Midjourney v7 → references/midjourney.md
- Flux 1.1 Pro / Kontext → references/flux.md
- Ideogram 3 → references/ideogram.md
- Stable Diffusion 3.5 / SDXL → references/stable-diffusion.md
音樂 (Music)
- Suno v5 → references/suno.md
複合 / 多智能體
- OiiOii.ai → references/oiioii.md
跨平台共通
- 鏡頭語言 (影片類都適用) → references/camera-language.md
進階導演 / VFX / 音效 / 剪接 級別 prompt 設計 (當使用者要「電影級」「廣告級」「奢侈品級」「完整影視團隊」時必讀)
- 電影導演 / 攝影指導 / 底片 / 燈光 / 構圖 / meta tokens → references/cinematic-direction.md
- 廣告 / 時尚 / MV 導演 / 品牌調性 / 社群短影音 → references/commercial-direction.md
- VFX 總監 / 大氣 / 物理 / 特效 recipes → references/vfx-effects.md
- 音效設計 (對白 / SFX / Foley / 配樂) → references/sound-design.md — Veo 3.1 / Sora 2 / Vidu Q3 原生音訊必讀
- 剪接 / 轉場 / 節奏 (match cut / whip pan / J-L cut / ASL 律動) → references/editing-transitions.md — 多鏡故事、storyboard、MV 必讀
這三個進階檔是 語彙庫,不是流程手冊。使用方式:
- 先照平台的 reference (kling.md / flux.md 等) 確定該平台的 prompt 結構
- 再從進階檔挑 5-8 個高質量 token 填進結構裡
- 不要整段 copy — 挑對情緒、對平台、對故事的那幾個詞
一個人身高不同,鏡頭焦段/燈光/底片的「關鍵詞組合」就不同。「超級資深影視導演」的 prompt = 四層堆疊 [導演/DP] + [鏡頭/底片] + [燈光/色調] + [動作/構圖],每層挑最契合的 1-2 個 token。
Step 3 — 根據任務類型參考 template
- 快速:抽一個現成 preset 套用 (30 個電影/廣告/MV/VFX/短影音 preset) → [templates/preset-packs.md](templates/preset-