这是一个既能抓“养生”兴趣、又能满足“听故事”心理的赛道。抓住情感锚点和叙事节奏,你能用很小的投入稳定产出。我把实操流程拆成可复制的环节,并把每个环节的AI提示词(prompt)写成可直接复制粘贴的模板——方便你马上上手。
一、准备工作与工具
文案:豆包AI
图像:豆包图生/即梦AI
配音:TTSMAKER或剪映自带朗读
剪辑合成:剪映(PC版更方便)
备用:素材库古风音乐、音效若干
二、视频制作:
主要流程:
生成长文案→转为口播稿与分镜表→生图(保持角色一致)→对重点分镜做图生视频或动效→生成配音→剪映合成并加字幕、BGM→发布与变现设置(橱窗、私域、课程)。
01:用豆包生成长篇故事文案
写1篇(或多篇)1500–2000字的“听故事学中药”标准长稿。
ai提示词参考:
【你是一名专注制作中草药科普故事的短视频文案专家。请根据下面要求生成三篇独立的中草药民间故事文案,每篇字数在1500到2000字,语言口语化、画面感强、人物生动、适合转成视频口播。每篇文案必须以“听故事学中药,今天讲XXX的故事”作为开头(把XXX替换为药名)。
每篇文案的结构要包含:
1.背景:交代时间、地点或传说,渲染氛围;
2.冲突:出现疾病或灾难,传统办法无效,制造紧张感;
3.发现:主人公如何发现药材、描述药材外形与采集场景;
4.验证:试用药方后的真实变化(只写“民间记载/传统做法”,避免医疗断言);
5.升华:药材如何被推广进百姓饮食或生活,点明主要功效和现代价值(使用“传统记载/民间经验”等措辞,避免写“治愈”“疗效”等绝对医学用语)。
额外要求:
用生物化或生活化比喻把药性形象化(例如把药性比作“护城河”“温暖的手”);
用通俗话解释复杂概念,避免过多专业词汇;
最后用两三句比喻化手法总结该药的作用机制(例如“像过滤网一样……”,保持谨慎,不做医学断言)。
请输出三篇,分别标注药名(例如:蒲公英、川芎、黄芪),每篇之间空一行分隔。】
生成后我通常再让豆包做两件事:
1.把1500–2000字稿“压缩为5–8分钟口播稿(约700–900字)”,便于配音。
提示词示例:
【请把上面第一篇文案压缩成一篇适合5–8分钟口播的口播稿,字数控制在700–900字,句式短促、口语化,便于配音朗读,保留关键冲突与转折,并在重要节点加入0.4秒停顿指示(用[停0.4s]表示)。】
2.请求豆包把口播稿按镜头分段输出成分镜表(时间轴、画面描述、镜头长度建议),格式为表格或清单,便于后续生图/动效制作。
提示词示例:
【请把口播稿拆成分镜脚本,以表格形式输出:序号|时间(秒)|文案(口播)|画面描述(具体到人物动作、景物、镜头运动)|需要的画面风格(如:中国风二维手绘)|建议是否做图生视频(是/否)。每个分镜建议长度6-20秒。】
02:把分镜转成分镜绘图提示词
为每一句分镜生成精准的图像提示词(prompt),包括画风、人物服饰、光影、景别、比例、角色一致性描述等,方便批量生成分镜图。
分镜生成绘图prompt模板
【场景:第{序号}镜头—[{短标题}]
画风:中国风二维手绘动画风格;时代设定:明朝永乐年间;画面比例:16:9(横版)或9:16(竖版,抖音首选)。
人物:陈老实(男,约40岁,穿青色短褂,领口袖口有细布滚边,腰系深蓝布带,憨厚面容,眼角细纹),动作:站在铺门前微笑招呼。
环境:青石板路,两旁砖木结构古建筑,远处有挑担货郎、嬉笑孩童,整体暖色调,布光柔和。
镜头:中景→慢慢推近至半身;构图重点:陈老实的手持物(蒲公英)特写;背景景深虚化。
图像生成要求:每张镜头生成4张变体,保持人物脸部特征一致(如能提供参考图请上传参考图以锁定角色一致性);输入负面提示:无现代物件、无现代服饰、避免低分辨率文字。
输出格式:PNG,分辨率至少1920×1080。
附加:请同时输出该镜头对应的口播句(便于配音对齐)。】
把上面模版里的`{序号}`、`{短标题}`填好后直接丢给即梦或豆包的“图像生成”模块。
03:批量生图与保证角色一致性的技巧
每个分镜“生4张”方便挑选最佳构图。提示中明确写“生成4张变体”或工具里的“批量数=4”。
要让角色在不同镜头保持一致,上传一张参考图并在prompt中写“使用此参考图保持人物面部与体型一致性、服装细节一致”。若工具支持“角色ID/seed”,记下并重复使用该seed。
对不满意的图:先调整关键词层次(改表情/光位/景别),再点击“重新生成”而不是一次性改很多词。
04:把静态图变成动态片段
把前4–6个关键分镜做成短动态片段(开头吸睛),其余用关键帧在剪映里做动效,节省生成成本。
图生视频(即梦/豆包)示例prompt(每镜头可直接用)
输入素材:上传第{序号}镜头的4张静态图作为参考(或仅上传一张主图并写提示)。
动态描述:镜头跟随,蝴蝶从右上方向画面前方上下飞舞;镜头慢速推近到小男孩面部,男孩追逐蝴蝶露出笑容;结束时镜头轻微拉远,转为中景。
镜头运动:前3秒为缓慢推近,3–6秒为随动作跟随,6–8秒缓慢拉远并淡出。
特效/动作:加入轻微烟雾粒子、风吹草动的微动帧;人物嘴唇不动(若有口播,配成后期合成)。
输出:8秒,24fps,建议720p或1080p(取决于工具限制)。
备注:保持人物服装与面貌一致,背景细节一致;如支持“首尾帧功能”,使用首尾帧优化过渡。
只对开头4–6个分镜做图生视频以吸睛,后面用剪映的关键帧(位置、缩放、旋转)和局部蒙版实现“动感”,既节省额度又保证流畅。
05:配音(TTSMAKER/剪映朗读)
获得自然、有情感的口播音频,便于在剪映中同步。
TTSMAKER使用示例(复制)
沉稳解说音色,语速略慢(约130–150字/分钟),轻微情感起伏。在重要转折处停顿0.4–0.6秒(用[停0.5s]标注);末尾结语语气上扬以增加号召力。
操作步骤:
1.打开ttsmaker.cn;
2.选择音色:沉稳解说(或相近的可用音色);
3.粘贴口播稿(已由豆包压缩为700–900字);
4.在文本中加入[停0.5s]指示来控制停顿(如果工具不识别,可把相应处拆成新段落并手动插入停顿);
5.输出格式:mp3(192kbps或更高)。
如果使用剪映的“朗读”功能,把口播稿直接粘进“文本→朗读”,选择“沉稳”或类似音色,微调语速并试听多次,必要时在文本里插入逗号/省略号来控制停顿节奏。
06:剪映合成
把所有元素(图生视频片段、静态图、配音、BGM、字幕)合成最终视频。
剪映操作要点:
新建工程并设定分辨率:竖版1080×1920(抖音优先),横版1920×1080(B站/YouTube)。
导入素材:把所有图生视频、静态图、配音、背景音乐导入媒体库。
时间线布局:按分镜表顺序把素材拉到时间线上;开头1–3秒放片头黑底特写并滚动“听故事学中药”文字(建议加齿轮卡点音效)。
静态图动态化:对不做图生视频的静态图使用“关键帧”做上下移动、放大缩小(KenBurns效果),保持人物在画面黄金分割位。
画面切换:用淡入淡出或古风转场,过渡不要太花哨以免抢了口播注意力。
配音对位:把生成的配音导入并与口播文本一一对齐;在口播关键句点用音效(翻页、钟声)做情绪点缀。
字幕:使用剪映“识别字幕”功能生成初稿,手动校对并把重点句加粗或用色块突出(注意不要遮挡人物面部)。
背景音乐:选古风纯音乐,音量设为配音的30–40%(保证配音清晰),在高潮处略微抬音量(自动或手动淡入淡出)。
片尾与CTA(导流):留下橱窗/私域/课程的按钮提示图(非强推疗效),文字写“更多中草药故事,点橱窗看详情/私信领取配方参考”。
导出设置:分辨率1080p,帧率25–30fps,比特率8–12Mbps,编码H.264或H.265(平台兼容优先H.264)。
07:发布与变现
标题写法:用“听故事学中药|XXX的故事+小钩子(如:一个配方能让老人睡得香)”,但避免写医疗承诺。
描述与标签:把“历史/民间/养生”关键词放前面;加平台热搜tag(#中草药#听故事学中药)。
橱窗带货:上架相关小件(中草药饮片、养生书、茶包、周边)并设置橱窗弹窗;在视频结尾加“橱窗看配方/同款”。
私域转化:在视频说明放入公众号/社群二维码(图片形式),引导用户领取“中草药故事合集”或付费课程。
教学变现:把流程拆成课件或模板出售(例如“分镜模板包、配色包、配音素材包”)。
风险与合规注意
内容措辞要避开医学断言,推荐用“民间记载”“传统上这样使用”“历史记载显示”等非断言性措辞,避免写“治愈、疗效显著、保证疗效”等。
审核易触点:任何涉及具体验证、处方级建议或疾病治疗方法的表述都可能被平台限制,改为“历史/民间/文化视角”讲述更安全。
图片与音乐版权:使用平台素材库或付费可商用素材,避免直接搬用受版权保护的插画或音乐。
常见问题
画风不一致/人物面目变形:在图像prompt加入`参考图:上传参考图,保持面部特征一致;关键词:角色ID保持一致`;如果工具支持,使用相同seed。
配音太平/单调:在TTSprompt中加入`情感:适度温暖;在转折处停0.5s;句末微上扬`。
文案太学术/听不懂:让豆包“把文案改成说书人风格、口语化、每句不超过18个字,增加生活化比喻”。
生成额度受限:优先把开头3–4个分镜做成图生视频,其他用关键帧;或者把图生的视频降到720p做草稿,最终合成时再做高清替换。