上面是我抄别人的提示词,用即梦AI生成的视频,“生成一个视频,一段自拍视频,高颜值美女行走在修仙宗门中,她伸直手臂举着相机,手臂在画面中清晰可见,风格类似youtube播客。她一边走一边对着镜头用中文说:“嘿,宅女之友!韩长老邀请我去罗云宗。我听说他新收的小狐狸会后空翻!我得去看看”,她的声音温柔清脆,轻快气音,带点卷舌的小俏皮,说话时带着点自然的笑意,偶尔带点小小的咬字停顿,看看周围环境。声音元素:轻柔的山风声,似丝带拂过;云雾流动的细微声,营造空灵;远处山林里,偶尔传来清脆的鸟鸣。有字幕。”
很明显,手上的微单反了!!哈哈哈,在即梦里面,可以把自己的想法,结合DeepSeek帮助生成更合适的AI提示词,将上面一句,修改成了
“高颜值美女自拍视角行走在修仙宗门,手臂伸直举相机清晰可见,背景古风建筑云雾缭绕,她对着镜头微笑说:“嘿,宅女之友!韩长老邀请我去罗云宗。我听说他新收的小狐狸会后空翻!我得去看看”,声音温柔清脆带气音,环境音:轻柔山风、云雾流动声、远处鸟鸣,添加中文字幕,YouTube vlog风格,电影感运镜”
输出看看,似乎效果稳定多了!
后面在这里专门记录一些提示词的技巧内容。
另外,把设备整理了一下,空出来300G的空间,应该够我学习AI了,除了工具类,我想试试ComfyUI这种工作流的软件,边做边分享~
最近使用ComfyUI,对目前的AI工具有一点认知,比如阿里的wan,开源的,可以直接用,ComfyUI也提供视频API,里面包含了MiniMax(海螺)、LumaAI(字节)、PixVerse(快手)等等,但是要钱,为什么用ComfyUI,就是因为开源免费,并且可以无限制试错,收费的,试错的成本还有点高啊!
试试Wan2.1
首先是文档
而后,下载了对应的T2V模型,如果被墙了,迅雷的会员倒是可以无视这些,生成上面一段话,看看效果,可以肯定的是,自己跑,慢死~(跑下来,没我想的那么慢,就是好短·)
好像,声音对口型啥的,还是得用其他工具整合来用,并且,这里输出是webp格式,前两天才说PNG支持动画了,这个webp,800来K,视频编辑软件可以打开吗?
总结:
模型有两个精度版本,
提供 14B(140亿参数)和 1.3B(13亿参数)两个版本,覆盖文生视频(T2V)、图生视频(I2V)等多项任务。 该模型不仅在性能上超越现有开源模型,更重要的是其轻量级版本仅需 8GB 显存即可运行,大大降低了使用门槛。
1.3B 轻量版:适合本地部署和快速推理,对显存要求较低
14B 高性能版:模型体积达 32GB+,效果更优但 需高显存支持
所以说,本地跑,就当适应下模型的提示词,或者玩票,真的用,升级硬件都不是那么个事,用平台吧!就是平台的试错成本很高!这点很麻烦,早点出文档,出规范用语就好了
我在海螺、即梦、可灵上会纠结好久
要么就再等等吧,硬件总是会再升级入门档的,学习下语言习惯,当下的AI,人机沟通,不亚于学一门语言!
评论