最近靠兴趣做了一个AI项目,对AI工具进行了一些了解和试用,这里做一个小的试用报告,分本地部署和三方平台,都是客户端应用层的事,至于Stable Diffusion这种感觉很复杂的训练模型,不涉及!后面如果还有其他的使用报告,一并在这里更新,谨记,都是别人训练好的,我这里是应用层!
一、平台类
平台类的优势在于速度快,毕竟用的不是自己的服务器,不过面向互联网的服务,用户一多,也会出现排队的情况,一般2-6分钟的等待,然后才能生成,同时收费的和免费的区别还是有的。
(一)即梦
访问地址:即梦AI - 一站式AI创作平台
抖音平台旗下AI产品
优点:免费的每天送积分,图文类优秀
缺点:高级会员贵
(二)可灵
快手平台旗下AI产品
优点:会员相对便宜(相对!),视频类优秀
缺点:每个月送积分(促进快速买会员)
二、部署类
部署类的指的是在本地可以进行部署的,一般是开源的项目,本地部署需要一些技术,会劝退很多人,好在有些大神提供了Windows整合包,相对安装使用方便。个人感觉在避免重复造轮子的时代,各个厂商应该也研究过(用过)这些开源项目,所谓站在巨人的肩膀上,然后对她们进行了本地优化。
(一)DeepSeek
这个是国内的ChatGPT,说是速度和对(国内)自然语言处置更优秀,本地部署的好处就是没有限制,还没测试,因为4.7G的模型素材下载到95%就没速度了,要2个小时,哈哈哈哈!
(二)FaceFusion
换脸的神器,GitHub地址(墙)
使用了会,效果真的顶,深度转换时间也是真的长!恩,是不是什么视频都可以换成自己喜欢的脸了!参数很多,还没有完全弄明白!
AI换脸工具:facefusion使用心得(后篇) - 知乎
新手可以看看,收藏~
(三)RVC-WebUI
这个是声音采集训练,用来生成模拟配音的,一方面,采样很重要,多点时长、多点语境、纯净环境对最终效果影响很大;一方面一个模型大概要4个G,好占用空间;还有就是不知道怎么搞朗读!
项目地址:Retrieval-based-Voice-Conversion-WebU
(四)ComfyUI
(五)Flux
(六)AI语音克隆
F5-TTS,上海交大开源
CosyVoice,阿里开源,这个适合快速开发,30秒语音就够了!
GPT-SoVITS,花儿不哭开源,这个适合更专业细致的语音,训练模型需要不同语言环境的语音,和RVC的训练有点像
Index-TTS_v1.5,B站开源,从使用的情况来看,操作比CosyVoice更便捷,速度也还可以!都属于是零文本推理生成
评论