最近靠兴趣做了一个AI项目,对AI工具进行了一些了解和试用,这里做一个小的试用报告,分本地部署和三方平台,都是客户端应用层的事,至于Stable Diffusion这种感觉很复杂的训练模型,不涉及!后面如果还有其他的使用报告,一并在这里更新,谨记,都是别人训练好的,我这里是应用层!

一、平台类

平台类的优势在于速度快,毕竟用的不是自己的服务器,不过面向互联网的服务,用户一多,也会出现排队的情况,一般2-6分钟的等待,然后才能生成,同时收费的和免费的区别还是有的。

(一)即梦

访问地址:即梦AI - 一站式AI创作平台

抖音平台旗下AI产品

优点:免费的每天送积分,图文类优秀

缺点:高级会员贵

(二)可灵

访问地址:可灵 AI - 新一代 AI 创意生产力平台

快手平台旗下AI产品

优点:会员相对便宜(相对!),视频类优秀

缺点:每个月送积分(促进快速买会员)

二、部署类

部署类的指的是在本地可以进行部署的,一般是开源的项目,本地部署需要一些技术,会劝退很多人,好在有些大神提供了Windows整合包,相对安装使用方便。个人感觉在避免重复造轮子的时代,各个厂商应该也研究过(用过)这些开源项目,所谓站在巨人的肩膀上,然后对她们进行了本地优化。

(一)DeepSeek

这个是国内的ChatGPT,说是速度和对(国内)自然语言处置更优秀,本地部署的好处就是没有限制,还没测试,因为4.7G的模型素材下载到95%就没速度了,要2个小时,哈哈哈哈!

(二)FaceFusion

换脸的神器,GitHub地址(墙)

使用了会,效果真的顶,深度转换时间也是真的长!恩,是不是什么视频都可以换成自己喜欢的脸了!参数很多,还没有完全弄明白!

知乎一篇文章,教你使用心得

AI换脸工具:facefusion使用心得(后篇) - 知乎

新手可以看看,收藏~

(三)RVC-WebUI

这个是声音采集训练,用来生成模拟配音的,一方面,采样很重要,多点时长、多点语境、纯净环境对最终效果影响很大;一方面一个模型大概要4个G,好占用空间;还有就是不知道怎么搞朗读!

项目地址:Retrieval-based-Voice-Conversion-WebU

(四)ComfyUI

(五)Flux

(六)AI语音克隆

F5-TTS,上海交大开源

CosyVoice,阿里开源,这个适合快速开发,30秒语音就够了!

GPT-SoVITS,花儿不哭开源,这个适合更专业细致的语音,训练模型需要不同语言环境的语音,和RVC的训练有点像

Index-TTS_v1.5,B站开源,从使用的情况来看,操作比CosyVoice更便捷,速度也还可以!都属于是零文本推理生成