总计 11 万星!3 个 AI 音视频工具,从语音克隆到视频生成

内容分享20小时前发布
0 0 0

AI 生成文字、图片已经很常见了。但 AI 生成声音和视频呢?

今天推荐 3 个开源的 AI 音视频工具——一个能 5 秒克隆你的声音,一个能生成任意语音和音效,还有一个能把静态图片变成流畅视频。


1️⃣ Real-Time-Voice-Cloning:5 秒语音克隆

总计 11 万星!3 个 AI 音视频工具,从语音克隆到视频生成

项目地址:
https://github.com/CorentinJ/Real-Time-Voice-Cloning

⭐ 59,586 Stars | Python | 实时语音克隆 | 5 秒采样

这个项目只需要 5 秒的语音样本,就能克隆出那个人的声音,然后用克隆的声音说任何话。

它是怎么做到的?

核心是三步走:

  1. Speaker Encoder:从 5 秒语音中提取声纹特征
  2. Synthesizer:把文字转换成语音频谱
  3. Vocoder:把频谱转换成真实的音频波形

怎么用?

git clone https://github.com/CorentinJ/Real-Time-Voice-Cloning
cd Real-Time-Voice-Cloning
pip install -r requirements.txt

# 下载预训练模型
python demo_cli.py

# 或启动 Web UI
python demo_box.py

⚠️ 请合规使用,不要用于伪造他人声音。


2️⃣ Bark:Suno 出品的文字转音频模型

总计 11 万星!3 个 AI 音视频工具,从语音克隆到视频生成

项目地址:
https://github.com/suno-ai/bark

⭐ 39,067 Stars | Python | Suno 出品 | 多语言 | 音乐+语音+音效

Suno 就是那个做 AI 音乐生成爆火的公司。Bark 是他们开源的文字转音频模型。

它能生成什么?

  • 多语言语音:中文、英文、日文、法文等
  • 音乐片段:带旋律的人声
  • 音效:笑声、叹息、咳嗽、背景噪音
  • 情感控制:可以通过 [clears throat] [laughs] 等标记控制语气

怎么用?

from bark import generate_audio, preload_models

preload_models()
audio = generate_audio("你好,我是 AI 语音助手,很高兴认识你!")
# 保存为 wav 文件
# 命令行使用
pip install git+https://github.com/suno-ai/bark.git
python -m bark --text "今天天气真好" --output output.wav

3️⃣ AnimateDiff:让静态图片动起来

总计 11 万星!3 个 AI 音视频工具,从语音克隆到视频生成

项目地址:
https://github.com/guoyww/AnimateDiff

⭐ 12,092 Stars | Python | 视频生成 | 扩散模型 | 可控动画

Stable Diffusion 能生成图片,AnimateDiff 让它动起来

它不需要训练新的模型,而是在现有的 Stable Diffusion 模型上插入一个”运动模块”,就能让生成的图片变成流畅的动画视频。

核心特点

  • 不需要训练,即插即用
  • 兼容各种 Stable Diffusion 模型(Realistic、Anime、Comic 等)
  • 支持多种运动控制(摄像机运动、角色动作)
  • 和 ControlNet 结合使用效果更强

怎么用?

git clone https://github.com/guoyww/AnimateDiff
cd AnimateDiff
pip install -r requirements.txt

# 下载预训练运动模块
# 放到 models/Motion_Module/ 目录

# 生成动画
python -m scripts.animate --config configs/prompts/1_AnimateDiff.yaml

需要 NVIDIA GPU(提议 12GB+ 显存)。


总结

项目

一句话

最适合

Real-Time-Voice-Cloning

5 秒克隆任意声音

语音合成/配音

Bark

Suno 出品的文字转音频

语音/音乐/音效生成

AnimateDiff

让 Stable Diffusion 图片动起来

AI 视频创作

项目链接:

  1. Real-Time-Voice-Cloning: https://github.com/CorentinJ/Real-Time-Voice-Cloning
  2. Bark: https://github.com/suno-ai/bark
  3. AnimateDiff: https://github.com/guoyww/AnimateDiff

哪个顺眼用哪个,记得给个 Star


#语音克隆 #Bark #AnimateDiff #开源 #GitHub #AI音频 #AI视频 #Suno

© 版权声明

相关文章

暂无评论

none
暂无评论...