每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

1.OpenVoice:轻松克隆任何声音用多种语言说话并可控制情感口音

由MyShellITTS开发。它能够仅使用一小段参考发言者的音频片段来复制其声音，然后能生成多种语言的语音。

openVoice能对声音风格的精细控制，包括情感、口音、节奏、停顿和语调，同时能够复制参考发言者的音色。

支持的语言包括英语(英国、美国、印度、澳大利亚)、西班牙语、法语、中文、日语和韩语。

网站
:http://research.myshell.ai/open-voice

GitHub: http://github.com/myshell-ai/OpenVoice

技术报告
:https://arxiv.org/pdf/2312.01479.pdf

在线演示
:http://lepton.ai/playground/openvoice

2.高效方法！Video-LAVIT：图文视频分解生成大模型!

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

Video-LaVIT模型的核心在于将视频分解为关键帧和时间运动。视频一般被分为多个镜头，每个镜头内的视频帧往往存在大量的信息冗余。因此，将视频分解为交替的关键帧和运动向量，关键帧捕捉主要的视觉语义，而运动向量描述其对应关键帧随时间的动态演变。这种分解表明的好处在于，与使用3D编码器处理连续视频帧相比，单个关键帧和运动向量的组合需要更少的标记来表明视频的时空动态，这对于大规模预训练更为高效。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

为了将连续的视频数据转换为紧凑的离散标记序列，Video-LaVIT设计了视频标记器。关键帧通过使用已建立的图像标记器进行处理，而时间运动的转换则通过设计一个时空运动编码器来实现。该编码器能够捕捉提取的运动向量中包含的随时间变化的上下文信息，从而显著提高LLMs理解视频中复杂动作的能力。

项目地址
:https://video-lavit.github.io

3.MagicClothing:根据文本提示定制生成穿着特定服装的人物图像

Magic Clothing是一个基于潜在扩散模型(Latent Diffusion Model, LDM)的图像合成系统，专门设计来处理服装驱动的图像合成任务。

它能够生成根据文本提示生成定制的、穿着特定服装的人物图像。这个系统通过在生成过程中融合服装细节，实现了高度可控和细粒度的图像输出。

Magic Clothing是OOTDiffusion的一个分支版本，侧重于可控服装驱动的图像合成。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

github地址：
https://github.com/ShineChen1024/MagicClothing

4.DM-VTON:虚拟试衣技术能够生成高度真实的虚拟试衣图像

IDM-VTON是一个致力于提升虚拟试衣场景中的图像真实性和细节保留的新方法。让合成的试穿图片更加真实，细节更加精细，尤其是在真实环境中的应用表现更佳。

IDM-VTON能够生成高度真实的虚拟试,衣图像，协助用户在不实际穿着服装的情况下，通过图像看到自己穿上特定衣服的样子。这项技术尤其适用于在线购物，提升购物体验，协助消费者更好地做出购买决策。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

在线体验:
https://huggingface.co/spaces/yisol/IDM-VTON

项目及演示:
https://idm-vton.github.io/

论文:
https://arxiv.org/abs/2403.05139

GitHub: https://github.com/yisol/IDM-VTON

5.打造自己的Al女友:基于Unity开发的Live2D虚桌拟人实时聊天系统

基于Unity开发的Live2D虚拟人聊天系统。它利用Live2D模型提供一个视觉上吸引人的虚拟人形象，结合Unity强劲的实时渲染功能，实现与用户的动态交互和聊天。

主要功能

1.Live2D虚拟人形象集成:

利用Live2D技术，项目实现了一个动态的虚拟人形象。这种技术允许二维图像在屏幕上以近乎三维的形式呈现，提供自然流畅的动画效果，增强用户交互体验。

2.实时聊天功能:

通过集成APIIAzure、OpenAl和APISpace，虚拟人能够与用户进行实时的文本交流。这些API支持基础的自然语言处理和生成，使虚拟人能够理解并回应用户的聊天输入。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

github地址：

https://github.com/Navi-Studio/Virtual-Human-for-Chatting

6.lnstantMesh: 10秒内从单张图片快速生成高质量的3D模型

InstantMesh是一个使用前馈框架的技术，它能够从单张图像快速生成高质量的三维网格模型。这个框架结合了多视图扩散模型和基于大规模重建模型(LRM)的稀疏视图重建技术，优化了3D资产的创建过程，并能在极短的时间(约10秒)内完成从图像到3D网格的转换。

“前馈式框架”(Feed-forward framework)在计算机科学和人工智能领域中，特别是在机器学习和神经网络中，是一个常见的概念。在这种框架中，输入数据通过一系列处理层流向输出，没有反馈〈即输出不会再次成为输入的一部分）的机制。这种模型的运作方式是单向的，即数据从输入端传递到输出端，中间可能经过多个处理阶段，但每个阶段只处理一次。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

在线体验:
https://huggingface.co/spaces/TencentARC/InstantMesh

论文:
https://arxiv.org/abs/2404.07191

GitHub: https:/lgithub.com/TencentARC/InstantMesh

7.Twitter-Insight-LLM:抓取Twitter数据并可通过自然语言搜索图像

Twitter-Insight-LLM是一个开源项目，主要功能包括从Twitter抓取数据、基于嵌入的图像搜索，以及其他一些数据分析和处理功能。

同时利用LLM还能对Twitter数据进行深入分析，支持多种功能，包括数据可视化和图像标注。

主要功能:

1.Twitter数据抓取

2.基于嵌入的图像搜索

3.数据分析和可视化

4.图像标注

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

GitHub: https://github.com/AlexZhangji/Twitter-Insight-LLM

8.TeToS:集成多个文本到语音(TTS)服务商的统一接口

TeToS (Text-to-Speech Operating System)是一个开源项目，提供了一个统一的接口来集成和使用多个文本到语音（TTS)服务提供商。它旨在简化开发者在不同TTS服务之间的集成和使用过程，使得开发者可以轻松地切换或同时使用多种不同的文本到语音服务。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

GitHub: https://github.com/frostming/tetos

9.Supermemory:轻松构建一个“第二大脑”可以和你收藏的任何内容聊天

supermemory的主要作用是协助用户构建一个”第二大脑”，通过一个简单的Chrome扩展，用户可以保存他们在互联网上发现的有价值的内容（允许用户将网页内容、推特收藏等转换成可搜索和可交互的格式)并能以类似ChatGPT的聊天方式与这些内容互动。

它不仅简化了内容的保存和导入流程，还通过智能化的特性，使得这些内容变得可搜索和可交互，你可以通过聊天的形式随时回顾你收藏和保持的任何网页内容并与这些内容互动。这不仅协助用户有效地存储信息，还能在需要时快速找到和使用这些信息，极大地提高了信息的利用率和个人的生产效率。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

GitHub: https://github.com/Dhravya/supermemory

在线演示: supermemory.dhr.wtf

10.GPT-Academic:专门针对论文阅读、写作润色优化的学术GPT!

GPT-Academic主要是为了支持学术研究而设计的。它提供了多种工具和功能特别是针对那些需要处理大量文献、写作学术文章或进行数据分析的研究人员和学者。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

github：https://github.com/binary-husky/gpt_academic

在线体验：

https://github.com/binary-husky/gpt_academic/wiki/online

11.Llama3-8B-Chinese-Chat:基于Llama3-8B微调的中文聊天模型优化中文回答

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)

Llama3-8B-Chinese-Chat是基于Meta-Llama-3-8B-nstruct模型通过ORPo进行微调的中文聊天模型。与原始的 Meta-Llama-3-8B-Instruct模型相比，此模型显著减少了“中文问题英文回答”和混合中英文回答的问题。此外，相较于原模型，新模型在回答中大量减少了表情符号的使用，使得回应更加正式。

与Llama-3-8B-Insturct相比，模型在回答中文提示时一直都能做出更好的反应，而且在逻辑、编码、数学和写作方面表现出色。

模型下载:

https://huggingface.co/shenzhi-wang/Llama3-8B-Chinese-Chat

12.VSR:利用AI算法准确识别一键去除视频中的字幕

Video-sSubtitle-Remover (VSR)一个基于Al技术的工具,专门用于从视频和图片中去除硬编码的字幕和文本水印。这个工具能在不损失图像分辨率的情况下,清除视频领或图片中的不需要的文字信息。

每周AI开源项目汇总第7期-4.30 (AI女友/AI文字清除/AI音色克隆)