开源 工具 # 视频处理 # 文本 # 绿色软件 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 效率工具 # 整合包 Ovis2图片反推提示词工具3.0 基于AI大模型反推图片+视频批量生成提示词 英伟达6G显卡即可愉快玩耍 本工具基于Ovis2-4B和Ovis2-2B 这2个大模型制作而成。其实早之前我就有分享过反推提示词工具 moondream,但是我昨天遇到了这个大模型,发现功能更加强大,反推出来的提示更加丰富,更多细节描述。这个工具要求显卡比较低,英伟达显卡6g及以上就可以愉快玩耍了我用同一张图片反推提示词下面是Ovis2-4B生成的提示词The... 2025-4-5 昨天 14:09 开源 3221 17
软件 语音 # 工具 # 日常应用 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 效率工具 # 整合包 IndexTTS:重新定义中文语音合成,让AI发音比真人更懂‘断句’!AI文本转语音一键整合包 附效果演示 v20250403 IndexTTS是由B站推出的一款基于XTTS和Tortoise的GPT风格文本转语音(TTS)模型。该项目在中文文本转语音领域展现出显著的技术优势和应用潜力,以下从项目背景、技术架构、应用场景、社区支持及未来挑战五个维度进行详细介绍。一、项目背景:重新定义中文TTS技术标杆IndexTTS的诞生旨在解决传统TTS系统在中文语音合成中的两大核... 2025-4-3 软件 2736 6
开源 图像处理 # 工具 # 日常应用 # 视频处理 # 绿色软件 # 开源 # 抠像 # 抠图 # 人工智能 # AI # 免费 # 效率工具 # 整合包 BEN2 v1.1 AI人工智能 图片批量抠图+视频抠像工具 一键整合包 视频可以输出透明通道 虽然我已经分享了不少的抠图和视频抠像的工具,但是谁又会嫌弃好工具多呢?所以抽空做了这个BEN2的整合包,这个整合包最大的特点就是可以输出带有透明通道的webm视频格式。在图像和视频处理领域,前景分割技术一直是研究和应用的热点。无论是视频编辑、特效制作,还是人工智能驱动的内容生成,精准的前景分割都是实现高质量输出的关键。而今天我们要介绍的,是一... 2025-4-1 开源 2906 3
开源 视频处理 # 人工智能 # AI # 换脸 # 整合包 新一代开源 免费 AI换脸神器 FaceFusion 3.1.2 中文汉化版 支持AMD显卡+N卡 速度更快,效果更惊艳 操作更简单 附视频演示 FaceFusion这个AI换脸的项目已经太久没有更新了。作者终于在昨天更新了3.0,更新幅度大得惊人。这么久不更新,原来是一直在憋大招,这个CD冷却也太久了。。。我第一次时间就去做整合包了。本以为这还不是有手就行的事,但是有点难度。因为3.0更新太大了,所以之前版本的模型还有一些东西根本用不上了,我只能慢慢去研究了。搞半天最后把我的系统的c... 2025-4-1 开源 35.7万 3392
开源 工具 # 日常应用 # 绿色软件 # 编程开发 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包 # deepseek DeepSeek 本地部署一键运行 DeepSeek-tool v8.0,解压即可使用 支持1.5b 7b 8b 14b 32b,最低支持2G显卡 琢磨了一天,把DeepSeek的本地部署彻底完成了,并测试了一下午基本完美运行了。当然AI环境你们必须要先安装好。然后下载这个这个本地部署压缩,解压即可完美运行。AI环境下载https://pan.baidu.com/s/1mFKx5fQYmohjZLS_PtWiVQ?pwd=2727我的4070ti spuer 运行32b已经是极... 2025-3-29 开源 4982 19
开源 工具 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 语音工具 # 整合包 E2/F5-TTS v1.0.8 AI人工智能 文字转语音工具,可克隆声音,可训练,一键中文整合包 SWivid/F5-TTS 是一个开源项目,旨在提供一个基于 Diffusion Transformer 和 ConvNeXt V2 架构的文本到语音(TTS)系统,该系统名为 F5-TTS。F5-TTS 的全称是“A Fairytaler that Fakes Fluent and Faithful Speech with Flow Mat... 2025-3-26 开源 4026 8
开源 工具 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包 ClearerVoice-Studio AI语音增强、语音降噪工具,一键整合包,二开作品 支持批量操作 ClearerVoice-Studio是由阿里巴巴达摩院通义实验室开源的综合性语音处理工具包,旨在为语音技术研究和应用提供高效解决方案。其核心功能覆盖语音增强、分离、目标说话人提取及超分辨率处理,通过融合复数域深度学习算法与先进模型架构,显著提升了复杂声学场景下的语音处理效果。技术架构与核心优势该框架采用复数域深度学习技术,通过FRCRN(复... 2025-3-25 开源 2295 0
开源 工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包 MeloTTS v0.1.2 AI文本生成语音工具,支持英伟达显卡+cpu运行,速度极快 支持六国语言,一键整合包 MeloTTS:高质量多语言文本到语音合成工具详解MeloTTS是由MyShell AI开发的一款开源文本到语音(TTS)合成工具,其核心目标是提供高效、自然的多语言语音合成解决方案。该工具通过深度学习技术实现了从文本到语音的流畅转换,支持包括英语、中文、日语、韩语在内的多种语言,尤其在中英混合发音场景中具有显著优势。以下从技术架构、核心功能... 2025-3-24 开源 1781 2
开源 工具 # 日常应用 # 视频处理 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 数字人 # 效率工具 # 整合包 LatentSync v1.5 字节跳动联合北京交通大学推出AI数字人工具,汉化一键整合包 LatentSync是由字节跳动联合北京交通大学推出的端到端唇形同步框架,基于音频条件潜在扩散模型(Latent Diffusion Models),旨在实现语音与唇形运动的高精度同步。该项目通过结合Stable Diffusion的生成能力与音视频联合建模技术,解决了传统方法依赖中间表示(如3D模型或2D关键点)的复杂性问题,直接生成动态逼... 2025-3-23 开源 2747 9
开源 工具 # 开源 # 人工智能 # AI # 换脸 # 免费 # 整合包 VisoMaster v0.1.6 tensorrt 一款功能强大、易于使用且高效的开源换脸工具 中文版 支持英伟达8G及以上显卡运行 一键整合包 VisoMaster 还不错的一个换脸工具,界面也是简洁的很,花了一天的时间做了整合包+汉化。VisoMaster是一款功能强大且易于使用的面部替换与编辑工具,专为图像和视频设计。它利用先进的人工智能技术,能够以最少的努力产生自然逼真的效果,因此无论是普通用户还是专业人士都能轻松上手。这款软件以其独特的魅力和实用性,在图像与视频编辑领域脱颖而... 2025-3-22 开源 1.4万 58
开源 工具 # 绿色软件 # 开源 # 人工智能 # AI # 换脸 # 免费 # 整合包 开源 免费 换脸工具 roop_unleashed v4.4.1 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示 昨天分享了roop的整合包支持AMD显卡来运行,今天分享的这个工具是roop的一个分支,虽然roop的作者已经弃更了,但是还有其他人继续更新。这就有产生了一个新的项目roop_unleashed。估计是这个项目出来并没有多久,所以知道的人不是很多,这2天我心血来潮就把这个项目也做了一个整合包,这个roop_unleashed是支持N卡的,但是... 2025-3-22 开源 3.6万 109
开源 图像处理 # 变脸 # 人工智能 # AI # 换脸 # 整合包 开源 AI人脸替换工具离线版V8.2 一张图实现视频或者图片换脸,完全免费!附演示和教程视频 这是热心网友万能君做的一个整合包,整合包里面已经包含了几个换脸项目和一些高清修复功能等,具体可以看下图截图所示。要顺利使用这个工具,必须做好以下几点第一个 这个工具只支持CPU+N卡。如果需要使用N卡,一定要先安装好驱动和CUDA。第二个 一定要安装好运行库。https://www.jian27.com/html/2290.html第三个 所... 2025-3-22 开源 472.6万 10172
开源 工具 # 日常应用 # 音乐 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包 AI音乐生成工具v1.1基于 DiffRhythm 二次开发。webui界面 不卡死,速度快 英伟达显卡6g即可运行, 一键整合包 DiffRhythm:基于差分节奏建模的通用音乐流派分类开源项目DiffRhythm是由ASLP实验室提出的开源项目,旨在通过创新的差分节奏建模(Differential Rhythm Modeling)框架解决音乐流派分类任务。该项目结合传统信号处理与深度学习技术,从节奏这一音乐核心要素出发,构建了具有强解释性和泛化能力的分类模型。其代码已... 2025-3-20 开源 2372 5
开源 翻译 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 字幕 # 整合包 开源 免费 pyVideoTrans v3.66 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装 这个工具我用来很长一段时间了,只是我居然一直忘记给大伙分享出来,直到昨天群里有人在问这样的工具。我才想起来把这个分享出来给大伙。虽然这个工具的标题叫视频翻译,实际上远远不只这些功能,我一直用这个工具来做字幕识别,比如我以前的教程那些字幕很多都是这个工具帮我做的。识别率也很高,超级方便。本来想今天一早就分享出来,但是事情比较多,又是瞎折腾的一天... 2025-3-18 开源 8400 28
开源 图像处理 # 工具 # 绿色软件 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包 AI人工智能 图片高清修复放大Tile-Upscaler v1.0 一键汉化整合包 本工具基于Tile-Upscaler二次开发,简单直接,操作点2下即可,图片高清修复效果还不错,处理速度我的4070tisuper一张1080x1920的图片大概8秒就可以完成高清修复。效果演示原图我个人觉得高清修复效果还可以。所以就花了点时间整合了一下,另外修改了部分代码1 修正一些小bug2 删除没用的演示例子3&nb... 2025-3-16 开源 2889 1
软件 开源 # 人工智能 # AI # 整合包 人工智能AI相关工具软件 合集整理 复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频E2/F5 TTS AI人工智能 文字转语音工具,可克隆声音,可训练开源 Apt Full 绿色版 一个功能强大、操作便捷的AI生产力工具GPT-SoVITS 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包... 2025-3-16 软件 2.5万 15
开源 图像处理 # 工具 # 视频处理 # 绿色软件 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 效率工具 # 整合包 MatAnyone v1.0.0 人工智能AI 自定义视频抠图 一键汉化整合包 附视频演示 MatAnyone是一个专注于人类视频抠图(Matting)的实用框架,其独特之处在于支持目标分配功能,并能在核心区域语义和精细边界细节上表现出稳定的性能。该项目由Peiqing Yang等人在2025年提出,并在CVPR(Conference on Computer Vision and Pattern Recognition)这一顶级计算... 2025-3-14 开源 2522 5
开源 语音 # 工具 # 日常应用 # 绿色软件 # 音频 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包 InspireMusic AI人工智能音乐、歌曲和音频生成的开源一键中文整合包 InspireMusic是一个专注于音乐、歌曲和音频生成的开源项目,它提供了一个统一的框架来实现这些生成任务。以下是对该项目的详细介绍:主要功能音乐生成:支持文本提示、音乐类型、音乐结构等多种控制方式,可生成高质量的音乐作品。歌曲生成:能够根据用户的文本描述或音乐结构生成完整的歌曲。音频生成:可以生成各种类型的音频,包括但不限于背景音乐、音效... 2025-3-13 开源 2075 0
开源 工具 # 绿色软件 # 开源 # 人工智能 # AI # 换脸 # 直播 # 免费 # 整合包 开源 Deep-Live-Cam v1.8.0 AI人工智能 图片视频换脸+直播换脸 整合包 支持AMD+英伟达N卡 Deep-Live-Cam是一款由hacksider开发并维护的创新性软件,旨在为快速发展的AI生成媒体行业贡献一份力量。该软件的主要功能是通过深度学习技术,实现实时的人脸替换与增强,为艺术家、设计师以及内容创作者提供了一个强大的工具,帮助他们以全新的方式创作和表达。项目概述Deep-Live-Cam的核心价值在于其广泛的应用场景。艺术家可以... 2025-3-10 开源 6939 0
开源 工具 # 神器 # 绿色软件 # 开源 # 人工智能 # AI # 多图预览 # 效率工具 # 整合包 开源 神器 Stability Matrix v2.13.4 一款功能强大、易于使用的Stable Diffusion管理工具 Stability Matrix是由Lykos AI开发的一款革命性工具,专为简化Stable Diffusion的使用和管理而设计。作为一款多平台包管理器和推理用户界面,它极大地提升了Stable Diffusion的易用性和用户体验。核心功能多平台支持:Stability Matrix支持macOS、Windows和Linux系统,确保用... 2025-3-10 开源 2762 1
开源 图像处理 # 工具 # 日常应用 # 视频处理 # 绿色软件 # 图形图像 # 开源 # 抠像 # 抠图 # 人工智能 # AI # 免费 # 效率工具 # 整合包 27video v2.0 开源图片批量抠图+视频抠像工具 一键整合包 附视频演示 这个工具基于bria-rmbg-2.0模型文件二次开发。可以批量抠图片,也可以对视频进行抠像。速度快,效果也不错。对显卡占用很低,6G的英伟达显卡就可以流畅运行了。操作极其简单,无需任何基础 会点鼠标即可。部分代码加密了。原因无他,最近发现太多人直接删改我辛苦写的代码。无任何提示和注明出处,所以部分代码我加了密。1.6版截图2.0 ... 2025-3-6 开源 6908 51
开源 工具 # 神器 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 效率工具 # 整合包 GPT-SoVITS 20250228v3 一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成 一键整合包 GPT-SoVITS是一个强大的开源工具,专注于少样本语音转换和文本到语音(TTS)的合成。该工具由RVC-Boss团队开发,并在GitHub上公开分享,为用户提供了一个灵活且功能丰富的平台,以满足语音合成的多样化需求。核心功能GPT-SoVITS的核心功能包括零样本和少样本TTS。零样本TTS允许用户仅通过输入一个5秒的语音样本,就能即时体... 2025-3-3 开源 6017 2
开源 工具 # 视频处理 # 绿色软件 # 音频处理 # 开源 # 人工智能 # AI # 免费 # 整合包 MMAudio v0.1 AI视频生成背景声音 文生生成声音 一键整合包 8G英伟达显卡可用,无需安装环境,解压即可使用 MMAudio是一个开源项目,旨在通过多模态联合训练生成高质量的同步音频。以下是关于这个项目的详细介绍:项目概述MMAudio由香港中文大学的程浩基(Ho Kei Cheng)等人开发,主要功能是根据视频和/或文本输入生成同步音频。其核心创新在于多模态联合训练方法,能够在广泛的音视频和音文本数据集上进行训练。此外,同步模块可以将生成的音频与视... 2025-2-24 开源 2126 0
开源 工具 # 神器 # 绿色软件 # 开源 # 图片处理 # 人工智能 # AI # 整合包 # 图像图形 HivisionIDPhotos v1.3.1 一个专注于证件照智能制作的开源项目 一键整合包 支持批量处理 附视频演示 HivisionIDPhotos 是一个专注于证件照智能制作的开源项目,由Zeyi-Lin开发并维护。该项目旨在通过先进的图像处理和机器学习技术,为用户提供一种高效、便捷的证件照制作解决方案。项目结合了轻量级抠图、多尺寸规格生成、智能换底等多种功能,让用户能够轻松制作出符合标准的证件照。核心功能轻量级抠图:HivisionIDPhotos采用... 2025-1-22 开源 3552 4
开源 视频处理 # 开源 # 人工智能 # AI # 视频工具 # 整合包 开源 DCT-Net_Webui v20250116 修改增强版 一款将图片/视频转绘漫画效果工具 支持批量处理 附三倍快乐演示 视频转动漫的工具貌似有不少,之前我也分享了,但是今天分享的这个,操作是极其简单,我顺手还做了个批量处理。这样就更方便了。Q群一个小伙伴提供了一台远程4060显卡的机器给我远程测试,所以也顺手把N卡包也整合好了。N卡的效率确实是超级高啊,我用CPU跑10秒的视频大概要3-5分钟,但是N卡的话 一分钟不到就搞定了。确实是爽。下面是截图一下给你们看... 2025-1-16 开源 6004 10
软件 工具 # 编程开发 # 免费 # 整合包 LNMP v2.1正式版 一键网站环境部署包 LNMP一键安装包是一个用Linux Shell编写的可以为Linux服务器搭建网站环境的shell程序,LNMP代指Linux,Nginx,MySQL和PHP,相似的我们还可以到LAMP(Linux,Apache,Mysql,Php),WAMP(Windows,Apache,Mysql,Php)等等一键部署包。LNMP支持自定义Nginx、... 2024-12-31 软件 1750 0
软件 工具 # 绿色软件 # 图形图像 # 开源 # 图片处理 # 人工智能 # AI # 免费 # 整合包 moondream v1.2 开源 AI人工智能 图片反推提示词神器,可批量处理图片提示词 一键整合包 vikhyat/moondream是一个开源的、轻量级的视觉语言模型项目,旨在提供强大的图像理解和生成能力,同时确保模型可以在各种环境下高效运行。该项目在GitHub上托管,拥有简洁的代码库和丰富的文档资源,为开发者提供了便捷的使用和定制体验。项目的核心是一个视觉语言模型,该模型能够接收图像作为输入,并基于图像内容生成相应的文本描述或回答相关... 2024-12-10 软件 3651 12