音乐卡点视频 一键生成 支持图片+视频素材  新增镜头分镜切割+人声分离+ MTV 模式+音频编辑 无显卡要求 剑二十七原创作品 KA v20260328

音乐卡点视频 一键生成 支持图片+视频素材 新增镜头分镜切割+人声分离+ MTV 模式+音频编辑 无显卡要求 剑二十七原创作品 KA v20260328

卡点视频生成器是一款基于 AI大模型 智能视频自动生成工具,专为音乐爱好者、短视频创作者、自媒体运营者设计。它能根据你上传的音乐节拍/鼓点,自动从指定图片或视频素材中智能选取片段,生成节奏精准、视觉流畅的“卡点”视频,适用于抖音、快手、B站、Instagram 等平台。无需剪辑经验,一键生成专业级卡点视频!🎯 核心功能1. 🖼️ 图片卡点模式...
AI 1.2万 0
一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 48个超强预设-全能AI图像编辑神器来了!beterpic v20260610

一键修复老照片、智能上色、超清还原,去除水印 ,转动漫 48个超强预设-全能AI图像编辑神器来了!beterpic v20260610

—— 高清图像修复、增强与风格化处理工具本系统基于先进的 qwen 图片编辑模型 与 Nunchaku 量化技术 构建,结合 LoRA 微调模型支持,提供强大且高效的图像编辑能力。无论是老照片修复、人像增强、风景优化,还是黑白图上色,都能一键实现高质量输出。🔧 核心功能✅ 高清图像修复与增强支持上传任意分辨率图像(最小边自动放大至 1024p...
AI 1.7万 19
造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260519 v19

造相 Z-Image-Turbo AI生图大模型 高性能AI图像生成工具 5秒一张图片 支持批量生图+人物一致性图片+自定义lora 一键整合包 20260519 v19

Z-Image-Turbo Generator 是一个基于 Tongyi-MAI/Z-Image-Turbo 模型的高性能AI图像生成应用。通过简洁直观的Gradio界面,用户可以轻松生成高质量的图像,特别擅长生成具有中国传统文化元素与现代风格融合的艺术作品。✨ 核心特性⚡ 极致性能优化8步极速生成:仅需8个推理步骤即可完成高质量图像生成零指...
AI,开源 2.3万 64
图生图新的选择 AI 重绘 支持批量图生图 新增动作和姿态控制+滤镜+自动关机+自动去水印 剑二十七洗图专用  z-image-turbo-xitu v12

图生图新的选择 AI 重绘 支持批量图生图 新增动作和姿态控制+滤镜+自动关机+自动去水印 剑二十七洗图专用 z-image-turbo-xitu v12

🎨 Z-Image-Turbo 剑二十七·洗图专用版—— 神似而形不似,AI 重绘的终极答案"目前市面上能做到神似而形不似的类似图生图,在我面前一个能打的都没有"🔍 产品定位本工具专为「高质量图像重绘」场景打造,聚焦「洗图」核心需求:在保留原图构图、光影、神态的前提下,通过 AI 进行艺术化重绘,实现「神似而形不似」的进阶...
AI 9970 23
开源 免费 pyVideoTrans 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装 v4.02

开源 免费 pyVideoTrans 视频翻译开源软件 自动识别并生成字幕后,翻译 + 配音 绿色免安装 v4.02

这个工具我用来很长一段时间了,只是我居然一直忘记给大伙分享出来,直到昨天群里有人在问这样的工具。我才想起来把这个分享出来给大伙。虽然这个工具的标题叫视频翻译,实际上远远不只这些功能,我一直用这个工具来做字幕识别,比如我以前的教程那些字幕很多都是这个工具帮我做的。识别率也很高,超级方便。本来想今天一早就分享出来,但是事情比较多,又是瞎折腾的一天...
AI,开源 1.6万 29
开源 视频播放器 Media Player Classic - Home Cinema 绿色免安装 v2.7.2

开源 视频播放器 Media Player Classic - Home Cinema 绿色免安装 v2.7.2

Media Player Classic - Home Cinema(也被称为MPC-HC),是一款基于Guliverkli项目、包含许多额外功能和软件修复功能的,免费且开源的视频和音频播放器。这个播放器为使用Windows操作系统的用户设计,但也可以用于其他的操作系统。主要特性和优势功能齐全且稳定:MPC-HC的内置播放器已经非常成熟和稳定...
软件 5236 3
Stretchly 一个由Jan Hovancik开发的开源休息提醒工具 v1.21.0

Stretchly 一个由Jan Hovancik开发的开源休息提醒工具 v1.21.0

Stretchly是一个由Jan Hovancik开发的开源休息提醒工具,旨在帮助用户在长时间使用电脑工作时定期休息,以减轻眼睛疲劳和身体压力。该项目基于Electron框架开发,支持跨平台使用,包括macOS、Windows和Linux系统。Stretchly通过定时提醒用户进行短暂的“迷你休息”和较长的“长时间休息”,帮助用户保持工作效率...
软件 3694 0
开源 电脑屏幕投屏工具 Deskreen 中文便携版 v3.2.15

开源 电脑屏幕投屏工具 Deskreen 中文便携版 v3.2.15

介绍Deskreen 可以将任何具有 Web 浏览器的设备转换为计算机的辅助屏幕。Deskreen 是一个基于 electronic.js 的应用程序,它使用 WebRTC 将您的桌面实时流传输到任何设备上的 Web 浏览器。它建立在 Electron React Boilerplate 的顶部为了获得更好的安全性机制,实施了端到端加密,这受...
软件 3025 0
开源 PDFsam Basic 一款专业且免费的开源PDF处理软件 v6.0.1

开源 PDFsam Basic 一款专业且免费的开源PDF处理软件 v6.0.1

PDFsam Basic是一款专业且免费的开源PDF处理软件,它提供了多种强大的功能,旨在帮助用户轻松地进行PDF文件的编辑和管理。以下是关于PDFsam Basic的详细介绍:一、软件概述PDFsam Basic是一款跨平台的PDF编辑器,支持在Windows、Mac OS及Linux等多个操作系统上运行。它以其免费、开源的特点,以及丰富的...
软件 4158 0
开源 Converseen 一款非常实用的批量图像格式转换工具 v0.15.2.5

开源 Converseen 一款非常实用的批量图像格式转换工具 v0.15.2.5

Converseen是一款功能强大的批量图像转换器和调整尺寸工具,旨在帮助用户快速、高效地处理大量图像文件。它支持多种图像格式之间的转换,包括但不限于常见的JPG、PNG、GIF等,让用户能够轻松地将图像文件从一个格式转换为另一个格式,以满足不同的需求和应用场景。除了基本的图像格式转换功能外,Converseen还提供了丰富的图像调整选项。用...
软件 3153 0
开源 免费 直播必备 实时流媒体和屏幕录制软件  OBS Studio v32.1.2

开源 免费 直播必备 实时流媒体和屏幕录制软件 OBS Studio v32.1.2

软件简介:OBS Studio(Open Broadcaster Software)是一款免费且开源的多平台流媒体软件,它为用户提供了强大的功能和灵活性,使用户能够创建高质量的流媒体内容。无论是游戏直播、视频教程、网络会议还是专业直播活动,OBS Studio 都是一个功能强大且易于使用的选择。首先,OBS Studio 提供了广泛的流媒体设...
开源 4916 2
0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v12.20 支持JoyAI-Echo Bernini LTX-2.3 wan2.2 HunyuanVideo-1.5等 数字人文生视频+图生视频+批量生成 英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了

0 基础也能当导演:输入一句话,AI 自动生成视频 Wan2GP 中文版 v12.20 支持JoyAI-Echo Bernini LTX-2.3 wan2.2 HunyuanVideo-1.5等 数字人文生视频+图生视频+批量生成 英伟达6G显卡就可以跑起来,有这个你其他视频生成的整合包都可以删了

Wan2GP 是专为“显卡资源有限”的用户打造的**开源视频生成工具箱**。它把目前最先进的文生视频、图生视频、视频编辑模型(Wan 2.1、Hunyuan Video、LTX Video 等)做了重度优化和封装,让只有 6-8 GB 显存的旧显卡也能跑得动、跑得快,并提供了一整套 Web 界面与周边工具,做到“开箱即玩”。一句话总结:**把...
AI,开源 4.1万 160
视频反推提示词生成器 分镜处理+镜头设定 + 场景描述 + 主体动作 + 角色细节 + 运镜方式 + 风格美学+去水印+高清修复 thinkvideo v4.0

视频反推提示词生成器 分镜处理+镜头设定 + 场景描述 + 主体动作 + 角色细节 + 运镜方式 + 风格美学+去水印+高清修复 thinkvideo v4.0

🎬 剑二十七|视频反推提示词生成器让每一帧画面,都转化为可复用的创作语言🔮 核心定位这是一款面向专业内容创作者的智能视频理解工具。它不满足于简单的画面识别,而是以「镜头语言」为最小单元,深度解析视频内容,自动生成符合影视工业标准的中文提示词描述。不是「看图说话」,而是「读镜写意」。✨ 六大核心能力🎯 智能镜头分割精准识别场景切换点自适应阈值调...
AI 4257 6
一键克隆你的声音:higgs-audio-v3-tts AI语音生成工具 支持情绪标签,支持停顿,支持音速调整 中文一键整合包 v20260609

一键克隆你的声音:higgs-audio-v3-tts AI语音生成工具 支持情绪标签,支持停顿,支持音速调整 中文一键整合包 v20260609

HiggsAudio 是由 Boson AI 开发的开源文本转语音(TTS)系统,基于先进的深度学习技术,能够生成高质量、自然的人声。该项目在 GitHub 上开源,提供了强大的语音合成能力。🌟 项目亮点🎵 高质量语音生成生成接近真人发音的语音支持多种语言和口音能够处理情感表达和语调变化🏗️ 先进的模型架构基于 Transformer 的端到...
AI 4752 10
小红书 开源配音神器 dots.tts 只需3秒音频,完美复刻你的声音! 一键整合包 v20260607 解压即可使用

小红书 开源配音神器 dots.tts 只需3秒音频,完美复刻你的声音! 一键整合包 v20260607 解压即可使用

dots.tts是由小红书人工智能实验室(RedNote Hilab)研发并免费开源的一款新一代 AI 语音合成(配音)系统。抛开复杂的技术术语,你可以把它简单理解为一个“拥有录音棚级音质的超级 AI 配音员”。你只需要输入一段文字,它就能用极其逼真、富有感情的声音把文字读出来,甚至能完美模仿任何人的声音。以下是它最核心的几个“超能力”,也是...
AI 1万 17
 神器 开源 视频音频处理神器 FFmpeg 官网最新版 附安装教程 v2026-06-01

神器 开源 视频音频处理神器 FFmpeg 官网最新版 附安装教程 v2026-06-01

这个软件我以前做了几期教程,非常非常强大的视频音频处理工具,基本市面上绝大部分视频处理软件都是套它的壳https://www.jian27.com/html/ffmpeg.html一、ffmpeg介绍FFmpeg是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。采用LGPL或GPL许可证。它提供了录制、转换以及流化音视...
开源 6503 3
MOSS-TTS-v1.5+MOSS-TTSD+ MOSS-TTS-Nano 支持CPU运行,一个高质量的开源中文文本到语音合成系统 一键整合包 v20260604 支持免费商业使用 支持暂停

MOSS-TTS-v1.5+MOSS-TTSD+ MOSS-TTS-Nano 支持CPU运行,一个高质量的开源中文文本到语音合成系统 一键整合包 v20260604 支持免费商业使用 支持暂停

🎙️ MOSS-TTS:让文字拥有“千人千面”的超级嗓音一句话看懂:这是一个由复旦大学和模思智能联合开发的开源人工智能项目。它的核心本领就是把文字变成极其逼真、带有感情的真人声音。✨ 为什么它比传统的“机器朗读”更厉害?传统的配音软件听起来往往像没有感情的机器人,而 MOSS-TTS 拥有以下 5 大“超能力”:1. 🎭 神奇的“声音克隆”魔...
AI 8792 18
给你配了个“AI配音导演”:阿里这款新模型,能直接给电影配音了! Fun-CineForge 一键整合包 v20260603 解压即可使用

给你配了个“AI配音导演”:阿里这款新模型,能直接给电影配音了! Fun-CineForge 一键整合包 v20260603 解压即可使用

Fun-CineForge是阿里通义实验室(FunAudioLLM 团队)推出的一款非常强大的AI影视配音模型。如果用一句话来概括:它就像一个不知疲倦的“AI配音导演+全能配音演员”,能够直接给电影、电视剧或各类视频进行高质量的自动配音,而且对口型、分角色都不在话下。为了让你轻松了解这个模型,我们从它的核心能力、应用场景以及背后的黑科技三个方...
AI 3714 1
Marlin-2B 一个会"看懂"视频的AI大模型 能精确描述视频中每一个镜头 一键整合包 v20260602 解压即可使用

Marlin-2B 一个会"看懂"视频的AI大模型 能精确描述视频中每一个镜头 一键整合包 v20260602 解压即可使用

Marlin-2B 是一个会"看懂"视频的小助手,它能自动告诉你视频里发生了什么、什么时候发生的,还能根据你的描述快速定位到具体片段。🤔 它能帮你做什么?✅ 自动写视频"解说词"把一段视频交给它,它会像解说员一样,用文字告诉你:🎞️场景:办公室里,一位穿白衬衫的男士坐在电脑前工作⏱️事件:<0.0...
AI 3301 0
这不是换脸,这是换头! 效果炸裂 AI 图片换头 HeadFusion v3.0 一键整合包 v20260601

这不是换脸,这是换头! 效果炸裂 AI 图片换头 HeadFusion v3.0 一键整合包 v20260601

本项目是一个基于 FLUX.2 Klein 模型开发的 AI 智能换头工具。通过集成 SDNQ (Spatial Dynamic Neural Quantization) 4-bit 动态量化技术,在显著降低显存占用的同时,保持了卓越的图像生成质量。配合 BFS (Best Face Swap) LoRA 模型,能够精准地实现人头替换,并完美...
AI,开源 1.7万 47
高德开源项目 PilotTTS - 让AI学会"说话"的语音生成开源项目,支持11种情绪+14种方言 一键整合包 v20260530 解压即可使用

高德开源项目 PilotTTS - 让AI学会"说话"的语音生成开源项目,支持11种情绪+14种方言 一键整合包 v20260530 解压即可使用

这是高德地图语音团队开发的一个AI语音合成工具,可以让电脑用自然的声音朗读文字,还能模仿不同人的声音、表达不同情绪。✨ 它能做什么?1️⃣模仿任何人说话只需录一段5-15秒的音频,AI就能学会这个人的声音比如:用你朋友的声音读你写的文字2️⃣带感情地朗读支持11种情绪:😊 开心、😢 悲伤、😠 生气😲 惊讶、😨 害怕、🤢 厌恶😐 严肃、🥺 关切...
AI 2155 0
开源 换脸工具 roop_unleashed v8.0 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示

开源 换脸工具 roop_unleashed v8.0 中文版 可支持批量换脸,直播换脸,整合包支持AMD显卡+N卡。速度超快 附视频教程演示

昨天分享了roop的整合包支持AMD显卡来运行,今天分享的这个工具是roop的一个分支,虽然roop的作者已经弃更了,但是还有其他人继续更新。这就有产生了一个新的项目roop_unleashed。估计是这个项目出来并没有多久,所以知道的人不是很多,这2天我心血来潮就把这个项目也做了一个整合包,这个roop_unleashed是支持N卡的,但是...
AI,开源 8万 217
专为无显卡的小伙伴打造的AI语音生成工具,小巧,免费,无字数限制,速度超快,解压即可使用 Edge-TTS-Text-to-Speech-2.0

专为无显卡的小伙伴打造的AI语音生成工具,小巧,免费,无字数限制,速度超快,解压即可使用 Edge-TTS-Text-to-Speech-2.0

🎙️ Edge TTS 文本转语音 - 功能说明一、核心功能表格功能说明文本转语音使用微软 Edge TTS 引擎,将输入文本转换为自然流畅的 MP3 音频长文本支持自动分段处理(每段 ≤800 字符),支持超长文本合成音频合并自动将分段音频合并为单一文件输出多国语言支持中文、英语、日语、韩语、法语、德语等数十种语言二、语音选择系统两级联动选...
AI 4254 0
开源 Deep-Live-Cam v2.7-RC2 AI人工智能 图片视频换脸+直播换脸 汉化整合包 支持AMD+英伟达N卡50系

开源 Deep-Live-Cam v2.7-RC2 AI人工智能 图片视频换脸+直播换脸 汉化整合包 支持AMD+英伟达N卡50系

Deep-Live-Cam是一款由hacksider开发并维护的创新性软件,旨在为快速发展的AI生成媒体行业贡献一份力量。该软件的主要功能是通过深度学习技术,实现实时的人脸替换与增强,为艺术家、设计师以及内容创作者提供了一个强大的工具,帮助他们以全新的方式创作和表达。项目概述Deep-Live-Cam的核心价值在于其广泛的应用场景。艺术家可以...
AI,开源 2万 21
自媒体人的AI音乐工坊:打字描述,自动生成专属BGM stable-audio-3 AI音乐自动生成一键整合包 v20260524

自媒体人的AI音乐工坊:打字描述,自动生成专属BGM stable-audio-3 AI音乐自动生成一键整合包 v20260524

Stable Audio 3 是 Stability AI(就是出 Stable Diffusion 那家公司)做的一款AI 音乐/音效生成工具。你只需要打字描述,它就能帮你生成一段音频——可以是一段背景音乐、一个音效、甚至是一首完整的歌。这个增强版把原来的英文界面全部翻译成了中文,还加了一些方便国内用户使用的功能。它能做什么?举几个例子你想...
AI 4475 0
轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v9.0 六秒出图 支持更换模型+图片超分+图生图

轻量 高效 AI生图工具 基于 Stable Diffusion XL 模型二次开发,6G英伟达显卡就可以愉快玩耍 Diaomo v9.0 六秒出图 支持更换模型+图片超分+图生图

基于 Stable Diffusion XL 的一站式 AI 绘画工作台,支持文生图、图生图与批量自动化生产,内置智能中文翻译,零门槛直接用中文描述生成高质量图像。一、三大核心创作模式1. 文生图(Text-to-Image)输入一段画面描述,AI 直接生成全新图像。智能中文提示词:输入中文即可,系统自动调用轻量翻译模型转为英文提示词;若输入...
AI,开源 1.5万 31
一句话画出动漫世界!支持中文的AI绘画神器来了 Anima文生动漫图片AI大模型 ,8G英伟达显卡即可愉快玩耍

一句话画出动漫世界!支持中文的AI绘画神器来了 Anima文生动漫图片AI大模型 ,8G英伟达显卡即可愉快玩耍

Anima 动漫文生图基于 circlestone-labs/Anima 模型的图像生成工具。支持中文提示词自动翻译,生成结果自动保存至本地 output 目录。✨ 主要特性🎨 高质量动漫风格生成 – 专精二次元、动漫、CG 渲染。🌐 中文提示词自动翻译 – 使用...
AI 4万 129
klein-edit AI图片编辑工具 摄影师狂喜:86个AI修图预设,从人像到风景全覆盖 v1.0 20260514更新记录 新增lora支持

klein-edit AI图片编辑工具 摄影师狂喜:86个AI修图预设,从人像到风景全覆盖 v1.0 20260514更新记录 新增lora支持

FLUX.2 Klein 图像编辑工具:86个一键预设,打造专业级本地 AI 图像处理工作站一、项目概述在 AI 图像生成与编辑领域,FLUX系列模型以其卓越的图像理解能力和编辑精度备受开发者青睐。本文介绍的这套基于FLUX.2-klein的本地图像编辑工具,通过Gradio构建了一个功能完备的 Web 界面,集成了86个实用预设功能,支持多...
AI 3833 8
百度开源图片大模型 文生图 ERNIE-Image-Turbo 一键整合包 8G英伟达 16秒出图 文字理解能力超强 v20260416

百度开源图片大模型 文生图 ERNIE-Image-Turbo 一键整合包 8G英伟达 16秒出图 文字理解能力超强 v20260416

🎨 ERNIE-Image-Turbo 模型介绍【核心定位】• 极速生成:基于单流 Diffusion Transformer 架构,仅需 8 步推理即可完成高质量图像生成,速度提升 6 倍以上• 精准可控:强调对复杂指令的准确还原,适合需要内容精确落地的实用型创作任务• 轻量化部署:经蒸馏优化,可在 消费级显卡上流畅运行,大幅降低商用门槛【...
AI 3694 8
压缩文件管理器 WinRAR 简体中文烈火汉化版 x64  v7.22

压缩文件管理器 WinRAR 简体中文烈火汉化版 x64 v7.22

这个地球人都知道的软件,应该没什么好说的吧?本站下载的软件你如果用别的解压软件解压失败,请一定要用这个来解压。WinRAR是一款强大的压缩文件管理器,它提供了RAR和ZIP文件的完整支持,能解压ARJ、CAB、LZH、ACE、TAR、GZ、UUE、BZ2、JAR、ISO格式文件。WinRAR 是一个功能强大的压缩文件管理工具,常用于在计算机上...
软件 8010 15
网文作者的 AI 外挂:日更万字还能保证剧情连贯的秘密武器 AI自动写小说  AI_NovelGenerator V1.4.4

网文作者的 AI 外挂:日更万字还能保证剧情连贯的秘密武器 AI自动写小说 AI_NovelGenerator V1.4.4

AI_NovelGenerator 是由 YILING0013 开发并开源在 GitHub 上的一款 基于大语言模型的 AI 长篇小说自动生成工具。它专注于解决 AI 写作中最棘手的长文本连贯性问题,能够创作多章节长篇小说,并确保剧情连贯、设定统一、伏笔合理呼应。核心定位"让 AI 从写作玩具变成生产力工具"传统 AI 写...
AI,开源 5843 1
输入歌词,AI自动作曲:你的音乐创作助手 HeartMuLa 一键中文整合包 v20260507

输入歌词,AI自动作曲:你的音乐创作助手 HeartMuLa 一键中文整合包 v20260507

HeartMuLa/heartlib:开源音乐基础模型家族深度解析项目定位与愿景HeartMuLa是一个全面的开源音乐基础模型家族,旨在推动跨任务与多模态的大规模音乐理解与生成技术发展。该项目不仅仅是一个单一的模型,而是一个完整的生态系统,涵盖了从音乐理解到完整曲目生成的全链条能力。其核心目标是为研究社区和开发者提供可复现、可扩展的音乐AI工...
AI,开源 8573 11
一键克隆任意人声!VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行 剑二十七二开汉化整合包 v20260505

一键克隆任意人声!VoxCPM 2.05 开源语音大模型,无需训练,3秒搞定声音复刻!支持30种语言,9种方言,支持情绪表达+语气标签+超长文本+音色一致性+批量文本合成+音色保存。最低8G英伟达即可运行 剑二十七二开汉化整合包 v20260505

VoxCPM 是一个支持中英文、零样本语音克隆、情感可控、音素/公式输入的统一端到端语音合成大模型。它不依赖传统 TTS 流水线(如文本分析 → 音素对齐 → 声码器),而是直接从文本生成高质量语音波形。🎯 目标:打造一个像大语言模型一样“通用、灵活、强大”的语音生成基础模型。🔧 核心特性(技术亮点)1. ✅ 端到端架构(End-to-End...
AI,开源 9495 9
新一代开源 AI换脸神器 FaceFusion v3.6.1 中文版 支持AMD显卡+N卡 速度更快 支持50系显卡+批量换脸,效果更惊艳 操作更简单 附视频演示 20260421 更新

新一代开源 AI换脸神器 FaceFusion v3.6.1 中文版 支持AMD显卡+N卡 速度更快 支持50系显卡+批量换脸,效果更惊艳 操作更简单 附视频演示 20260421 更新

FaceFusion这个AI换脸的项目已经太久没有更新了。作者终于在昨天更新了3.0,更新幅度大得惊人。这么久不更新,原来是一直在憋大招,这个CD冷却也太久了。。。我第一次时间就去做整合包了。本以为这还不是有手就行的事,但是有点难度。因为3.0更新太大了,所以之前版本的模型还有一些东西根本用不上了,我只能慢慢去研究了。搞半天最后把我的系统的c...
AI,开源 52.4万 3504
索尼开源AI模型 Woosh 一句话生成音效,一键为视频配音 一键AI整合包 解压即可使用 v20260424

索尼开源AI模型 Woosh 一句话生成音效,一键为视频配音 一键AI整合包 解压即可使用 v20260424

索尼人工智能研究院(Sony AI)发布的音效生成基础模型📌 项目定位Woosh是专为音效生成(Sound Effects)优化的多模态生成式 AI 模型套件,旨在为音频研究社区提供高质量的开源基座模型,支持文本到音频(T2A)和视频到音频(V2A)两大核心任务。🔗 技术报告:arXiv:2604.01929🧩 核心模块组成1️⃣ Woosh...
AI 3273 0
京东开源 图片编辑AI大模型 JoyAI-Image-Edit v20260422 二次开发一键整合包 附演示和操作教程

京东开源 图片编辑AI大模型 JoyAI-Image-Edit v20260422 二次开发一键整合包 附演示和操作教程

JoyAI-Image-Edit 是京东开源的多模态基础模型,专注于指令引导的图像编辑任务。它基于 JoyAI-Image 多模态底座构建,通过自然语言指令实现对图像的精确、可控编辑。🔹 核心技术特点1. 强大的空间理解能力场景解析:自动识别图像中的物体、区域及空间关系关系定位:精准理解"物体A在物体B左侧"等空间描述指令...
AI 5284 1