moondream v1.2 开源 AI人工智能 图片反推提示词神器,可批量处理图片提示词 一键整合包

moondream v1.2 开源 AI人工智能 图片反推提示词神器,可批量处理图片提示词 一键整合包

vikhyat/moondream是一个开源的、轻量级的视觉语言模型项目,旨在提供强大的图像理解和生成能力,同时确保模型可以在各种环境下高效运行。该项目在GitHub上托管,拥有简洁的代码库和丰富的文档资源,为开发者提供了便捷的使用和定制体验。项目的核心是一个视觉语言模型,该模型能够接收图像作为输入,并基于图像内容生成相应的文本描述或回答相关...
软件 3739 12
开源 UltraPixel 文生图 超高分辨率出图 细节非常丰富 远超Stable-diffusion等 一键整合包 附视频演示 v20241113增强版

开源 UltraPixel 文生图 超高分辨率出图 细节非常丰富 远超Stable-diffusion等 一键整合包 附视频演示 v20241113增强版

UltraPixel是一个由华为诺亚方舟实验室联合香港科技大学共同开发的开源项目,旨在生成具有丰富细节的高质量图像,其分辨率范围可以从1K一直延伸至6K。该项目不仅优化了细节处理,还显著提升了整体图像效果,将超高清图像合成推向了新的高峰。项目背景与目的随着人工智能技术的不断发展,生成高分辨率图像成为了一个研究热点。然而,现有的图像生成模型在生...
开源 3607 4
Clarity-Refiners-UI  一个专注于图像增强的开源项目 一键整合包

Clarity-Refiners-UI 一个专注于图像增强的开源项目 一键整合包

Pinokiofactory/Clarity-Refiners-UI 是一个专注于图像增强的开源项目,它基于 Pinokio UI 框架,并融合了多项先进的图像处理技术。该项目旨在为用户提供一种高效、易用且功能强大的图像增强解决方案。项目背景与目的Pinokiofactory/Clarity-Refiners-UI 是 Pinokio 工厂团...
开源 1637 2
RMBG-2-Studio AI人工智能 抠图神器 一键整合包

RMBG-2-Studio AI人工智能 抠图神器 一键整合包

RMBG-2-Studio是一个基于BRIA-RMBG-2.0模型构建的增强型Pinokio应用程序,它不仅包含了安装文件,还提供了一系列强大的图像处理功能。以下是对该开源项目的详细介绍:项目背景与目的:RMBG-2-Studio旨在为用户提供一种高效、便捷的图像背景移除和图像合成工具。它利用了BRIA AI公司开发的RMBG v2.0背景移...
开源 2451 2
开源AI 免费抠图工具,可以批量抠图rembg v2.0.60 抠图速度超快 附教程+视频效果演示 一键整合包

开源AI 免费抠图工具,可以批量抠图rembg v2.0.60 抠图速度超快 附教程+视频效果演示 一键整合包

我基于rembg 开源项目打包制作,部分运行代码参考了一些网友的代码。下面是截图下面是放一些抠图的对比图片这是我批量抠图的演示,因为选的都是一个模型,所以效果确实一般,但是实际上还可以更精细,我已经把所有模型都下载下来了看截图不同的模型可以针对不同类型的图片,不是一个模型就能走天下的。这是官方的说明 可以参考下u2net : 用于一般用例的预...
软件,开源 8040 30
InstantIR 一键整合包 AI智能高清修复图片工具 超分辨率工具

InstantIR 一键整合包 AI智能高清修复图片工具 超分辨率工具

这个项目群里的小伙伴 推荐了好多次了,之前我也试过做整合包,做完后发现BUG太多了,我就删了,看到作者最近又更新了,所以抽空把这个整合包做出来了。效果嘛 你们自己看。先来一张官方的示例图下面是我跑完的效果下面继续看我用其他图片跑的出来的效果跑一张图片大概需要3-4分钟。下面是界面截图下面是这个项目的AI介绍nstantIR 是一个在 GitH...
开源 3501 0
复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

复旦、百度联手推出全新AI模型Hallo2 AI数字人 一键整合包,可生成高清4K数字人视频

Hallo是一个由复旦大学、百度公司、苏黎世联邦理工学院和南京大学共同开发的AI对口型肖像图像动画技术,该技术能够基于语音音频输入生成逼真且动态的肖像图像视频。以下是该项目的详细介绍:项目背景:肖像图像动画技术:该技术旨在从单个静态图像和相应的语音音频中生成一个说话的人像,在视频游戏和虚拟现实、电影和电视制作、社交媒体和数字营销等领域具有巨大...
开源 4526 23
diffusers-image-outpaint  超强AI人工智能扩图工具 一键整合包

diffusers-image-outpaint 超强AI人工智能扩图工具 一键整合包

Diffusers Image Outpaint 是一个在 Hugging Face 上的开源项目,它为图像外绘(image outpainting)提供了强大的工具和解决方案。一、项目背景与目标在图像处理领域,有时我们需要对图像进行扩展或修复,尤其是在图像的边缘部分进行外绘,以创造出更完整或更具创意的图像效果。Diffusers Image...
开源 6878 12
EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐 音效 一键整合包 20240929修改增强

EzAudio: High-quality Text-to-Audio Generator AI文本生成音乐 音效 一键整合包 20240929修改增强

超级实用的一个AI开源工具,可以输入文本来生成各种声音,感觉这个很有实用场景啊,群里小伙伴推荐的一个项目。我花了点时间做成了整合包。腾讯AI实验室与约翰霍普金斯大学强强联手,共同推出了EzAudio这一革命性的文本到音频生成模型。EzAudio以其前所未有的高效能与卓越音质,为人工智能与音频技术的融合树立了新的里程碑。EzAudio之所以能在...
软件 2814 0
开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v0.94 整合包 附全部模型

开源 免费 AI语音识别转文字工具,制作视频字幕的利器 stt v0.94 整合包 附全部模型

下面文字是作者原话这是一个离线运行的本地语音识别转文字工具,基于 fast-whipser 开源模型,可将视频/音频中的人类声音识别并转为文字,可输出json格式、srt字幕带时间戳格式、纯文字格式。可用于自行部署后替代 openai 的语音识别接口或百度语音识别等,准确率基本等同openai官方api接口。部署或下载后,双击 start.e...
开源 3443 6
PuLID-flux模型 AI整合包 字节 开源的图像生成ID定制化项目,通过对比对齐技术引领纯净高效新纪元

PuLID-flux模型 AI整合包 字节 开源的图像生成ID定制化项目,通过对比对齐技术引领纯净高效新纪元

PuLID是一个由ByteDance Inc.开发的开源项目,专注于通过对比对齐技术实现纯净且高效的图像生成ID定制化。该项目由Zinan Guo、Yanze Wu、Zhuowei Chen、Lang Chen和Qian He等研究人员共同贡献,其中Zinan Guo和Yanze Wu为等量贡献者,Yanze Wu为通讯作者。PuLID项目的...
开源 4035 13
Flux 文生图模型 一键整合包 解压即可食用 出图效果超级惊艳 附图片演示

Flux 文生图模型 一键整合包 解压即可食用 出图效果超级惊艳 附图片演示

Flux文生图模型是由Black Forest Labs(黑森林实验室)开发的一款高质量文本到图像生成模型。该模型在多个维度上展现了卓越性能,特别是在文本引导的图像生成、多主体场景构建以及精细的手部细节生成等方面,实现了显著的提升,为文生图领域设定了新的技术标杆。Flux模型的核心特点包括:高性能与高质量:Flux模型采用了先进的混合架构,融...
开源 8066 59
开源 CogVideoX 文字生成视频 整合包

开源 CogVideoX 文字生成视频 整合包

CogVideoX是智谱AI推出的一款开源视频生成模型,该项目在视频生成领域引起了广泛关注。以下是对CogVideoX开源项目的详细介绍:一、项目背景与简介CogVideoX作为智谱AI的创新成果,旨在通过深度学习技术将文本或图像转换为高质量的视频内容。该项目不仅推动了视频生成技术的边界,还为创作者提供了全新的创作工具和平台。CogVideo...
开源 3442 3
EchoMimic 一个由阿里巴巴推出的开源AI数字人项目 一键整合包

EchoMimic 一个由阿里巴巴推出的开源AI数字人项目 一键整合包

EchoMimic是一个由阿里巴巴推出的开源AI数字人项目,该项目在数字人技术领域内实现了显著的创新与突破。以下是对EchoMimic的详细介绍:一、项目背景与意义随着人工智能、深度学习、计算机视觉以及自然语言处理技术的飞速发展,数字人技术逐渐成为连接现实世界与虚拟世界的重要桥梁。EchoMimic项目的诞生,旨在通过先进的技术手段,将静态图...
开源 3174 1
开源 ReHiFace-S 一款集高保真、实时性、易用性于一身的换脸神器 附视频演示 整合包

开源 ReHiFace-S 一款集高保真、实时性、易用性于一身的换脸神器 附视频演示 整合包

这个项目我已经做好了几天了,在群里也是分享了,经过几天的运行测试后,现在已经非常稳定了,所以今天抽空整理下分享出来。换脸的效果还是很不错的,你们可以下面的视频演示就知道了。虽然我之前也已经分享了几个换脸的工具了,但是谁又会在意多一个呢?多一个选择总是好的。这个操作是极其简单的。选择人脸,选择视频点下提交就可以换脸了。特别适合那些电脑基础差的小...
开源 6746 35
神器 Civitai-Web-Scraper C站图片下载工具 整合包

神器 Civitai-Web-Scraper C站图片下载工具 整合包

Civitai-Web-Scraper是一款专为挖掘CivitAI平台上丰富的人工智能生成图像及其灵感提示而设计的开源工具。该项目由ScreamingHawk在GitHub上开源,旨在帮助艺术家、设计师、AI研究人员以及普通爱好者轻松访问和获取CivitAI网站上的AI创作内容。主要功能与特点:一键式抓取:Civitai-Web-Scrape...
开源 2659 4
腾讯开源GFPGAN图片无损放大,一键懒人包

腾讯开源GFPGAN图片无损放大,一键懒人包

GFPGAN是一个由腾讯PCG应用研究中心(ARC)开发的开源项目,专注于现实世界中的人脸修复算法。它利用预训练的人脸生成对抗网络(GAN)中的丰富先验信息来进行盲脸修复,尤其擅长处理低分辨率或损坏的人脸图像。GFPGAN主要特点:实用性:旨在为实际应用中的人脸恢复提供实用算法。先验信息:利用GAN(如StyleGAN2)中的丰富和多样先验信...
软件 2796 10
PhotoMaker v2 整合包 高效地定制化生成任意风格的逼真人类照片!附视频教程

PhotoMaker v2 整合包 高效地定制化生成任意风格的逼真人类照片!附视频教程

PhotoMaker是一个由腾讯ARC实验室和南开大学MCG-NKU联合开发的前沿图像生成工具,该项目在CVPR 2024会议上进行了展示。PhotoMaker旨在通过堆叠的ID嵌入技术,实现对真实人类照片的定制化编辑与生成。其核心功能在于能够迅速根据用户提供的参考图像(ID图像),结合文本提示,生成具有高度身份一致性(ID fidelity...
开源 3949 6
开源 AI EmotiVoice 易魔声 文本生成语音  一款功能强大且现代的开源文本转语音(TTS)引擎

开源 AI EmotiVoice 易魔声 文本生成语音 一款功能强大且现代的开源文本转语音(TTS)引擎

EmotiVoice(易魔声)是一款功能强大且现代的开源文本转语音(TTS)引擎,由网易有道开源并维护。该软件以其中英文双语支持和超过2000种不同的音色而闻名,为用户提供了极为丰富的声音选择。以下是对EmotiVoice(易魔声)的详细介绍:一、核心功能双语言支持:EmotiVoice支持中英文两种语言的文本转语音,满足了不同用户的语言需求...
软件 3540 6
LivePortrait 整合包 AI表情同步(表情迁移),支持N卡。附视频演示

LivePortrait 整合包 AI表情同步(表情迁移),支持N卡。附视频演示

LivePortrait是一款由快手科技与中国科学技术大学和复旦大学合作开发的先进AI驱动的肖像动画框架,其项目地址位于https://github.com/KwaiVGI/LivePortrait。该软件旨在通过创新的图像处理技术,将静态的照片转化为栩栩如生的动态视频,为用户带来更加生动有趣的视觉体验。核心特点高效性:LivePortrai...
开源 3049 2
Bark UI Enhanced v0.7.4 整合包 一款开源的具有 Gradio 网络用户界面的文本触发的生成音频模型

Bark UI Enhanced v0.7.4 整合包 一款开源的具有 Gradio 网络用户界面的文本触发的生成音频模型

最近都在留意这个文字转语音工具,无意发现了这个开源项目,效果相当不错,所以顺手就做成了整合包,本身这个项目是支持N卡的,但是因为我没有N卡,所以就只能做成了用CPU跑。。。如果你有N卡,想高效率去生成语音的话可以去开源项目那里看看。群里有小伙伴说这个能否做小说推文,我自己测试了下完全可以,而且我感觉比某音某手上面的小说推文的语音好多了,文末会...
开源 2611 6