KoboldCpp是一款易于使用的人工智能文本生成软件,适用于GGML和GGUF模型。这是一个可从Concedo分发的单一自包含版本,它建立在llama.cpp的基础上,并添加了一个多功能的Kobold API端点、额外的格式支持、稳定的扩散图像生成、向后兼容性以及一个具有持久故事、编辑工具、保存格式、内存、世界信息、作者注释、人物、场景和Kobold Lite所提供的一切的精美UI。
本软件突出一个简单上手 不需要部署一堆环境 敲一堆代码 开箱就能用 N卡最好,AMD/英特尔/苹果的显卡也都支持 要是都没有,CPU也可以跑。
功能 1、当简化版本地GPT用 2、角色扮演(AI女友神马的) 3、文字冒险(设定一个世界,你在里面冒险)
下面是一些简单说明 必须看看
3个版本
koboldcpp_cu12 新的N卡可用,提高了速度
koboldcpp 老N卡、其它品牌显卡用这个
要是啥显卡都没有,koboldcpp_nocuda CPU跑
直接运行exe
Presets里分老N卡,N卡,A卡,英特尔显卡,苹果显卡,CPU等不同模式选择
我的选择以加速进行是什么?(CuBLAS/CLblast/OpenBLAS/Metal/Accelerate/ROCm/Vulkan)
默认情况下,不设置任何参数启动将仅使用 CPU 的 OpenBLAS 进行快速处理和推理。对于大模型和大提示来说,这可能会很慢。
以下是一些加速选项:
CuBLAS:仅适用于 Nvidia GPU。启动时使用此选项。预打包为 Windows .exe 用户,但对于所有其他平台需要安装 CUDA 工具包(请参阅使用 CUDA 从源代码编译,OSX/Mac 部分)。可以与结合使用以获得更快的 GPU 卸载。
CLblast:适用于大多数 GPU,包括 Nvidia、AMD 和英特尔 iGPU。启动时使用此选项。预打包为 Windows .exe 用户,但对于所有其他平台需要安装 CLBlast 库(请参阅使用 CLBlast 从源代码编译,OSX/Mac 部分)。可以与结合使用以获得更快的 GPU 卸载。-
OpenBLAS:仅限 CPU,不需要 GPU。在 Windows 上自动执行,但可以通过设置或禁用。在其他平台上需要安装 OpenBLAS 库。
Metal:仅适用于 Apple Silicon 用户(例如 Mac M2),使用 Metal 进行 GPU 加速。可以与结合使用。请参阅使用 Metal 从源代码编译。-
Accelerate:仅适用于 Mac 用户,仅限 CPU,比 OpenBLAS 更快。如果 BLAS 使您变慢,请尝试。
ROCm:不直接支持,但请参阅 YellowRoseCx/koboldcpp-rocm 分支通过 HIPBLAS 仅针对 AMD 设备进行支持。
Vulkan:现在支持,Vulkan 是一种新的选择,与 OpenCL 后端相比,提供了速度和效用的良好平衡。
红框处加载下载的模型
大家可以去huggingface.co下载,国内镜像HF-Mirror - Huggingface 镜像站
我放了几个模型 在model文件夹里面
模型选择的话既然是零基础,就搜GGUF,这类的都能简单粗暴直接跑,(GGML类也支持)体量上按自己的硬件来选择
模型体量和显存大概的关系
LLAMA 3B 至少需要 4GB RAM
LLAMA 7B 至少需要 8GB RAM
LLAMA 13B 至少需要 16GB RAM
LLAMA 30B 至少需要 32GB RAM
LLAMA 65B 至少需要 64GB RAM
运行后就是这个样子
视频演示
怎么现在只有夸克和百度网盘了,123和迅雷出问题了吗
会员到期了
感谢分享🙏应该是不错的
这个看起来很屌哈。
感谢楼主
好
谢谢分享谢谢分享
哈哈,我来试试!!!!!!!!
不错
谢谢分享
不错不错