KoboldCpp是一款易于使用的人工智能文本生成软件,适用于GGML和GGUF模型。这是一个可从Concedo分发的单一自包含版本,它建立在llama.cpp的基础上,并添加了一个多功能的Kobold API端点、额外的格式支持、稳定的扩散图像生成、向后兼容性以及一个具有持久故事、编辑工具、保存格式、内存、世界信息、作者注释、人物、场景和Kobold Lite所提供的一切的精美UI。
本软件突出一个简单上手 不需要部署一堆环境 敲一堆代码 开箱就能用 N卡最好,AMD/英特尔/苹果的显卡也都支持 要是都没有,CPU也可以跑。
功能 1、当简化版本地GPT用 2、角色扮演(AI女友神马的) 3、文字冒险(设定一个世界,你在里面冒险)
下面是一些简单说明 必须看看
3个版本
koboldcpp_cu12 新的N卡可用,提高了速度
koboldcpp 老N卡、其它品牌显卡用这个
要是啥显卡都没有,koboldcpp_nocuda CPU跑
直接运行exe
Presets里分老N卡,N卡,A卡,英特尔显卡,苹果显卡,CPU等不同模式选择
我的选择以加速进行是什么?(CuBLAS/CLblast/OpenBLAS/Metal/Accelerate/ROCm/Vulkan)
默认情况下,不设置任何参数启动将仅使用 CPU 的 OpenBLAS 进行快速处理和推理。对于大模型和大提示来说,这可能会很慢。
以下是一些加速选项:
CuBLAS:仅适用于 Nvidia GPU。启动时使用此选项。预打包为 Windows .exe 用户,但对于所有其他平台需要安装 CUDA 工具包(请参阅使用 CUDA 从源代码编译,OSX/Mac 部分)。可以与结合使用以获得更快的 GPU 卸载。
CLblast:适用于大多数 GPU,包括 Nvidia、AMD 和英特尔 iGPU。启动时使用此选项。预打包为 Windows .exe 用户,但对于所有其他平台需要安装 CLBlast 库(请参阅使用 CLBlast 从源代码编译,OSX/Mac 部分)。可以与结合使用以获得更快的 GPU 卸载。-
OpenBLAS:仅限 CPU,不需要 GPU。在 Windows 上自动执行,但可以通过设置或禁用。在其他平台上需要安装 OpenBLAS 库。
Metal:仅适用于 Apple Silicon 用户(例如 Mac M2),使用 Metal 进行 GPU 加速。可以与结合使用。请参阅使用 Metal 从源代码编译。-
Accelerate:仅适用于 Mac 用户,仅限 CPU,比 OpenBLAS 更快。如果 BLAS 使您变慢,请尝试。
ROCm:不直接支持,但请参阅 YellowRoseCx/koboldcpp-rocm 分支通过 HIPBLAS 仅针对 AMD 设备进行支持。
Vulkan:现在支持,Vulkan 是一种新的选择,与 OpenCL 后端相比,提供了速度和效用的良好平衡。
红框处加载下载的模型
大家可以去huggingface.co下载,国内镜像HF-Mirror - Huggingface 镜像站
我放了几个模型 在model文件夹里面
模型选择的话既然是零基础,就搜GGUF,这类的都能简单粗暴直接跑,(GGML类也支持)体量上按自己的硬件来选择
模型体量和显存大概的关系
LLAMA 3B 至少需要 4GB RAM
LLAMA 7B 至少需要 8GB RAM
LLAMA 13B 至少需要 16GB RAM
LLAMA 30B 至少需要 32GB RAM
LLAMA 65B 至少需要 64GB RAM
运行后就是这个样子
视频演示
感谢分享🙏应该是不错的
这个看起来很屌哈。
感谢楼主
好
谢谢分享谢谢分享
哈哈,我来试试!!!!!!!!
不错
谢谢分享
不错不错