Whisper是OpenAI的Whisper自动语音识别ASR模型的衍生项目。
Whisper可以在Windows上使用,支持高性能GPGPU处理,可以利用GPU加速处理。
本体是个启动器,需要结合一个语言识别模型文件(ggml-tiny、ggml-small、ggml-base、ggml-medium、ggml-large)使用,模型越大,效果越好,但相对的速度也更慢。
基于DirectCompute的与供应商无关的GPGPU;该技术的另一个名称是“Direct3D 11 中的计算着色器”
纯C++实现,除了基本的操作系统组件外,没有运行时依赖关系
比OpenAI的实现快得多。
混合 F16 / F32 精度:Windows 需要自 D3D 版本 10.0 起支持缓冲区R16_FLOAT
内置性能探查器,用于测量单个计算着色器的执行时间
内存使用率低
用于音频处理的媒体基础,支持大多数音频和视频格式(Ogg Vorbis除外), 以及大多数在Windows上运行的音频捕获设备(除了一些专业设备,它们只实现ASIO API)。
用于音频捕获的语音活动检测。
易于使用的 COM 样式 API,nuget 上提供的惯用 C# 包装器
提供预构建的二进制文件
软件截图
下面是项目的一些介绍 可以看看
High-performance GPGPU(General-Purpose Graphics Processing Unit)inference of OpenAI's Whisper automatic speech recognition (ASR) model 是指利用高性能图形处理单元进行OpenAI的Whisper自动语音识别(ASR)模型的推断(inference)过程。Whisper ASR模型是一种先进的语音识别技术,通过深度学习和人工智能的方法,能够准确地将语音转换为文本。而利用GPGPU进行推断,是为了加速这一模型的执行过程,提高语音识别的实时性和效率。
现代计算机的图形处理单元(GPU)已经不再是仅仅用于图形渲染的设备,其高度并行的计算能力使其适合处理许多其他类型的任务,包括机器学习和深度学习。通过充分发挥GPU的并行计算能力,可以加速Whisper ASR模型的推断过程,使其能够更快地对输入的语音进行分析和转录。
利用GPGPU进行Whisper ASR模型的推断有几个关键的优势。首先,GPU可以同时执行多个任务,因此可以并行处理多个音频流并在较短的时间内完成推断。这对于需要实时性的语音识别应用非常重要,例如语音助手、电话交互系统等。其次,GPU具有较高的计算能力和内存带宽,能够处理大量的语音数据,并在短时间内生成实时的识别结果。最后,利用GPGPU进行推断可以减轻主机CPU的负担,释放出更多的计算资源用于其他任务,提高整体系统的效率和性能。
除了提供高性能的语音识别推断,使用GPGPU还可以为Whisper ASR模型带来更广泛的应用和扩展性。目前,语音识别技术正在广泛应用于语音转写、语音指令、实时翻译等领域。通过利用GPGPU进行推断,Whisper ASR模型可以更好地满足这些应用的需要,提供更精确、更快速的识别服务。
总的来说,通过利用高性能GPGPU进行OpenAI的Whisper自动语音识别模型的推断,可以提高语音识别的实时性和效率。这一技术的应用将极大地推动语音识别在各个领域的发展,并为用户提供更优质、更便捷的语音交互体验。随着硬件和软件的不断创新和进步,相信GPGPU推断技术将在语音识别领域发挥越来越重要的作用。
项目开源地址
https://github.com/Const-me/Whisper/
下载地址:
[hide]
https://www.123pan.com/s/vdecVv-vE5wv.html
[/hide]
简单使用教程点击下面
https://www.myhelen.cn/helen/94.htm
谢谢分享
谢谢分享
谢谢分享
谢谢分享
点赞分享
谢谢分享
谢谢分享
试试看
感谢分享
感谢
感谢分享
谢谢分享
谢谢分享
谢谢分享
不错
谢谢分
感谢分享
感谢分享
感谢分享
谢谢分享
谢谢分享