热门

WeST

12个月前发布 30 00

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成，其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1，旨在通过简化的代码实现高效的语音识别功能。

收录时间：

2025-05-29

打开网站手机查看

语音处理 # 开源 # 机器学习 # 自然语言处理 # 语音识别

WeST

WeST

WeST是一个开源的语音识别转录模型，以300行代码的简洁形式，基于大型语言模型（LLM）实现语音到文本的转换。它由一个大型语言模型、一个语音编码器和一个投影器组成，其中仅投影器部分可训练。WeST的开发灵感来源于SLAM-ASR和LLaMA 3.1，旨在通过简化的代码实现高效的语音识别功能。

数据统计

相关导航

kokoro-onnx

kokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音（TTS）项目。它支持英语，并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能，并提供多种声音选择，包括耳语。模型轻量级，约为300MB（量化后约为80MB）。该项目在GitHub上开源，采用MIT许可证，方便开发者集成和使用。

Audioscribe

Audioscribe是一个由Wordware公司开发的AI驱动的语音转文字工具，旨在帮助用户将语音快速转换为结构化的笔记。它特别适合需要快速记录和整理思路的用户，例如项目写作者、头脑风暴参与者、电子邮件撰写者等。产品背景信息显示，它是一个WordApp，即基于Wordware IDE构建的应用程序，使用户能够使用自然语言创建定制的AI代理。

Transcribro

Transcribro是一款运行在Android平台上的私有、设备端语音识别键盘和文字服务应用，它使用whisper.cpp来运行OpenAI Whisper系列模型，并结合Silero VAD进行语音活动检测。该应用提供了语音输入键盘，允许用户通过语音进行文字输入，并且可以被其他应用显式使用，或者设置为用户选择的语音转文字应用，部分应用可能会使用它来进行语音转文字。Transcribro的背景是为用户提供一种更安全、更私密的语音转文字解决方案，避免了云端处理可能带来的隐私泄露问题。该应用是开源的，用户可以自由地查看、修改和分发代码。

AI-Powered Meeting Summarizer

AI-Powered Meeting Summarizer是一个基于Gradio的网站应用，能够将会议录音转换为文本，并使用whisper.cpp进行音频到文本的转换，以及Ollama服务器进行文本摘要。该工具非常适合快速提取会议中的关键点、决策和行动项目。

OpenVoiceChat

OpenVoiceChat是一个开源项目，旨在提供一个与大型语言模型（LLM）进行自然语音对话的平台。它支持多种语音识别（STT）、文本到语音（TTS）和LLM模型，允许用户通过语音与AI进行交互。项目采用Apache-2.0许可，强调开放性和易用性，目标是成为封闭商业实现的开源替代品。

Say My Name!

Say My Name! 是一款以趣味和个性化为核心的语音识别应用。它利用先进的语音识别技术，让用户的设备能够识别和响应用户的声音，尤其是用户的名字。这款应用不仅增加了用户与设备互动的乐趣，还提升了操作的便捷性。Say My Name! 的主要优点包括高准确率的语音识别、个性化的口令设置以及用户友好的操作界面。

EaseVoice Trainer

EaseVoice Trainer 是一个后端项目，旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进，注重用户体验和系统的可维护性。其设计理念不同于原始项目，旨在提供更模块化和定制化的解决方案，适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。

SpeechGPT 2.0-preview

SpeechGPT 2.0-preview 是一款由复旦大学自然语言处理实验室开发的先进语音交互模型。它通过海量语音数据训练，实现了低延迟、高自然度的语音交互能力。该模型能够模拟多种情感、风格和角色的语音表达，同时支持工具调用、在线搜索和外部知识库访问等功能。其主要优点包括强大的语音风格泛化能力、多角色模拟以及低延迟交互体验。目前该模型仅支持中文语音交互，未来计划扩展到更多语言。

暂无评论

您必须登录才能参与评论！

none

暂无评论...