OptiSpeechOptiSpeech是一个高效、轻量级且快速的文本到语音模型,专为设备端文本到语音转换设计。它利用了先进的深度学习技术,能够将文本转换为自然听起来的语音,适合需要在移动设备或嵌入式系统中实现语音合成的应用。OptiSpeech的开发得到了Pneuma Solutions提供的GPU资源支持,显著加速了开发进程。
audiblezAudiblez是一个利用Kokoro高质量语音合成技术,将普通电子书(.epub格式)转换为.m4b格式有声书的工具。它支持多种语言和声音,用户可以通过简单的命令行操作完成转换,极大地丰富了电子书的阅读体验,尤其适合在开车、运动等不方便阅读的场景下使用。该工具由Claudio Santini在2025年开发,遵循MIT许可证免费开源。
EaseVoice TrainerEaseVoice Trainer 是一个后端项目,旨在简化和增强语音合成与转换训练过程。该项目基于 GPT-SoVITS 进行改进,注重用户体验和系统的可维护性。其设计理念不同于原始项目,旨在提供更模块化和定制化的解决方案,适用于从小规模实验到大规模生产的多种场景。该工具可以帮助开发者和研究人员更高效地进行语音合成和转换的研究与开发。
Supertone PlaySupertone Play是一个专注于语音克隆和AI语音内容创作的平台。它利用先进的AI技术,让用户能够通过简单的语音输入,创造出个性化的语音内容。这种技术可以广泛应用于娱乐、教育、商业等多个领域,为用户提供了一种全新的表达和创作方式。平台的语音克隆功能可以让用户在短时间内创建出独特的语音模型,而AI语音内容创作则可以根据用户的需求生成高质量的语音内容。这种技术的主要优点是高效、个性化和创新性,能够满足不同用户在语音创作方面的需求。
kokoro-onnxkokoro-onnx是一个基于Kokoro模型和ONNX运行时的文本到语音(TTS)项目。它支持英语,并计划支持法语、日语、韩语和中文。该模型在macOS M1上具有接近实时的快速性能,并提供多种声音选择,包括耳语。模型轻量级,约为300MB(量化后约为80MB)。该项目在GitHub上开源,采用MIT许可证,方便开发者集成和使用。