SpeakItAI：基于Azure与Gradio的多语言神经语音合成工具/文本转语音（TTS）应用

👤 零点资源 👁 288 📅 2025-06-01

SpeakItAI简介

SpeakItAI 是一款开源的文本转语音（TTS）应用，结合了 Microsoft Azure 的神经语音合成服务与 Gradio 的简洁 Web 界面，旨在为用户提供自然流畅的语音输出体验。

核心功能

多语言支持：支持超过 140 种语言和方言，涵盖英式英语、美式英语、法语、德语、俄语、中文、西班牙语、印地语等，满足全球用户的需求。
语音参数调节：用户可根据需求调整语音的风格、语速和音调，实现个性化的语音输出。
多种输入方式：支持直接在文本框中输入文本或上传 .txt 文件，方便灵活。
音频输出：生成的语音以 .wav 格式输出，可直接在浏览器中播放，提升用户体验。
智能界面设计：下拉菜单自动填充默认语言、语音和风格，界面显示人类可读的语言名称（如“English (UK)”），增强用户友好性。
模块化架构：采用模块化设计，便于未来功能扩展和维护。

免费使用 Azure 神经语音合成

Microsoft Azure 提供免费的神经语音合成服务，每月可免费转换 50 万字符，适用于 F0（免费）定价层。

按字符计费：超出免费额度后，按字符计费，费用透明。
每月重置：免费额度每月自动重置，无需手动操作。
无需信用卡：注册使用免费服务时，无需提供信用卡信息，降低试用门槛。

快速开始指南

克隆项目仓库：

git clone https://github.com/loglux/SpeakItAI.git
cd SpeakItAI

创建 Azure 语音资源：
在 Azure 门户中创建语音资源（建议选择 F0 免费层），获取密钥和区域信息。
配置环境变量：
复制 .env.example 文件为 .env，并填入 Azure 的密钥和区域信息。
安装依赖：
建议使用虚拟环境，安装所需的 Python 依赖包。
运行应用：
执行 python app.py 启动应用，即可在浏览器中访问界面，开始使用。

使用注意事项

若同时提供文本框输入和文件上传，系统优先处理上传的文件。
仅支持上传 .txt 格式的文件，确保文件格式正确。
输出的音频文件为 .wav 格式，可直接在浏览器中播放。
若选择的语音不支持特定风格，系统将自动使用默认风格。

SpeakItAI 的设计旨在为用户提供高质量、个性化的语音合成体验，适用于内容创作、教育培训、无障碍访问等多种场景。

SpeakItAI项目地址

GitHub：https://github.com/loglux/SpeakItAI

« 上一篇: 摄影师复活空间（L.P.VISION） CARL CHAN作品合集【3566P+35V 9.86g】下一篇: 大众点评写笔记抽20亓饮品券 »