
Kokoro TTS简介
Kokoro TTS是什么?
Kokoro TTS 是一款基于 StyleTTS 2 架构开发的轻量级、高性能 AI 语音合成模型,专注于提供自然流畅、多语言支持的文本转语音(TTS)解决方案。简洁小巧的架构蕴含强大的能力,使用仅为 8200 万参数量即可匹敌甚至赶超大模型级别的音质效果,具有极佳灵活广泛的应用特性,能轻松应用于内容生产、企业培训及无障碍场景等多维度服务中。

核心特性与功能
- 轻量高效,性能卓越
- 只有 8200 万,比同类模型参数量(XTTS: 4.67 亿,MetaVoice: 12 亿)要少,但是在语音自然度和流畅度上都表现不错。
- CPU/GPU 支持运行,使用 NVIDIA GPU 加速可实时播放音频(牺牲了部分速度)。
- 多语言支持,覆盖主流语种
- 英版(美式/英式)、法语、韩语、日语及普通话等多种语言和多种语音包,包括英语的 Bella/Sarah/Adam 版本等。
- 工具灵活,适配多元场景
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 可定制语音包:支持不同音色、语气的声音包供选择使用,可根据项目更换。
- OpenAI 生态兼容:无缝集成 OpenAI API,方便开发者扩展功能,融入各类应用程序。
- 自动内容分割:能够识别文字的章节与段落,便于后期对电子书或文章转音频的操作,输出后无排版痕迹。
- 开源免费,商业友好
- Apache 2.0 开源授权,个人或者商业免费使用,无版权声明,开发者可以在 Hugging Face 仓库直接获取代码或在 Colab 上教程直接试用。
应用场景
- 有声书与内容创作:迅速将你的电子书籍、博客等变成精美的有声作品(小众题材、多种语言版本都可以)。
- 播客与音视频制作:从你的文本文稿迅速转变为活灵活现的真实旁白,快速生成海量内容。
- 企业培训与教育:为企业的不同语言、不同国家训练视频或者手册提供声音注解。
- 无障碍服务:可以帮助你或身边视觉障碍的亲朋好友无障碍地收听网页、办公文档等等需要读出来的东西!
使用教程指南
Kokoro TTS 的使用有两种方式,分别是线上体验和本地安装,下面进行一一介绍:
一、在线使用教程
- 访问网站:进入 Kokoro TTS 在线平台,如https://kokorotts.online/ 。
- 输入文本:在输入框内输入或粘贴需要转成语音的文字(平台支持美式发音和英式发音),能识别自然语言文本的语境、标点和各种细微差别等,方便后期 TTS 合成。
- 选择语音:从平台上搭载的由 kokoro82m 开发的丰富的自然语音库中选择适合的声音进行转化;这些自然的文本转语音被录制加工得淋漓尽致。
- 生成并获取语音:点击一键合成后,kokoro tts 将会利用 AI 最新的语音生成技术,在几秒钟之内就将文字变成流畅自然的语音输出,并且匹配好节奏重音语气情感等等完美无瑕并且表达语调自然到位;语音格式高达 24k,在线就能播放。
二、本地使用教程
1.准备工作
- 安装依赖(git LFS, espeak-ng):安装方式:git lfs install,用于大文件下载,linux 系统下执行命令后可进行 git-lfs 的安装;espeak-ng 同理。其余的则为:pip install torch transformers phonemizer scipy munch 来安装 Pytorch 依赖包。(Windows/MacOS 可能需要再额外配置一步,可以搜索 espeak-ng 中间件 GitHub 下载问题解决)。
- 克隆模型仓库:将 Kokoro TTS 的 Hugging Face 仓库clone到本地,后续操作基于该目录进行。
2.构建模型并加载语音包
- 选择设备:CPU 还是 GPU 来加载运行,不同的设备会导致不同的运行速度。
- 加载模型和语音包:Kokoro TTS 内置默认的 Bella 和 Sarah 混合语包。通过代码来选择想要合成使用的语音名,VOICE_NAME = ‘af’ ,然后通过 VOICEPACK = torch.load(f’voices/{VOICE_NAME}.pt’, weights_only=True).to(device) 加载我们想要使用的声音包。
3.生成语音:输入文本内容,用模型加刚刚选好的语音包输出对应的语音与音素,audio, out_ps = generate(MODEL, text, VOICEPACK, lang=VOICE_NAME(0))。其中 MODEL 是已经建好好的模型,text 要输入的内容。
4.播放和保存语音:可以在浏览器里直接展示,在窗口里面就可以听到音频,能够更加直观地感受一下效果;可以点击另存为,用 wav.write(“output_audio.wav”, 24000, audio),把文件保存成 .wav 的格式。
数据评估
关于Kokoro TTS特别声明
本站新媒派提供的该工具内容都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由新媒派实际控制,在2025年4月9日 下午9:42收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,新媒派不承担任何责任。
与Kokoro TTS相关工具

Suno.ai是一个专业且高质量的AI歌曲和音乐创作平台。用户只需输入简单的文本提示词,平台就可以根据流派风格和歌词生成带有人声的歌曲。这个平台由来自Meta、TikTok、Kensho等知名科技公司的团队开发,旨在让没有乐器的人也能创造美妙的音乐。

AiMusic FM:AI音乐生成
AiMusic FM是一个AI在线音乐生成平台,主要功能是帮助用户通过多种创作模式迅速生成原创音乐。简单来说,它利用先进的 AI 算法,让用户只需输入文本描述、上传图片、提供歌词或音乐样本,就能自动生成符合特定风格和情绪的乐曲。

海豚配音
海豚配音TTS-Online是一款全能AI配音平台,以其逼真的效果、多样化的音色和丰富的情感表达而闻名。该平台提供超过500种栩栩如生的真人音色和1000多种个性鲜明的二次元音色,支持20多种语言。

Dupdub AI
Dupdub AI是一家专注于社交媒体内容创作的技术公司,提供一系列创新的AI工具来帮助用户高效地创建和编辑内容。其产品包括文本到语音转换器、AI语音合成、AI视频编辑和AI头像生成器,旨在通过人工智能技术提升内容创作的质量和效率。

Sesame AI
Sesame AI是一款领先的 AI 语音合成平台,支持多语言、情感表达与自然对话,打造媲美真人的高保真语音体验。 通过深度学习与自然语言处理技术,Sesame AI 可生成具备语调、节奏与情绪的类人声音,适用于播客、有声书、虚拟助手、教育课程、客服系统等多种场景。

网易天音
网易天音是网易推出的专业AI音乐创作工具,集成了AI编曲、AI作词、AI一键写歌等多项功能。无论是音乐爱好者还是专业制作人,只需输入灵感,网易天音便能快速生成高质量的音乐作品。平台支持精细化调整,用户可以自由编辑歌词、旋律和编曲,打造独一无二的音乐作品。网易天音还提供虚拟歌姬歌声合成,助力创作更具表现力的歌曲。

songR
SongR是一个免费的AI音乐生成器,尽管它还在测试阶段,但已经具备了一键生成音乐、人声、歌词和视频的功能。它覆盖了各种音乐类型,包括流行、嘻哈、轻松的咖啡厅风格和激情四溢的摇滚。用户可以选择输入自己的歌词,或者让AI根据用户的提示生成歌词。

讯飞智作
讯飞智作是科大讯飞旗下明星配音产品品牌,提供合成配音,真人配音、广告宣传片、短视频配音、AI虚拟主播等一站式配音服务。

琅琅配音
琅琅配音是一个在线的文本转语音平台和AI配音神器,可以通过AI人工智能算法轻松将文本转换成音频,您可以在线播放或者下载音频文件,支持多种语言,包括中文、英语、德语、法语、意大利语、西班牙语、印尼语等30多种语言,以及多种语音风格。

Plazmapunk
Plazmapunk是一款AI音乐视频生成平台,支持上传音乐或使用 AI 音轨生成器,结合多种视觉风格(如 Kandinsky、SDXL)、GPT 场景编辑器与多比例格式,快速生成高质量视频,适用于音乐发布、社交创作及开发者集成。

PlayHT
PlayHT 的智能语音生成器是一款强大的人工智能工具,能够将文本转换为逼真的语音。它利用先进的深度学习技术,能够模拟人类语音的韵律和情感,为文本赋予生动的声音和语调。

ElevenLabs
ElevenLabs提供了一个先进的文本转语音和语音生成的平台,让用户可以在29种语言和120种声音中快速生成逼真的语音。用户可以用这个平台为视频、有声书、游戏、聊天机器人等创建自然的语音内容,并使用各种工具和API来定制和集成语音技术。

Audimee
Audimee是一个AI声音转换和合成工具,它允许用户将原声音转换为高质量的AI生成声音。用户可以使用 Audimee 来制作翻唱歌曲、混音或原创歌曲,同时保持声音的专业水准。Audimee 提供了多种无版权声音,用户还可以训练自己的声音,创建无版权的翻唱声音。有了Audimee,版权问题和专业录音障碍都不再是你音乐创作路上的绊脚石。

TTSynth.com
TTSynth.com 是一个免费的在线文本转语音(TTS)工具,支持多种语言和声音。用户可以轻松将书面文本转换为自然语音,并下载高质量的MP3文件。无论是用于有声书、演示文稿还是无障碍应用,TTSynth.com 都能提供快速、便捷的解决方案。

FL Studio
FL Studio一款强大的音乐制作软件,可以进行音乐编曲、剪辑、录音、混音,使计算机变成全功能的录音室,帮助用户制作出属于自己的原创音乐。

反谱AI
反谱是一款领先的AI音乐转谱工具,它将音乐轻松转换成乐谱,为音乐爱好者、作曲家和音乐教师提供了极大的便利。通过高效快捷的人工智能技术,反谱AI能够将各种格式的音乐(如mp3、flac、ogg等)转换成可识别的音乐符号(如MIDI格式或五线谱或简谱文件),支持在线MIDI编辑创作和下载导出。
暂无评论...







