首页 > 人工智能 > 深度学习

人工智能语音入门

视频课 9集全次学习

免费

有效期：永久有效

课程详情
课程目录

适合人群：

本课程适合零基础想入门AI语音技术的开发者、对语音识别感兴趣的初学者、数据科学/人工智能方向的学生、以及希望将语音技术应用到产品中的工程师。无论你是完全不了解语音技术的小白，还是有一定机器学习基础想学习语音识别，本课程都将带你从数据源配置开始，系统掌握语音识别项目的完整流程，包括数据处理、编码器、注意力机制、解码器等核心模块。

你将会学到：

学员将系统掌握语音识别数据源与环境配置、语料表制作方法、JSON标注数据制作、声音数据处理、Pack与Pad操作、编码器模块、注意力机制、Attention得分计算、解码器与训练流程等核心技能，具备从零开始构建语音识别系统的能力。

课程简介：

1. 为什么要学习本课程？

人工智能语音技术正在深刻改变人机交互方式。从智能音箱、语音助手到自动字幕、语音翻译，AI语音已经融入日常生活。然而，很多学习者在入门语音识别时遇到以下问题：

不知道如何准备和处理语音数据
数据标注流程搞不清楚
编码器、注意力机制、解码器等模块概念抽象
缺乏完整的项目实战经验

本课程定位 “人工智能语音入门” ，从数据源与环境配置开始，通过语料表制作、JSON标注数据制作、声音数据处理、编码器模块、注意力机制、解码器训练等环节，带你完整走通语音识别项目的核心流程。

2. 课程特点

数据到模型全流程：从数据准备到模型训练，完整覆盖
核心模块精讲：编码器、注意力机制、解码器逐个击破
数据处理实战：Pack/Pad操作、声音数据处理
注意力机制深入：Attention得分计算与流程解析
训练过程演示：解码器与端到端训练展示

3. 主体大纲与设计思路

课程分为四大模块，共9节视频课：

模块一：数据准备（3节）

数据源与环境配置（语音数据集来源/采集方法/环境搭建/依赖安装）
语料表制作方法（音素/字符级语料表/词汇表构建/特殊标记）
制作JSON标注数据（标注格式设计/音频路径与文本对齐/JSON文件生成）

模块二：数据处理（2节）

声音数据处理模块解读（音频加载/预加重/分帧/加窗/特征提取MFCC/Fbank）
Pack与Pad操作解析（序列长度对齐/动态批次处理/Padding掩码）

模块三：编码器与注意力（3节）

编码器模块整体流程（编码器架构/输入嵌入/位置编码/多层编码/输出维度）
加入注意力机制（注意力机制概述/注意力计算流程/Add&Norm/多头注意力）
计算得到每个输出的attention得分（Decoder-Encoder注意力/得分矩阵/对齐权重）

模块四：解码器与训练（1节）

解码器与训练过程演示（解码器自回归流程/CTC损失/训练循环/验证评估）

课时1P01_数据源与环境配置

课时2P02_语料表制作方法

课时3P03_制作json标注数据

课时4P04_声音数据处理模块解读

课时5P05_Pack与Pad操作解析

课时6P06_编码器模块整体流程

课时7P07_加入注意力机制

课时8P08_计算得到每个输出的attention得分

课时9P09_解码器与训练过程演示

精选好课

CRMEB uniapp二次开发
13集全
CSS层叠样式表基础教程
20集全

Copyright © 2026 深圳市福灵科技有限公司版权所有　粤ICP备2026010772号-1