本课程适合零基础想入门AI语音技术的开发者、对语音识别感兴趣的初学者、数据科学/人工智能方向的学生、以及希望将语音技术应用到产品中的工程师。无论你是完全不了解语音技术的小白,还是有一定机器学习基础想学习语音识别,本课程都将带你从数据源配置开始,系统掌握语音识别项目的完整流程,包括数据处理、编码器、注意力机制、解码器等核心模块。
学员将系统掌握语音识别数据源与环境配置、语料表制作方法、JSON标注数据制作、声音数据处理、Pack与Pad操作、编码器模块、注意力机制、Attention得分计算、解码器与训练流程等核心技能,具备从零开始构建语音识别系统的能力。
人工智能语音技术正在深刻改变人机交互方式。从智能音箱、语音助手到自动字幕、语音翻译,AI语音已经融入日常生活。然而,很多学习者在入门语音识别时遇到以下问题:
不知道如何准备和处理语音数据
数据标注流程搞不清楚
编码器、注意力机制、解码器等模块概念抽象
缺乏完整的项目实战经验
本课程定位 “人工智能语音入门” ,从数据源与环境配置开始,通过语料表制作、JSON标注数据制作、声音数据处理、编码器模块、注意力机制、解码器训练等环节,带你完整走通语音识别项目的核心流程。
数据到模型全流程:从数据准备到模型训练,完整覆盖
核心模块精讲:编码器、注意力机制、解码器逐个击破
数据处理实战:Pack/Pad操作、声音数据处理
注意力机制深入:Attention得分计算与流程解析
训练过程演示:解码器与端到端训练展示
课程分为四大模块,共9节视频课:
模块一:数据准备(3节)
数据源与环境配置(语音数据集来源/采集方法/环境搭建/依赖安装)
语料表制作方法(音素/字符级语料表/词汇表构建/特殊标记)
制作JSON标注数据(标注格式设计/音频路径与文本对齐/JSON文件生成)
模块二:数据处理(2节)
声音数据处理模块解读(音频加载/预加重/分帧/加窗/特征提取MFCC/Fbank)
Pack与Pad操作解析(序列长度对齐/动态批次处理/Padding掩码)
模块三:编码器与注意力(3节)
编码器模块整体流程(编码器架构/输入嵌入/位置编码/多层编码/输出维度)
加入注意力机制(注意力机制概述/注意力计算流程/Add&Norm/多头注意力)
计算得到每个输出的attention得分(Decoder-Encoder注意力/得分矩阵/对齐权重)
模块四:解码器与训练(1节)
解码器与训练过程演示(解码器自回归流程/CTC损失/训练循环/验证评估)
