手语识别
一、市场概述
随着科技的不断发展和人们对生活品质的追求,聋哑人群对手语识别及翻译系统的需求量会快速增多,手语识别系统可以为聋哑人士提供更大的便捷。
二、研究背景
手语是聋哑人群独有的一种沟通方式,但不能满足听障人士与普罗大众之间的交流需求,这便意味着在一些社会公共空间之中,例如政务场景或服务业场景,聋哑人士可能都会遇到一些不便。
三、应用场景
聋哑人与普通人具有相同的需求,他们也会去学习、去买生活用品、去娱乐,也避免不了生病。这些情景下都可以使用我们的手语识别系统,解决他们和健全者交流的问题。
四、使用平台
飞桨(PaddlePaddle)是集深度学习核心框架、工具组件和服务平台为一体的技术先进、功能完备的开源深度学习平台,已被中国企业广泛使用,深度契合企业应用需求,拥有活跃的开发者社区生态。提供丰富的官方支持模型集合,并推出全类型的高性能部署和集成方案供开发者使用。
五、核心模型
TSN(Temporal Segment Networks)是由空间流卷积网络和时间流卷积网络构成,其使用从整个视频中稀疏地采样一系列短片段的方式来代替稠密采样,这样既能捕获视频全局信息,也能去除冗余,降低计算量。稀疏采样得到的每个片段都将给出其本身对于行为类别的初步预测,从这些片段的“特点”(即通过用每帧特征平均融合后得到视频的整体特征)来得到视频级的分类预测结果。在学习过程中,通过迭代更新模型参数来优化视频级预测的损失值。
六、实施过程
- 制作数据集
-
1、录制手语手势视频;
2、运行数据集制作程序;
3、将视频按帧切分成JPG文件,同时生成特征文件;
4、将JPG文件和特征文件结合起来生成pkl文件,pkl文件保存有特征名、int值标签、视频帧地址;
5、将pkl文件生成txt文件保存。
-
- 训练模型
-
1、训练TSN网络模型;
2、经过训练形成模型;
3、将TSN网络模型固化;
-
4、导入数据集;
5、令固化的TSN网络模型进行预测。
6、根据预测结果准确与否进一步完善模型。
-