快手基于Alveo优化大规模网络直播和短视频自动语音识别服务


原标题:快手基于Alveo优化大规模网络直播和短视频自动语音识别服务
快手基于Alveo优化大规模网络直播和短视频自动语音识别服务(ASR)的过程,是一个技术创新的典范,显著提升了用户体验和系统性能。以下是详细的介绍:
一、背景与需求
快手作为全球用户利用短视频或直播形式记录和分享日常生活的领先内容社区和社交平台,每天产生上千万条原创新鲜视频,并拥有庞大的用户基础。ASR作为快手APP、直播、风控、游戏等众多业务的核心功能,对于提升用户体验至关重要。尤其是在直播和短视频应用领域,快手希望优化ASR服务,满足不断增长的客户需求。
二、优化目标与挑战
快手ASR服务优化的主要目标是减少时延、提高并发路数,并降低系统成本。在快手之前的基于CPU框架的处理流程中,特征提取等前处理模块、TDNN+LSTM声学模型、包含语言模型的解码器部分等各个模块的运行时间占比较大,导致整体处理效率低下。此外,快手还面临着硬件使用率低、SRAM容量不足等问题,难以满足高精度和高并发的需求。
三、Alveo优化方案
为了解决上述问题,快手异构计算中心决定采用赛灵思的Alveo U50LV加速器卡来优化ASR服务。Alveo U50LV基于高性能UltraScale+架构,具备低功耗、高带宽、大SRAM内存等优势,非常适合用于优化TDNN+LSTM声学模型。
快手团队从算法、系统、软件和硬件等多个关键层面对ASR系统进行了创新优化:
算法层面:采用图融合、图优化、图同构、图分割等技术,以及不重训的高精度量化技术,有效压缩了模型,提高了计算效率。
系统层面:自研通用推理框架及适合FPGA的通用Host调度框架,支持多模型、模型可扩展、自动化部署,增强了系统的易用性。
软件层面:设计Batch机制,基于OpenCL的任务调度及负载均衡策略,实现了任务级的数据传输、kernel计算等高效并行处理。
硬件层面:自定义基于超长指令字的指令集架构,设计编译器,并基于Vitis HLS高层次综合优化技术,快速完成了高效的FPGA底层设计。
四、优化成效
通过采用Alveo U50LV加速器卡及相关设计工具,快手实现了针对TDNN+LSTM声学模型的全定点推理硬件加速方案,全面优化了ASR服务:
减轻CPU负载:将单台服务器业务处理能力提升7.5倍。
降低时延:高峰期平均延时减小37.67%。
提高并发路数:并发路数提升7.5倍。
降低成本:系统总成本降至0.29,相当于总成本锐减71%。
缩短开发周期:设计周期从3个月减少到6周。
五、应用与影响
优化后的ASR服务已经在快手直播及短视频应用平台广泛部署,为全球数亿用户带来了前所未有的语音识别体验。这一成功案例不仅展示了快手技术团队强大的实力,也为国内大规模直播及短视频自动语音识别场景提供了新的解决方案和参考。
总之,快手基于Alveo优化大规模网络直播和短视频自动语音识别服务的过程是一个技术创新的典范,通过算法、系统、软件和硬件等多方面的优化,实现了性能的大幅提升和成本的显著降低,为用户带来了更好的体验。
责任编辑:
【免责声明】
1、本文内容、数据、图表等来源于网络引用或其他公开资料,版权归属原作者、原发表出处。若版权所有方对本文的引用持有异议,请联系拍明芯城(marketing@iczoom.com),本方将及时处理。
2、本文的引用仅供读者交流学习使用,不涉及商业目的。
3、本文内容仅代表作者观点,拍明芯城不对内容的准确性、可靠性或完整性提供明示或暗示的保证。读者阅读本文后做出的决定或行为,是基于自主意愿和独立判断做出的,请读者明确相关结果。
4、如需转载本方拥有版权的文章,请联系拍明芯城(marketing@iczoom.com)注明“转载原因”。未经允许私自转载拍明芯城将保留追究其法律责任的权利。
拍明芯城拥有对此声明的最终解释权。