英伟达在2016年推出TensorRT深度学习推理框架,TensorRT在模型推理的过程中,可将Pytorch、TensorFlow等其他框架训练好的模型转化为TensorRT格式,再使用TensorRT推理引擎运行,提升模型在GPU上的运行速度。
相比仅支持30多种模型的TensorRT 5,英伟达在2019年推出TensorRT 7能支持各种类型的RNN、Transformer和CNN, 最多1000多种不同类型的计算变换和优化,能让推理时间缩短至0.3秒。支持更多的模型和进一步缩短推理时间,提高推理速度是广大AI软件开发者对TensorRT升级的普遍期望。
文章插图
2021年5月,英伟达推出TensorRT 8-EA版 (Early Access尝鲜版),正式版终于在7月20日正式到来。与以往的版本相比,TensorRT 8正式版能够在1.2毫秒内,运行基于transforemer打造的BERT-Large,将语言查询推理时间缩短至上一个版本的一半,创下最新记录,为搜索引擎、广告推荐和聊天机器人的AI模型提供支持。英伟达官方声称 ,TensorRT8不仅针对transformer作出突破性优化,还新增其他两项关键特性,实现AI推理方面的突破。
虽然英伟达本次更新的TensorRT 8提升比不上从5.0版本到7.0版本,但其性能表现依然十分优秀。落实到具体应用上,推理速度的提升能够让对话式AI更加智能,交互应用程序的性能也能够得以提升。
得益于TensorRT的一系列优化,TensorRT模型在英伟达GPU上的运行速度得到提升。优化包括以下6项:权重与激活精度校准通过将模型量化,为INT8来更大限度提升吞吐量,同时保持高精度,力求精度和吞吐量的最大平衡;通过融合内核中层与张量,优化GPU显存和带宽的使用;基于目标GPU选择最佳的数据层和算法的内核自动调整;动态张量显存能更大限度减少显存占用,并高效地为张量重复利用内存;多流执行可实现并行处理多个输入流的可扩展设计;合并网络层在力求以低混合精度提升吞吐量的同时,减少计算和内存访问。
文章插图
在TensorRT 8版本中,英伟达加入稀疏性和量化感知训练两个关键特性,以实现AI推理方面的突破。TensorRT 8中的稀疏性技术能够保证精度推理,同时降低深度学习模型中的部分权重,减小模型所需要的带宽和内存,提升效率、并让开发者能够通过减少计算操作来加速神经网络,帮助NVIDIA Ampere架构GPU提升性能。量化感知训练在Tensor Core核心上以INT8精度实现高效推理,让开发者使用训练好的模型,不会造成精度损失、大幅降低计算和存储成本。
【 模型|英伟达推出TensorRT 8:AI计算性能大幅提升】TensorRT在推理模型上的速度优势让它广受欢迎,包括医疗、汽车、金融和零售等领域,超过27500家企业、超过25万名开发者下载使用TensorRT,累计次数近250万次。
GE医疗是TensorRT的使用者之一,他们用TensorRT助力加速早期检测疾病的关键工具——超声波计算机视觉创新,使临床医生能够通过其职能医疗解决方案提供方最高质量的护理。GE医疗心血管超声首席工程师Erik Steen表示:“临床医生需要花费宝贵的时间来选择和评估超声图像。在Vivid Patient Care Elevated Release项目的研发过程中,我们希望通过在Vivid E95扫描仪上实施自动心脏视图检测,使这一过程变得更加高效。心脏视图识别算法将选择合适的图像来分析心壁运动 。TensorRT凭借其实时推理能力,提高了视图检测算法的性能,同时缩短了我们研发项目的产品上市时间。”
开源AI技术的领导者Hugging Face也在同英伟达展开密切合作,产品总监Jeff Boudier表示,Hugging Face通过TensorRT 8,在BERT上实现了1毫秒的推理延迟,十分期待能在今年晚些时候为客户提供这一性能。
TensorRT 8已经全面上市,英伟达计划免费提供给向开发者成员,让用户能够从TensoRT GitHub库中获得最新版本插件、解析器和样本开放源代码。
文章插图
编辑点评:英伟达在AI方面的实力毋庸置疑,使用GPU核心进行各种推理,加速人工智能在各行各业的应用。TensorRT虽然不是直接面向消费者的产品,但它在未来会扮演非常重要的角色,能够使人们生活更加方便。
- 英伟达|Linux下使用KVM虚拟机安装华为OpenEuler系统
- AMD|有些道理是有线耳机通过歌词间接传达给你的,你get到了没?
- 阿里达摩院成功研发存算一体AI芯片
- 腾讯云|白银市政府与腾讯云达成战略合作
- grab|东南亚最大的独角兽,网约车Grab纳斯达克上市,市值345亿美元
- gmv|有赞:视频号直播上线至今带来的交易额已达近10亿元
- 刘德音|台积电董事长刘德音:2030年全球半导体产值有望达1万亿美元
- 英伟达|联想:不是不学华为,只是想搞钱,要搞钱就不可能投入搞研发!
- 显卡|阿迪达斯将进军元宇宙,宣布与Sandbox、Coinbase合作
- 阿里达摩院研发存算一体AI芯片,性能提升超10倍,能效比提升300倍