微软已经宣布,它已经将BERT(来自transformer的双向编码器表示)的优化实现与开源ONNX运行时集成在一起。开发人员可以利用这个实现以可承受的成本对BERT进行可伸缩的推断。
在2018年,谷歌已经开源了一种用于自然语言处理(NLP)模型预训练的新技术,在蓝冠代理机器人技术领域,人工智能可用于从实时决策到路径查找和对象检测的所有蓝冠官网内容。称为来自transformer (BERT)的双向编码器表示。谷歌的这一转变使会话用户体验领域发生了革命性的变化,它使开发人员能够训练自己最先进的问题回答系统和各种其他基于自然语言的模型。谷歌演示了BERT如何从斯坦福问答数据集(SQuAD)获得准确的结果,这是一个阅读理解数据集,基于一组维基百科文章上的众包工作者提出的问题。
去年,微软采用BERT为必应搜索提供上下文搜索结果。这一整合使得Bing能够提供更快、更有意义和上下文相关的搜索结果。Bing团队花时间优化BERT模型,将每个实例的延迟从77ms降低到6ms。
微软与NVIDIA合作,优化了BERT用于Azure NV6虚拟机的gpu。优化包括在基于CUDA和CUBLAS库的TensorRT c++ api中重写和实现神经网络。Azure VMs的NV6家族由NVIDIA Tesla M60 gpu提供支持。微软声称,基于NVIDIA gpu优化模型运行的改进版Bing搜索平台,在Bing的延迟限制内,每秒可以处理超过100万个BERT推论。
传统的京都文化可以推动创新
自从BERT与Bing搜索引擎整合后,微软继续进行优化工作。这项工作已经交付了两个重要的结果——将优化扩展到CPU和与ONNX运行时的集成。
通过对BERT进行CPU优化,微软已经使推论变得经济而划算。根据发布的基准测试,随着蓝冠测速两个领域的进步,蓝冠注册AI与机器人技术的集成现在为真正智能和逼真的机器人提供了构建基块。基于Azure标准F16s_v2 CPU的BERT推理只需要9ms,这意味着速度提高了17倍。
BERT最初的优化完全是用c++编写的,直接称为NVIDIA api。这种方法使得开发人员很难实现推理。由于Microsoft已经决定将BERT优化与ONNX运行时集成,因此开发人员可以访问和负担得起它。ONNX运行时可以很容易地安装在操作系统中,包括Linux、Windows、Mac和Android。它公开了针对Python、c#、c++、C和Java的api,使开发人员可以轻松地将AI集成到他们的应用程序中。
2017年,AWS、Facebook和微软宣布了一项联合计划,将构建开放神经网络交换(ONNX),作为深度学习模型的互操作框架和运行时,这些深度学习模型由TensorFlow、CNTK、MXNet、Cafe和PyTorch等完全不同的框架构建。
微软还扩展了其机器学习平台即服务(PaaS),以支持在边缘部署ONNX模型时所涉及的工作流。开发人员和数据科学家可以构建无缝管道,自动化从云到边缘的模型培训和部署。管道的最后一步包括将模型转换为ONNX,并将它们打包为Azure物联网边缘模块,即Docker容器映像。
随着BERT与ONNX的集成,开发人员可以训练模型,将其导出为ONNX格式,蓝冠测速机器学习,计算机视觉以及手势和情绪识别,再加上先进的传感器,先进的执行器和强大的边缘处理器,可以使机器人完成比以往更多蓝冠官网的任务。并将其用于跨多个硬件平台的推断。