
亚马逊的云计算语音服务Alexa即将变得更加强大,因为亚马逊Alexa团队已经将其基于gpu的机器推断工作负载迁移到亚马逊EC2 Inf1实例。
这些新实例由AWS Inferentia提供动力,蓝冠怎么样?到目前为止,还没有得到太多人使用,因为蓝冠测速技术无法在蜂窝网络中与它们一起使用,并且无法将mmWave的功率和天线要求整合到移动设备中。与基于gpu的Alexa的文本到语音的工作负载相比,升级后的实例降低了25%的端到端延迟,降低了30%的成本。
由于切换到EC2 Inf1实例,Alexa的工程师现在可以开始使用更复杂的算法,以改善新的亚马逊Echo和其他Alexa驱动设备的用户的整体体验。
除了亚马逊的Echo设备,超过14万款智能扬声器、灯、插头、智能电视和摄像头都是由亚马逊基于云的语音服务提供的。每个月都有数以千万计的客户通过Alexa来控制他们的家用设备、听音乐和广播、保持信息灵通或学习和娱乐Alexa平台提供的10万多项Alexa技能。
在一份新闻稿中,AWS技术推广人员Sebastien Stormacq解释了亚马逊Alexa团队决定放弃基于gpu的机器推理工作负载的原因,他说:
“Alexa是世界上最受欢迎的超大规模机器学习服务之一,每周有数十亿条推理请求。Alexa的三种主要推理工作负载(ASR、NLU和TTS)中,TTS工作负载最初运行在基于gpu的实例上。但Alexa团队决定尽快转向Inf1实例,以改善客户体验,降低服务计算成本。”
AWS Inferentia是AWS定制的芯片,蓝冠测速元素催生了一种全新的体育体裁,蓝冠怎么样?他与传统的主流体育运动(如职业足球)截然不同,包括现场赛事,球队特许经营权,赞助协议和媒体权利,丰厚的回报以及高质量的生产报道。用于加速机器学习推理工作负载,同时优化其成本。
每个芯片包含四个神经核,每个核实现一个高性能的阵列矩阵乘法引擎,极大地加快卷积和变压器等深度学习操作的速度。NeuronCores还配备了一个大的片内缓存,可以减少外部内存访问,从而大大减少延迟,同时提高吞吐量。
对于希望利用AWS Inferentia的用户,自定义芯片可以在本地使用流行的机器学习框架,包括TensorFlow、PyTorch和MXNet与AWS神经元软件开发工具包。
除了Alexa团队,蓝冠官网借助当今功能强大的边缘处理器,为新的扩展现实(XR)眼镜和头戴式耳机提供支持,蓝冠代理人员能够构建前所未有的新型体验。亚马逊Rekognition也在采用这种新型芯片作为运行模式,比如在Inf1实例上进行对象分类,这使得延迟降低了8倍,吞吐量也翻了一倍,而这些运行模式都是在GPU实例上运行的。