去年,在AWS发布的100多件产品中,蓝冠官网设计了该套件来支持亚马逊基于云的AVS。它允许蓝冠代理人员对连接到AWS IoT Core的语音控制设备进行原型设计,该设备是Amazon托管的云服务,用于与蓝冠测速云应用程序和其他设备安全地交互。我选择了最具全面、长期影响的5件产品。其中之一是Amazon的EC2 Inf1实例,它使用了新的推理机器学习推理芯片。
我选择Inf1 Instances作为前5个例子有几个原因。机器学习是一款杀手级应用,拥有最多数据的机器比传统的分析方法更高效,因此迫切需要一种“随用随付”(pay as you go)模式。AWS声称EC2 Inf1实例的推理吞吐量要比Amazon EC2 G4实例高3倍,并且每一个推理的成本要比Amazon EC2 G4实例低40%,AWS称Amazon EC2 G4实例已经是云计算中可用的速度最快、成本最低的机器学习推理实例。
那么,自《彻底改造》以来发生了什么?很多。当团队忙于客户、优化和添加功能时,一些推论和EC2 Inf1实例线索有机会给我一个更新。
一个高绩效的硅团队
在深入讨论之前,我想向“推论”背后的“硅”团队表示一点敬意。这是同一个团队背后非常成功和成熟的AWS Nitro系统(安全,网络,存储加速)和新的庄子2处理器,我写在这里。这是2015年亚马逊收购Annapurna的核心团队。团队关注简单性的共同主题,关注易用性和最终客户价值。我花了30年的时间评估、管理和营销处理器,给我留下了深刻的印象。
最大的更新是,开发人员现在可以将EC2 Inf1实例集成到SageMaker工作流中。如果您不熟悉SageMaker,它是一个ML工作流工具,带有Studio,一个集成的开发环境。如果没有大量的数据科学家和精通DL/ ml的开发人员,机器学习是很难的。问题是,这些技能都很昂贵,很难吸引和保留,更不用说需要有独特的基础设施,如gpu、fpga和asic。SageMaker提供了一个地方来标记、构建、培训、优化部署和管理ML工作负载。
虽然我以前没有过多地讨论过神经元,但我认为从它开始是很重要的,因为它是AWS ML价值主张的核心。Neuron是一个SDK,它包含一个用于AWS推论的编译器、运行时和分析工具,并且与流行的ML框架(如TensorFlow、MXNet和PyTorch)集成在一起。由于这种集成,用户可以继续使用这些框架来编译他们的模型并将其部署到生产环境中,而不需要编写定制的特定于神经元的代码。我相信集成流行的框架符合AWS的整体主题,即提供选择,允许客户选择他们喜欢的任何软件,而不是锁定特定的框架。更老练的客户不喜欢被锁定在一个框架中,不那么老练的客户只会在锁定之后才会意识到,Model T所说的“你可以得到任何颜色,只要它是黑色的”在这里不起作用。
客户使用经过训练的模型,并使用Neuron进行编译,以获得最佳的推理性能。任何抽象层的酷之处在于,如果你投入了足够的工作,你就可以随着时间的推移而改进它。而这正是该团队自发布以来一直在做的事情。
自12月4日发布以来,AWS已经显著改进了诸如BERT-Large和Resnet-50等模型上的神经元和工作负载性能。该团队表示,自从推出以来,ResNet-50的得分已经翻了一番。这一点非常重要,就像一瓶好酒,性能会随着时间的推移而提高,而企业无需为此支付更多的费用。一个优点是我们没有等两年,而是等了两个月!我们已经在G4实例中看到了这种趋势,在Inf1中也看到了这种趋势。
新的,预计成本收益Alexa迁移到EC2 Inf1
在我们的更新中,Inf1团队还与我分享了一些有趣的信息,关于当前最大的客户之一,亚马逊Alexa的邻居。除非你生活在岩石之下,否则你知道Alexa是亚马逊的智能代理,你可以在Echo设备、Fire平板电脑、电视、手机甚至汽车上找到它。
Alexa是一个独特的挑战。它需要非常低延迟的性能,就像任何对话系统一样,比如苹果的Siri或谷歌Assistant。给定语音输出,Alexa也有高吞吐量的要求。该团队还向我解释了工作流与内存带宽的关系,因为上下文生成是一个顺序到顺序的自动回归模型。它也是有计算限制的,一秒钟的输出需要每秒900千兆次浮点运算(是的,需要900亿个浮点运算!)听起来容易吗?(讽刺我的)
去年12月,Alexa的工作人员表示,他们的P3版本语音生成成本仅为55%,延迟时间增加了5%。随着上面讨论的神经元的改进,向16位操作的转移,以及在“组”中使用推论的能力,现在Alexa预测P3实例的成本为37%,延迟减少了19%。
在Alexa迁移中出现的其他一些有趣的事情是,它最初是为了利用FP32而开发的,它可以在没有对Inferentia进行更改的情况下运行,但是迁移到使用了Inferentia对FP16和Bfloat16的本机支持。这是该团队在“推理”设计理念上的一部分,目的是专注于减少迁移摩擦,即使在不是最佳的情况下也支持FP32。
另一个让我感兴趣的是Alexa对MXNet的使用,蓝冠怎么样?随着设备的不断发展和设计新技术以解决新挑战,蓝冠官网开发人员不断想出新的技巧来增强XR体验。它是由Neuron支持的。我认为这显示了支持许多不同框架的价值,因为MXNet以擅长于音频而Tensorflow更擅长于图像。
在未来,我期待着Alexa团队能够公布在EC2 Inf1上完成的推论的百分比。我不是在质疑上面的数字,但是Alexa现在不应该把所有东西都移过去吗?
anti-lock-in吗?
我总是挑战公司的“锁定”概念,我相信像AWS这样成功的公司总是需要展示他们的解决方案如何不锁定客户。当被问到这个问题时,我认为他们对于工作负载缺乏锁定和可移植性到其他AI服务和处理器的反应是好的。
Neuron SDK是用于推论芯片的编译器,它与最流行的ML框架(TensorFlow、MXNet和PyTorch)集成在一起,允许客户继续使用他们喜欢的任何软件,而不受特定框架/硬件架构的限制。我相信Neuron团队已经完成了将SDK集成到不同框架中的繁重工作,并对其进行了优化,以向客户提供尽可能好的推断性能。客户可以使用他们预先训练的模型,并且只需要在框架内进行几行代码更改,就可以加速他们对EC2 Inf1实例的推断。AWS表示,框架级的操作允许客户自由地根据自己的需求选择最佳解决方案,而不受特定硬件架构或云提供商的约束。我同意。
结束
与EC2 Inf1和推论团队的交谈非常愉快,尤其是在Amazon让大多数人忙于开发reInvents和summit之外的事情时。我每一次获得亚马逊自主研发的硅产品的披露信息,不管是Nitro系统、gravity on2还是Inferentia,我对亚马逊的硅团队的印象就越深刻。至于基于推论的Inf1实例,蓝冠测速网络中的塔可以使用定向或全向收发器。定向天线可以是扇形天线,可以发出一定角度的扇形波,也可以是聚焦天线,可以发出窄波束。我很高兴看到神经元和Inf1性能的改进,以及将推论管道的多个部分扩展到多个推论的能力,但是对于程序员来说,它看起来就像一个推论。我也喜欢没有锁定,因为aws专有部分是在框架之后,而不是将人们锁定在框架中。
我希望在未来能看到更多的信息披露和成功案例,并期待在2020年再创更多成功案例。