动态
优步人工智能推出了用于分布式机器学习的新图
优步有开源光纤,一个新的库,旨在授权用户在计算机集群上实现大规模的机器学习计算。 库的主要目标是利用异构计算硬件,动态规模算法,并减轻工程师在集群上实现复杂算法的负担..
对于机器学习框架来说,保持足够的灵活性来支持强化学习(RL)和基于人口的算法以及其他启发式算法(如深度学习)是一个挑战,因为需求可能会有很大的变化。
虽然TensorFlow和Py Torch等已建立的框架涵盖了大多数常见机器学习方法的分布式培训设置,但这些框架不太适合基于RL和基于人口的方法,这往往需要与模拟器频繁交互以及复杂和动态的缩放策略。 光纤为其分布式计算框架提供了统一的Python用户界面,以支持这些新需求。
与Fiber一起发表的研究论文详细介绍了用于评估框架开销、进化策略和近端策略优化(PPO)库的实验。 研究人员比较了Fiber与IPy并行(iPython用于并行计算)、Spark和标准python多处理库在框架开销上的性能,发现Fiber在任务持续时间较短时优于iPy并行和Spark,这是处理模拟器时要理解的重要指标。
与Atari基准中关于Breakout的多处理实现相比,Fiber启用的PPO分布式版本的性能表明,Fiber可以将RL算法扩展到本地机器之外。
光纤分成API层,后端层,簇层.. API层与标准Python多处理模块具有相似的要求和语义,但扩展到分布式环境中工作。
后端层可以处理多个不同集群管理器的任务通信。 最后,聚类层包含Kubernetes和Peloton等集群管理器。
光纤引入了一个新的概念,称为工作支持过程。 当启动其中一个进程时,将创建一个在当前集群上带有Fiber后端的新作业。 父容器在使用相同的容器映像启动子进程之前封装所需的文件、输入数据和该作业的任何其他依赖项,以保证一致的运行环境。 下图更详细地说明了这一架构:
纤维和谷歌新的分布式强化学习库种子RL的发布表明,大科技公司的目标是既降低成本,又简化培训尖端机器学习算法的过程。