当前位置:首页 > 云计算 > 正文

阿里云分布式云计算框架


一、阿里云机器学习PAI发布基于HLO的全自动分布式系统TePDist,并宣布开源!

阿里云机器学习创新者PAI团队近日宣布开源一项里程碑式的成果——TePDist,一个基于高性能低级机器学习指令(HLOIR)的全自动分布式深度学习系统。该系统旨在解决分布式框架在训练大型模型方面的挑战,并通过智能分布式策略搜索简化并行策略的复杂性。


TePDist使用先进的客户端/服务器架构。探索并执行策略的服务器负责自动寻找并执行最佳的模型转换策略,而客户端则负责。管理和维护模型。它提供了多个级别的优化供用户选择,允许用户在完全自动化的策略搜索和一定程度的手动干预之间自由切换。其核心特点包括:严谨的系统架构设计、HLOIR的战略规划、专有的高效运行引擎。


TePDist的创新在于其对多工作人员协作和内存管理的复杂处理。它将HLO的有向无环图(DAG)分为三层:Cone、Segment、totalGraph,并通过优化算法有效减少搜索空间。锥体结构采用贪心或动态规划策略并枚举割方法。分割基于关键节点划分,并使用整数线性规划(MLP)来确定最优策略。非线性管道分级可确保计算负载平衡并最大限度地减少通信开销,从而进一步提高并行性。


在构建阶段,TePDist通过静态调度实现性能优化,避免中心节点的性能瓶颈,保持内存使用稳定。在执行引擎层面,TePDist引入分布式初始化,利用高效的NcclContext进行复杂的通信管理,完全控制TaskGraph的执行过程。在一系列性能测试中,包括M8和S1平台之间的比较,以及验证GPT-3模型的可扩展性和通用性,TePDist展示了不同优化级别对搜索效率的影响。


开源项目地址为:


二、阿里云罗小飞:阿里云边缘云,从资源到场景的产品演进


2021年7月1日,题为“聚云聚影,融网聚生活”的GIDC全球互联网数据大会在上海召开,开启云网融合新篇章。本次盛会由中国信息通信研究院牵头,爱迪网承办,汇聚政府和行业精英,共同探讨“新基建”、“绿色数据中心”等时下话题,为发展带来新思路5G时代的云计算产业。作为阿里云边缘云负责人,首席产品架构师罗晓飞在会上介绍了阿里云在边缘云方面的创新和实践,并探讨了如何通过产品迭代、技术创新和场景应用增加来帮助企业获得价值和竞争优势。


全国“14.《五年规划》明确强调云服务与边缘计算的协同。5G的日益商用加速了云计算和边缘计算的融合。边缘云就是这种融合的产物,旨在解决各行业客户对低延迟、高带宽和本地数据处理的迫切需求。它不仅是算力的延伸,更是业务场景的创新者。


定义与形式:灵活多样的解决方案

虽然不同行业对边缘云的定义有所不同,但其核心都是满足业务需求、实现价值。阿里云边缘云节点基于飞天核心技术打造分布式、小型化的云计算平台,支持中心、本地、边缘等多种形态,为全球用户提供统一的产品和服务。这种分布式架构允许边缘云在短距离内保持低延迟,同时保持灵活性和可扩展性。


技术和资源的积累:从CDN跳转到边缘云

罗晓飞指出,阿里云边缘云的积累并非一朝一夕的事情。早期在全球建设了2800多个CDN节点,奠定了坚实的基础。从技术上来说,边缘云节点凭借其低时延和成本优势,成为CDN服务的理想选择。在服务客户的过程中,阿里云构建了智能调度、错误处理等一系列功能。这些技术的本质在边缘云场景中得到升华,保证服务的高可用性和稳定性。


产品形态灵活:满足多场景需求

阿里云边缘云提供一站式解决方案和一体化解决方案,无论是标准化边缘云节点还是定制边缘计算节点旨在满足客户不同的业务需求。通过云网融合技术实现边缘节点与网络的无缝连接,提供端边缘加速能力,保证不同层之间的数据高效传输,同时保证服务的高可用性。


体现业务价值

罗小飞强调,边缘云的价值在于提高业务敏捷性,比如快速部署、成本优化等。他展示的客户案例展示了边缘云如何显着提高在线课程的直播质量、连接成功率和完成率。阿里云在直播、压测、内容加速等场景拥有丰富的实践经验,并在实际业务中证明了其价值。


未来展望

随着技术的不断发展,边缘云将向分布式、小型化、自治化、协作化的云原生方向演进。阿里云将继续发挥产品、技术和生态优势,与合作伙伴共同开发边缘应用,为各垂直行业提供量身定制的解决方案,推动边缘云产业繁荣。