当前位置：首页 > 数据中心 > 正文

数据中心架构如何演进

数据中心
2024-05-18 09:11:27
2169

一、Nvidia架构演进——Volta

Volta架构开发：NVIDIATeslaV100GPU的卓越之路

2017年，NVIDIA数据中心计算进入了一个新时代，具有里程碑意义的TeslaV100GPU（基于GV100）核。这项创新将彻底改变人工智能和高性能计算领域。GV100出色的性能和可扩展性得益于深度学习优化的SM架构、VoltaNVLink技术和HBM2内存等创新功能。V100SXM2模块配备了GV100和211亿个晶体管，提供高能效计算能力。优化和性能模式。

TeslaV100基于功率优化，可以在大功率限制下得到保护。VoltaGPU的发布支持新的API和同步方法，CUDAToolkit9.0的增强带来了更高水平的可编程性。Tensor核心的加入使得V100在深度学习性能上处于领先地位，成为AI和HPC领域的首选。

这款GPU的性能参数引人注目：FP647.8TFLOPS、FP3215.7TFLOPS以及125TFLOPS张量计算能力，GPU在深度学习和推理学习方面如虎添翼。。VoltaNVLink的推出极大地提高了多GPU的可扩展性，进一步推动了图形处理的发展。

编程灵活性的提升加速新算法的开发，NVIDIAGPU完美满足AI和深度学习的需求。GPU凭借其并行处理能力，加速深度神经网络的训练和推理效率。VoltaGV100不仅是一个计算处理器，也是一个强大的深度学习机器。

GV100GPU6个GPC组成（每个GPC有7个TPC和14个SM），总共84个SMS。以及优化的缓存设计。V100的80条短信提供两种工作模式：最大性能模式和最大效率模式，以满足不同场景的计算需求。Volta架构的创新，例如张量核心和能效提升50%，显着提高了每个SM单元的利用率。

紧张的核心是他的心。640个核心极大地提高了神经网络的速度。每个SM可以同时执行FP32和INT32运算，提高计算效率。NVLink技术的引入，作为第二代25Gb/s速度、6个连接和300GB/s带宽，使GPU间通信更快、更高效。16GBHBM2内存容量提供900GB/s峰值带宽和1.5倍效率提升，ECC支持提高数据稳定性。

NVIDIA的DGX-1系统集成了这些先进技术来构建高性能服务器，例如NVLink技术、Power9CPU和TeslaV100加速器，显着提高了数据中心和超级计算机的性能。电压的灵活性和并行处理能力在AI计算等应用场景中发挥着关键作用。

Volta架构的每一个细节都经过精心设计，从复制引擎的增强，到ATS服务的支持，再到CUDA9中协作编程组的引入，无不体现了NVIDIA对性能和易用性的不懈追求。例如，序列无关调度的引入简化了编程并显着提高了复杂并行算法的效率，而VoltaMPS则优化了深度学习的延迟和吞吐量。

综上所述，NVIDIADeslaV100凭借创新的VoltaGV100架构打破了100TFLOPS性能记录，突破了AI、HPC和图形处理领域的技术界限。GV100硬件增强、API优化和NVLink应用技术让深度学习和高性能计算的未来更加光明。这一切都得益于NVIDIA对技术的执着追求和创新精神。深入探索Volta的架构白皮书，会让您对这项新技术有更深入的了解：【互联链接】从Pascal和Maxwell到Kepler和Fermi，每一个里程碑都是NVIDIA技术演进的见证。

二、数据中心的架构展望

以网络为中心的计算技术的兴起意味着对IT资产的关注正在从物理资产转向逻辑资产。
德国哲学家尼采曾说过：“那些未能摧毁我的，将使我变得更加强大。”»是的，如果你能够在计算机的繁荣和萧条周期中生存下来而不感到疲惫，那么你一定会感到非常强大。但等等，现在还不是松口气的时候。现在，您必须利用自己积累的每一分力量来应对眼前震撼IT行业的变化。
领先的技术供应商以及具有前瞻性思维的网络和IT经理相信，一种新的以网络为中心的计算模型正在形成，但他们仍然不确定该计算模型到底是什么样子以及如何命名。目前还没有达成共识。它会像IBM所倡导的那样成为按需计算吗？会是Oracle、Sun等厂商推动的网格技术热潮吗？还是完全朝着效用计算、自动化计算、虚拟化或其他方向发展？思科、EMC、惠普和微软等科技巨头都在争夺您的青睐，设计获胜者将在未来十年获得回报。（证据在哪里？看看目前Wintel阵营和客户端/服务器领域的主导地位就知道了。）
你需要筛选这些崇高的想法，研究你的主要技术供应商的发展路径，并在同时，力为基础设施的每一层和跨基础设施的应用程序做出最佳选择。
别担心，让我们帮助您了解即将发生的变化。在本文中，我们将探讨一个称为新数据中心的概念。新数据中心的出现代表了IT行业的一场悄然革命，这场革命为您和您的战略供应商带来了风险和回报。
只有时间才能证明业界能否最终将未来几年称为“数据中心新时代”。我们在这里提供这个概念仅供设计新的网络计算环境时参考。接下来，您需要决定哪种操作系统最适合不同的竞争操作系统（Unix、Linux和Windows），每个操作系统都采取了不同的成功之路。在Windows领域，您正在研究操作系统和其他核心Microsoft软件组件的各种升级技术，以支持更强大的应用程序协作和集成。
此外，还需要为新一代Web应用选择一个开发平台。如果您还不熟悉围绕这些新应用程序的各种标准、安全和治理问题，那么您很快就会熟悉。您的网络基础设施必须能够满足新的协作需求和Web应用程序的爆炸性增长。准备好为VoIP和新兴会话发起协议应用提供高质量支持，这可能涉及将主干网和数据中心交换机升级到10Gbps以太网，并将配线柜升级到1G。
许多公司还部署一套新硬件来处理特定的大容量、高交易网站和新的Web应用程序（例如第4层到第7层交换机、安全套接字、加速层和负载平衡等）。在网络基础设施生态系统中，供应商不仅在产品性能上竞争，而且在单个设备中组合更多功能的能力上进行竞争，但最终您希望构建单一的网络基础设施，而不必担心每个新的网络挑战。Web和传统基础设施提供商在支持新的遗留和分布式应用程序的统一网络控制方面存在冲突。严格的安全措施是新数据中心的必要条件，但它们仍然难以描述。威胁在不断演变，攻击也变得更加激烈，但企业正在寻找使应用程序更加分散、信息更易于访问的方法，这是一个危险的组合。
在接下来的几年里，您将需要选择如何在整个新数据中心最好地部署安全技术：您应该安装哪些硬件、软件和网络基础设施安全工具？托管安全服务应发挥什么作用（如果有）？如何利用越来越多的安全工具来管理数据流？然后还有不断的软件更新问题和无线技术的安全问题，这可能非常烦人。新的数据中心对系统和网络管理提出了新的要求。领先的供应商必须超越设备管理，让用户清楚地了解应用程序性能，然后提供必要的工具来确保满足这些功能。此外，您需要更好地支持移动设备管理、网络和安全的集成，并了解IBM、HP和Microsoft等主要供应商的自动化管理（即自我修复）策略并对此感到兴奋。

三、传统智能网卡vsDPU智能网卡

数据中心演进：从CPU负担到智能网卡革命

在数据洪流的冲击下，数据中心的传统架构正在发生深刻的变化。以前，CPU是处理一切的核心。然而，随着数据量的爆发式增长，CPU的处理能力逐渐变得紧张。为了实现这一目标，计算架构开始向以数据为中心的架构转变，而网卡在这一转变中发挥了重要作用，并经历了三个发展阶段：

基础切换：基本功能网卡——提供基本硬件和带宽卸载，支持虚拟机的无缝访问，为初始数据处理奠定基础。
性能飞跃：将硬件卸载到网卡上，如NVIDIAConnect
新智能时代：DPU智能网卡——中心数据的“第三心脏”，DPU构建独立的网络拓扑，拥有专用总线系统，可以独立执行复杂的网络任务。与SmartNIC相比，DPU的独特之处在于它独立于HostCPU而存在，为高效计算提供了新的能力。

与传统智能网卡相比，DPU智能网卡是一款高性能的“CPU+可编程硬件”超级工具。它不仅提供定制化的云基础设施功能，还解锁有价值的资产。CPU资源降低运营成本并引领数据中心架构创新。

优秀示例：NadodConnectX-6Dx和NVIDIABlueField-2-ConnectX-6Dx演示了IPsec/TLS加密、网络虚拟化、加速RoCE和NVMe-oF增强的基本功能。在此基础上，BlueField-2引入了软件定义网络和裸机/虚拟环境转型，以实现更高水平的灵活性和性能改进。

技术区别：控制与数据分离——SmartNIC进行部分卸载，控制平面仍然依赖于HostCPU，而DPU则完全卸载，数据平面和控制平面运行在嵌入式CPU中它提供硬件加速和系统间协作之间的高效协作。

功能扩展：灵活性和深度——SmartNIC从简单的网络加速发展到可编程，支持eBPF卸载和语言编程P4/C语言，同时还扩展到对基础IO的全面加速。相比之下，DPU更注重通用卸载加速和业务弹性，例如在容器管理和负载均衡方面的出色性能。

不同的应用场景：适应性和灵活性——SmartNIC适合OpenvSwitch（OVS）和VROUTER等特定卸载任务，而DPU适合常见场景中对性能和灵活性要求更高的应用，例如容器环境的高效处理和灵的负载均衡。

总的来说，SmartNIC和DPU代表了网卡技术的两个重要分支。它们分别针对不同的场景需求，共同推动数据中心的发展。随着数据规模的不断增大，DPU因其独特的性能和灵活性而受到越来越多的关注。未来的智能网卡市场将面临软硬件之间的连接和协作挑战，以满足日益复杂的数据处理加速需求。