推广 热搜: page  音视频  使用  个数  搜索引擎  选择  企业  父亲  百度  可以 

互联网的智算架构设计

   日期:2024-12-21     作者:2hbfv    caijiyuan   评论:0    移动:http://ww.kub2b.com/mobile/news/10537.html
核心提示:什么是人工智能?当被问到这个问题时,我们很容易联想到一个例子:给计算机发一张图片,计算机根据图片

什么是人工智能?当被问到这个问题时,我们很容易联想到一个例子:给计算机发一张图片,计算机根据图片中的一些特征,判断图片中这个动物是猫还是狗。说到AIphaGo,我想你也不会陌生,“17年3:0完胜世界冠军柯洁”让大家真切感受到AI的威力。这两个看似天差地别的例子,其实可以用一种模型来表述,那就是分类。不同的是前面的结果队列只有两个参数:猫/狗,要么是[1,0],要么是[0,1],而AIphaGo的结果队列,可以有19*19个参数之多。2017年人工智能首次被提升到国家战略层面,随后几年各地更是围绕人工智能开展了诸多技术化、产业化布局。
在互联网行业,人工智能更是涉及方方面面:人脸识别、语言处理、自动驾驶、智能推荐…承载AI集群的基础设施我们称之为“智算中心”,本文我将为大家介绍互联网智算架构的一些知识。

机器学习(ML)是人工智能中很重要一部分,而深度学习(DL)则是机器学习中很重要的组成。但是在2020年以后,越来越多的业务开始应用Foundation Models,也被称为“大模型”。
下图是ML/DL的处理流程示例

对比ML,DL将诸多算法统一成神经网络算法,包括CNN(卷积神经网络)、RNN(循环神经网络)以及GNN(图形神经网络)等,不同的神经网络模型在不同的训练场景能带来不一样的效果。
DL的另外一个升级点就在于数据预处理阶段:业务产生的带标签的数据是极其缺乏的,更多的数据是来自互联网上的无标签数据,此时我们需要一个模型进行数据的预处理或者无标签训练,我们熟知的BERT、GPT-3、MT-NLG…就是这种预训练模型。
大模型往往以模型参数多、神经元数量多、神经网络层数多而著名,在这些因素的加持下,“大规模数据+大模型”的模式越来越多得被应用到诸多互联网公司的智算架构中。

在一个GPU节点内部,不同GPU卡上的张量切片需要汇总,这部分数据通信依靠Nvlink进行;在一个Stage集群中,不同GPU节点之间的模型参数需要同步,这部分数据通信需要依靠外部网络;不同Stage之间需要进行Forward pass和Backward pass的梯度传递,也需要依靠外部网络。接下来我们依次介绍一下不同阶段的数据通信情况。

2. GPU节点外部通信

通过SeerFabric可以降低部署RoCE网络的门槛,提高部署效率,配合H3C丰富多样的400G/200G/100G网络产品,可以最大的释放网络的潜力,提高AI集群的运行效率。

3. AI框架

互联网的智算架构设计

业内比较知名的AI框架有TensorFlow和PyTorch,产业界倾向于TensorFlow,学术界则倾向于PyTorch。这两个框架并非完美的,业界为了补充某些领域的缺陷还在不断推出各种各样的AI框架,我们期待最终能够有这样一个AI框架可以一统江湖,可以将各种能力场景都集合在内。这部分的知识大家感兴趣也可以自己去探索,能够更容易让我们理解AI的运行过程。

本文地址:http://ww.kub2b.com/news/10537.html     企库往 http://ww.kub2b.com/ ,  查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。

 
 
更多>同类最新文章
0相关评论

文章列表
相关文章
最新动态
推荐图文
最新文章
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号