九游体育(Nine Game Sports)官方网站 登录入口-九游体育娱乐网为设备者提供了从数据处理到模子检修的全主张复古-九游体育(Nine Game Sports)官方网站 登录入口

九游体育娱乐网为设备者提供了从数据处理到模子检修的全主张复古-九游体育(Nine Game Sports)官方网站 登录入口

发布日期:2025-12-28 19:40  点击次数:164

九游体育娱乐网为设备者提供了从数据处理到模子检修的全主张复古-九游体育(Nine Game Sports)官方网站 登录入口

前不久,马斯克旗下的 xAI122 天建成十万卡集群,也让外界相识到算力集群对 AI 的紧迫性。(雷峰网雷峰网雷峰网)

之前坊间还流传一句话:工作器集群的界限越大,其检修出来的东说念主工智能弘扬就越出色。

在这波海浪之下,全球科技巨头纷纷插足巨资设备高性能 AI 盘算集群,以进步 AI 算法的服从和智商。谷歌推出了其 AI Platform,依托多模态生成式 AI 模子 Gemini,大幅进步了在文本、图像、音频和视频处理上的智商。微软的 Azure AI Compute Cluster 整合了最新 AI 工夫,为设备者提供了从数据处理到模子检修的全主张复古。(添加微信 Who123start,解锁独家科技内幕和行业趣闻)

动作国内最早推出大模子之一的百度,也展现出其重大的立异智商。11 月 6 日,在百度智能云举办的百舸媒体沙龙,深切磋商"十万卡集群"的工夫立异、推行进程过甚对 AI 行业的鼓动作用,并邀请百度了得系统架构师、百度 AI 盘算部风雅东说念主王雁鹏在现场作念了共享和疏导。

以下是媒体与三位嘉宾在会上的对谈实录,雷峰网在不调动喜悦的情况下作念了裁剪和挽救:

Q:百舸的客户群是哪些?重心的行业客户是否之前有一些顺利案例不错来共享?

A:咱们的客户主要分为两类。一类是大模子创企,他们需要万卡界限的盘算智商,因而对快速设备和资本欺压有较高的需求。这类客户天然数目较少,但其需求绝顶明确;

另一类是典型的互联网客户,他们的需求界限平时在千卡到 5000 卡之间。这些客户包括锤真金不怕火行业的公司。

这些互联网客户的主要需求是讹诈他们无数的自稀有据进行后期检修(Post Train),以相宜各式场景和优化,从而构建他们的数据飞轮。现在,这些检修需求依然是咱们的主要业务,而推理需求相对较少。这也解说了为什么业界对 AI 算力落地服从仍存疑虑。展望在本年或来岁,算力需求仍将以检修持主,而推理和 SFT(小界限微调)的长尾客户将会加多,但总体资源需求仍低于头部客户。

Q:百舸客户的主要需乞降痛点是什么?咱们是如何科罚的?

A:各类客户的需求其实有好多共通之处,咱们不错一层层来分析。

1.        基础设施层面:这些客户开端需要一个重大的网络硬件互联架构。企业在尝试自行搭建大界限集群时,往往会遭逢网络上的艰辛。咱们的任务是为他们提供更好的网络硬件互联架构,使他们大概顺利搭建一个大界限的盘算集群。

2.        系统踏实性:莫得训导的客户在自行搭建系统时,常会遭逢灵验检修时刻过低的问题。这些踏实性问题是客户靠近的第二浩劫题,咱们需要匡助他们提高系统的可靠性和灵验检修时刻。

3.        加快框架:在提供加快框架方面,咱们匡助客户优化并行战术,进步性能。通过更好的框架,咱们能显贵进步盘算速率,科罚加快问题。

4.        资源讹诈率:客户购买无数资源后,需要灵验讹诈这些资源。他们可能既有推理任务又有检修任务,开端可能是为检修任务购买资源,但随后也需要讹诈这些资源进行推理。咱们通过任务羼杂部署,进步资源讹诈率,确保资源大概被高效讹诈。

Q:您刚才花很大篇幅讲跨地域网络问题,能否例如讲明本质服从?

A: 跨网络问题主要波及两个方面:一是当进行十万卡界限的部署时,确乎需要跨地域的复古;二是咱们云工作的智商。例如来说,咱们不错在云上两个机房同期部署盘算任务,但客户在使用时裕如感知不到各别。例如,即使客户使用的是 5000 卡的界限,咱们在不同场所分拨资源,但使用体验依然一致,这是咱们的一大上风。

Q:面对不同客户需求,如 1000 到 5000 卡的界限,如何确保任务级别的羼杂调遣的服从进步?

A: 羼杂调遣咱们依然作念了许多职责,本质上是通过混书籍群达成不同特征的职责负载的羼杂。

例如,推理任务有波峰波谷,波峰时使用的资源更多,波谷时使用较少;而检修任务则需要固定数目的盘算卡(如 1000 卡),如若资源不及,比如仅有 990 卡,任务将无法脱手。

为了科罚这些问题,咱们提供了一个绝顶生动的队伍机制,将业务视为造谣队伍,并成就优先级战术。这些队伍笔据本质情况动态挽救资源分拨,当资源不再需要时,不错被其他队伍的任务霸占,从而提高资源讹诈率。此外,咱们的框架大概自动再行分拨并行战术。例如,一个需要 1000 卡的任务,在资源不实时(如仅有 900 卡),大概挽救并行战术以延续脱手,从而确保任务的衔接性和灵验性。

Q: 请精细聊一下 Checkpoint 设施,天下有不同的战术,可能有些服从更好,有些则影响检修灵验时刻和资本,咱们在这方面是若何作念的?

A: 原本的 Checkpoint 战术是隔一段时刻创建一个 Checkpoint,在故障发生后还原。然则,这种花样的瑕疵是,如若每小时创建一次 Checkpoint,出现故障时平时会花费一半的时刻,即 30 分钟。因此,咱们但愿 Checkpoint 越密集越好,但这也带来新的问题。

开端的 Checkpoint 战术需要罢手检修,将数据写入存储,这会破费无数时刻,因为存储带宽有限。那时停驻来写 Checkpoint 需要几分钟,这澄澈无法接收,尤其在 Checkpoint 经常时。

第一阶段:更始为异步 Checkpoint,检修进程不中断,先将数据复制到内存,然后异步写入存储。这么不错裁汰 Checkpoint 时刻,从原本的两小时一次裁汰到每 30 分钟一次。但依然存在瓶颈,如存储带缓期度。

第二阶段:引入触发式 Checkpoint。在正常情况下不创建 Checkpoint九游体育娱乐网,只好在故障发生时才创建。好多 GPU 故障不会导致数据丢失,不错在故障点还原数据并存储。这种花样在大多数情况下灵验(95% 以上),仅在传统 Checkpoint 保留的情况下无回退和花费。



相关资讯
热点资讯
  • 友情链接:

Powered by 九游体育(Nine Game Sports)官方网站 登录入口 @2013-2022 RSS地图 HTML地图