|
|
本帖最后由 illusiome 于 2026-6-6 01:28 编辑
广超算的问题,我单独思考了一下,拿出来说说
广州的产业AI-HPC前竞争极限研发计算平台
现在ZF还是把建设机房,然后就会变成三种低级形态:
第一,机房出租型:企业来买卡、托管、上云、租机柜。
第二,项目申报型:高校、企业、**联合发几个课题,写“AI+产业”。
第三,算力调度型:把各地闲散算力接起来,做一个看板,说有多少 P 算力、多少节点、多少模型。
这些都不是我要的东西。它们有用,但没有“不可替代性”。
我要找的是:
企业自建机房解决不了的那部分研发瓶颈。
因为真正有能力、有野心的企业,本来就会自建机房。
小鹏会自建自己的万卡集群。生物医药企业如果真的要做 AI 制药、分子模拟、工艺优化,也会考虑自己建小型机房——我所熟知的几家企业,要不已经做了在迭代,要不已经找到了合作方。因为制药的数据算力需求比量化公司和物理AI少了两三个数量级,几百平、一千平方的机柜就可以了。自动驾驶公司、机器人公司、AI 公司、运营商、云厂商,都有自己的算力判断、数据判断和安全判断。
所以,如果广州超算中心的下一阶段只是说“我也有算力,我可以给企业用”,这个逻辑是不够的。企业最核心的东西,平台替代不了,也不应该替代。
企业自建机房解决的是四件事:
自己的模型,自己的数据,自己的产品迭代,自己的算力安全。
这是企业的私有研发武器。
平台不能抢这件事,也抢不了这件事。
问题在于,企业自建机房也有解决不了的东西。
一、企业自建机房解决不了极端场景
以自动驾驶为例,企业当然可以自己训练模型,自己做数据闭环,自己做路测。但它很难单独构造一个足够全面、足够可信、足够可复用的城市级极端场景库。
广州这种城市有大量复杂场景:暴雨、台风、城中村、隧道出口、非机动车混流、施工围蔽、临时交通管制、港口、机场、医院、高校、城中村、地下空间、应急车辆优先通行。刘先明做VLA2.0的时候说让何小鹏在北京上海试驾,大师兄问为啥不在广州,刘先明说”广州太难了“。
这些场景,单个企业当然也可以采。但企业采出来就是企业私有资产。它可以用于自己的模型,却很难变成区域公共测试能力。
如果广州能把这些真实场景组织起来,形成自动驾驶、机器人、低空飞行器都可以使用的极端场景库、仿真环境、回放系统和评测体系,这就是城市级研发基础设施。
企业自己有机房,也仍然会需要这种东西。
二、企业自建机房解决不了中立评测
企业自己评测自己,资本市场可以听,投资人可以听,但监管、城市、产业联盟和其他企业未必完全信。
尤其是物理 AI、自动驾驶、机器人、飞行汽车这些方向,安全边界很重要。不能只让企业自己说“我安全”“我稳定”“我已经达到某个水平”。
广州如果有一个中立的物理 AI / 自动驾驶 / 机器人评测平台,它可以做仿真评测、实车评测、极端场景回放、模型稳定性测试、安全边界测试、不同技术路线对比。
这类东西,单个企业做出来的公信力有限。城市级平台来做,才可能形成标准。
三、企业自建机房不会优先解决跨企业共性技术
企业会优先解决自己的产品问题。这个非常正常。
一家企业的 KPI,是把自己的模型训好,把自己的车卖出去,把自己的药物管线推下去,把自己的火箭发出去。它不会优先投入大量资源去解决行业共性底座。
比如异构算力调度、国产 GPU/NPU 适配、仿真引擎标准、工业模型接口、数据脱敏与可信协作环境、AI-HPC 混合工作流、国产 EDA/CAE 软件适配、多芯片多框架多任务调度。
这些东西短期看,远不如直接训练模型、卖产品、拿订单来得紧迫。
所以城市级平台的意义,就在于承担这类“企业知道有用,但不愿意独自承担全部成本”的部分。
这才是公共平台应该做的事。
四、企业自建机房也很难承担前沿范式试错
这一点最重要。
企业当然会创新,但企业创新受制于 KPI、融资窗口、产品节奏、交付周期和现金流压力。真正代际突破的东西,往往不适合由单个企业独自承担。
比如物理世界模型、自动驾驶长尾场景生成、机器人通用操作仿真、AI for Science 中的实验—模型—制造闭环、复杂制造过程的数字孪生、科学计算与大模型结合的 surrogate model。
这些东西如果做成了,价值极高。
如果做不成,企业 CFO 看起来会觉得浪费钱。
城市级平台的意义,就是给这些方向提供一个合法的、可持续的、可以聚集人才的试验场。
所以,平台真正要做的是“制造企业自己也想加入的难题场”。
不能从“我有什么资源可以卖给企业”出发。
要从“什么问题足够难,难到单个企业做不完整,但一旦做成会改变产业位置”出发。
这也是楼天城这类人会不会留在一个城市的关键。
这种人不会因为一个地方给办公楼、给补贴、给算力券,就长期留下。他们真正看的是:这个城市有没有复杂场景?**敢不敢开放场景?高校、超算、企业能不能一起做底层问题?有没有足够强的工程队伍?有没有长期主义资金?有没有允许失败的制度空间?有没有能挑战行业上限的题目?
所以广州需要的不是普通“平台”,而是一个城市级破局题目组织器。
所以,我们需要这个广州产业AI-HPC前竞争极限研发计算平台
“产业”,说明它不是纯科研。
“前竞争”,说明它可以跨行业合作。
“极限研发”,说明它不是普通算力服务。
“计算平台”,说明它的工具形态仍然是计算、仿真、数据、模型、评测。
但这个名字不会让人误以为它只是卖算力。
它的边界应该是:
广州产业极限研发计算平台,是依托国 家超级计算广州中心的机构能力、并行计算能力和政策组织能力,围绕企业单独难以完整承担的前沿研发瓶颈,建设城市级、前竞争、可复用的计算—仿真—数据—模型—评测基础设施。
它不替代企业自建机房。
它做企业自建机房之外的东西。
企业自建机房是私有研发武器。
这个平台应该是城市级极限试验场。
六、这个平台最应该优先做什么?
我认为可以排几个方向。
首先,是物理 AI / 自动驾驶 / 机器人极限场景平台。
这可能是最适合广州的方向。它做的不是“帮小鹏、小马训练模型”,而是做极端交通场景库、城市级仿真环境、自动驾驶安全评测体系、机器人真实任务模拟、港口/园区/道路/城中村/地下空间的复杂空间数字化、合成数据生成、模型压测、监管认可的评测标准。
企业会需要这些东西,但单个企业做出来的公信力和复用性有限。广州作为城市来做,价值更高。
2,是 AI for Science 的“实验—模型—制造”闭环。
药企自建机房可以做自己的模型和数据。但城市级平台可以做更上游、更共性的东西:分子模拟、蛋白质/小分子/材料计算、工艺放大模拟、反应路径预测、实验数据标准化、AI 与自动化实验平台连接、安全合规的数据协作环境。
这里的关键是把广州的生物医药、材料、化工、制造能力连接成一个科学智能基础设施。
3,是工业仿真 + AI surrogate model。
传统超算强在 CFD、CAE、材料、结构、流体、电磁、热管理。AI 的价值,是把大量高成本仿真训练成快速近似模型,从而加快研发迭代。
这对汽车、低空经济、机器人、能源设备、新材料、半导体工艺都有用。
这也是超算最容易提供真实技术增量的地方。
4,是国产异构计算栈真实负载测试场。
未来必然是国产替代为主的世界,但广州的公司千姿百态,他们也没有多少能力可以同时投入国产平台和世界先进平台的共同混合测试,这个负载场做得好,甚至可以是国之重器,拿到国 家大科学项目的。
企业自建机房一般会选最成熟、最省事、最能交付的方案。但城市级平台可以承担国产 GPU/NPU 适配、国产编译器和框架测试、AI 训练与 HPC 混合负载优化、国产 EDA/CAE 软件适配、多芯片多框架多任务调度。
这类事情单个企业不一定愿意做,但国 家和城市需要有人做。
七、中科宇航给广州提出了一个更复杂的问题
中科宇航这类企业,给广州提出的是一个更复杂的问题。
它当然是广州很重要的项目,但它并不天然嵌入广州既有产业链。它在广州生产、试验、融资、上市,但它的核心业务逻辑未必和广州本地其他产业形成强绑定。短期内,即便广州发展商业航天应用,或者讲低轨星座,也未必能立刻给中科宇航带来决定性帮助。
它真正直接需要的,可能首先是发射工位、试车工位、发射排期、发动机试验条件、许可协同、供应链可靠性、资本市场支持、大运力火箭验证、可重复使用能力验证。
这些不是 AI 能直接解决的。
但 AI-HPC 可以从另一个维度帮它:缩短试验—仿真—设计迭代周期。
所以不要问“中科宇航有没有 AI 需求”。这个问法太泛。更准确的问题是:中科宇航有哪些高成本、高不确定性、高仿真依赖、高试验依赖的研发环节,可以被 AI-HPC、仿真、数字孪生、可靠性评测平台加速?
比如发动机燃烧、热防护、结构强度、气动载荷、振动、控制、轨迹优化、可靠性分析、发射窗口调度、故障诊断、试车数据分析、回收复用路径设计。
同时也要承认,中科宇航不一定会把核心数据放到公共超算中心。航天企业也不太可能把核心设计、发动机参数、试验数据、飞控模型随便跑在公共平台上。这里涉及商业秘密、安全边界、供应链安全,甚至很多东西不是企业愿不愿意的问题,而是天然不能开放。
如果广州超算中心只是公共算力池,让企业上传数据、统一调度,那中科宇航大概率不会深度参与。但如果超算中心输出方法、软件栈、专家团队、验证框架和安全计算环境,企业保留数据边界,平台支持私有化、专属区、联合实验室、模型和仿真工具迁移,那就有可能。
这就是平台的真正价值:组织极限研发能力。
八、要提出“极限工程范式迁移”
广州的领头羊,快速消费(希音)、航天、eVTOL、飞行汽车、自动驾驶汽车、机器人,当然不是一回事。它们的技术边界、监管边界、可靠性标准、商业周期都不同。
但它们可以共享若干底层的极限工程问题:
高可靠控制,复杂动力学仿真,极端工况测试,软硬件冗余,安全评测,数字孪生,自动化制造,AI 加速仿真,真实场景验证。
这才是它们之间真正可以发生关系的地方。
小鹏汇天和小鹏汽车之间,当然已经存在某种工程迁移。比如电驱、电池、高压平台、感知、控制、冗余、安全测试、量产制造。但航天比飞行汽车更极端。火箭的动力学、热环境、可靠性门槛、发射窗口、一次性任务风险,都远高于汽车和低空飞行器。
小鹏汇天、中科宇航、自动驾驶、机器人之间存在一组可对话的底层工程问题。
比如高可靠控制、多系统冗余、极端工况仿真、硬件在环测试、故障注入测试、安全边界评测、复杂系统制造质量控制、仿真数据与真实试验数据闭环、AI 加速传统仿真、数字孪生与模型验证。
这些才是“智力迁移”的对象。
九、真正能把企业链接起来的是共同难题
广州如果想把中科宇航、小鹏汇天、小鹏汽车、Pony、广汽、创新药企业、机器人企业联系起来,不能靠口号,也不能硬讲产业链。
真正能连接它们的是共同难题。
第一组共同难题,是极端动力系统与热管理。
中科宇航有火箭发动机、试车、热防护、结构载荷问题。小鹏汇天有电驱、电池、高压平台、飞行器热管理问题。小鹏汽车有高压平台、电池、智驾计算平台热管理问题。低空经济和机器人也有轻量化、散热、功率密度问题。
这里可以形成高功率密度动力系统仿真平台。
第二组共同难题,是高可靠控制与冗余安全。
火箭、飞行汽车、自动驾驶、机器人都需要控制系统安全。区别只是任务风险和工程标准不同。这里可以形成安全关键智能系统评测平台,包括故障注入、硬件在环、软件在环、冗余控制验证、极端场景测试、控制器稳定性验证。
第三组共同难题,是仿真—真实试验闭环。
中科宇航有试车数据、发射数据。小鹏有自动驾驶路测数据。小鹏汇天有飞行测试数据。Pony 有 Robotaxi 运营数据。广汽有整车测试与制造数据。
这些数据不能互相公开,但可以共享方法:如何把真实试验数据回灌仿真,如何用仿真生成长尾场景,如何用 AI 替代部分高成本仿真,如何验证模型可信度,如何建立跨场景评测标准。
这里可以形成物理 AI 与工程数字孪生平台。
第四组共同难题,是极限制造与质量控制。
航天制造、飞行汽车制造、汽车制造、创新药制造,表面上完全不同,但都有一个共同点:一旦进入规模化,质量控制、过程监测、缺陷检测、工艺稳定性会变得极其重要。
这里可以形成 AI 驱动的高可靠制造过程控制平台。
这可能比“大家一起训练大模型”更有价值。
十、广州怎样才能让企业不轻易跑掉?
企业不会因为口号留下。企业留下,是因为这个城市有它搬不走的东西。
这个东西可以是市场,可以是供应链,可以是政策,也可以是研发环境。
如果这个东西阿里云、华为云、腾讯云、运营商机房、企业自建机房也能做,那它就不是这个平台的核心任务。
它可以参与,但不能作为主线。
真正适合这个平台的任务,必须满足几个条件:
单个企业做不完整;
做成后可以被多个企业复用;
需要超算中心、高校、**、企业共同组织,才有足够可信度和规模效应;
能形成技术标准、场景标准、评测标准或共性软件栈;
有产业计价能力,而不是只有科研或政务展示价值。
如果满足这些条件,它才是城市级平台该做的事情。
十一、结论
广州真正需要的,不是一个更大的机房,也不是一个更漂亮的算力平台。
企业会自建机房。
企业会保护自己的数据。
企业会训练自己的模型。
企业会按照自己的节奏迭代产品。
所以公共平台不能幻想替代企业。
广州真正应该建设的,是企业自建机房之外的东西:极端场景、中立评测、共性技术、前沿范式试错、仿真—真实试验闭环、安全关键系统评测、工业仿真与 AI surrogate model、AI for Science 的实验—模型—制造闭环。
广州要做的是:“我这里有一个你单独做不了、但你又很想做成的题目。”
这才是城市级平台的意义。
中科宇航、小鹏汇天、小鹏汽车、Pony、广汽、创新药企业、机器人企业,不一定属于同一条产业链。但它们共享一组底层极限工程问题。如果广州能依托国 家超级计算广州中心,把这些问题组织成城市级极限研发基础设施,那么这些企业就不是简单落地广州,而是被嵌入广州的研发网络。
企业真正难以离开的,不是补贴,不是办公楼,也不是便宜算力。
而是一个城市能不能提供别处没有的真实场景、极限问题、技术平台和制度空间。
这才是广州应该争取的东西。
|
|