index
股市头条

5月18日板块追踪:token工厂:AI 推理工业化时代的核心基础设施

2026/5/18 17:52:06

核心观点

Token工厂本质是AI推理工业化工厂,将传统“卖GPU卡时”的算力租赁模式升级为“卖标准化智能 Token 产出”的新型服务模式,是大模型从训练竞赛转向推理商业化落地的核心基础设施。其核心竞争力不在于拥有多少显卡,而在于大规模模型部署、推理优化和多模型混部调度能力,能将GPU利用率从传统算力租赁的60%-70%提升至90%以上,毛利率从20%-30%提高到50%-70%。

当前Token工厂行业正处于爆发前夜,大模型应用普及催生海量Token需求,开源模型生态成熟降低了部署门槛,按Token计费模式已成为行业标准。未来 3-5年,Token工厂将逐步替代传统算力租赁成为AI算力服务的主流形态,形成 “公有通用Token工厂 + 行业专属私有Token工厂”并行发展的格局。

本文通过对Token工厂产业链分析,建议优先关注第一梯队的第三方专业算力运营商其次第二梯队的AI服务器。


一、Token 工厂核心定义与底层本质


(一)什么是 Token、什么是 Token 工厂


Token(词元)是大模型处理信息的最小语义单位,大约相当于1个英文单词或1-2个汉字。AI理解和生成内容的过程,本质上就是不断生成和消费Token 的过程。Token不仅是技术单位,更具备了可计量、可定价、可交易的经济属性,成为AI时代的“智能基础货币”。


Token工厂是以GPU 集群 + 液冷散热 + 高速网络 + 大规模模型部署 + 智能推理调度系统为底座,工业化、规模化、低成本生产AI Token 并按 Token 计费的新型智算中心。它不是简单的机房或GPU集群,而是将算力、模型和工程能力整合在一起,直接向客户交付“可用的智能结果”而非“原始算力”


(二)Token 工厂 vs 传统 IDC / 算力租赁 核心区别


Token 工厂与传统 IDC 和算力租赁有着本质区别,核心在于产出形态和商业模式的根本变革,如下表所示:

简单来说,传统算力租赁是“租厨房给客户自己做饭”,而 Token 工厂是“中央厨房统一做饭,直接卖给客户成品”。客户要的是AI生成的内容和服务,不是显卡本身。


二、Token 工厂诞生的行业背景


(一)大模型产业拐点:从训练竞赛转向推理落地


2025年以来,大模型产业发生了根本性转变:从过去比拼模型参数规模的“训练竞赛”,全面转向比拼应用落地和商业化能力的“推理时代”。据行业统计,当前AI算力总需求中,推理需求占比已超过90%,且仍在以每月15%-20%的速度增长

训练是一次性投入,而推理是持续性消耗。一个大模型训练完成后,每天都要处理海量的用户请求,产生持续的 Token 需求。这就需要专门的基础设施来高效、低成本地满足这些推理需求,Token 工厂应运而生。

(二)传统算力模式无法满足推理需求


传统算力租赁模式存在三大痛点:

利用率低:客户按卡时付费,即使 GPU 闲置也要计费,导致客户不敢长期租用,整体 GPU 利用率仅为 60%-70%

门槛高:客户需要自己完成模型部署、推理优化、运维等工作,技术门槛高

成本高:客户需要为闲置算力买单,实际单位 Token 成本远高于规模化生产的 Token 工厂

Token工厂通过多模型混部、智能负载调度、批处理优化等技术,将不同客户的请求集中处理,最大化 GPU 利用率,从而大幅降低单位Token成本。

(三)开源模型生态成熟降低了部署门槛

千问、DeepSeek 等开源大模型的性能已接近甚至超越部分闭源模型,且可以免费下载使用。这使得任何拥有GPU集群的企业都可以部署这些模型,对外提供Token服务,无需自己训练大模型。

开源模型的普及打破了大模型公司的技术垄断,为Token工厂的大规模发展创造了条件。目前市面上大部分中小Token工厂都是基于开源模型部署运营的。

(四)按 Token 计费模式成为行业标准

OpenAI、百度、字节跳动等头部大模型公司均采用按 Token 计费的模式,这一模式已成为行业通用标准。客户已经习惯了按实际使用的 Token 数量付费,为 Token 工厂的商业化提供了坚实基础。


三、Token 工厂的商业模式深度解析


(一)运营模式


Token 工厂主要有三种运营模式:

(1)公有云 Token 服务:面向所有客户提供通用的 Token 服务,支持多种大模型,按 Token 计费,是目前最主流的模式。


(2)行业专属私有 Token 工厂:为特定行业客户(如金融、医疗)提供专属的 Token 服务,数据隔离,安全性高,通常采用包年包月或定制化计费。


(3)混合部署模式:通用业务走公有云 Token 工厂,涉密业务走本地私有化部署,兼顾成本和安全


(二)成本结构


Token 工厂的主要成本包括:

硬件折旧:占总成本的 40%-50%,GPU服务器折旧年限通常为3-5年

电力成本:占总成本的25%-35%,是Token 工厂最大的运营成本

带宽成本:占总成本的 10%-15%

运维与人力成本:占总成本的 5%-10%

机房租金:占总成本的 5%-10%

(三)盈利模型


Token工厂的盈利核心在于提高GPU 利用率和降低单位Token 成本。以一个拥有1000张 H100 GPU 的Token工厂为例:

当GPU利用率为60% 时,单位Token成本约为 0.00015元/ Token,毛利率约为25%;

当GPU利用率提升至90% 时,单位Token成本可降至 0.00008元/ Token,毛利率可提升至60%以上;

规模化效应显著,随着GPU数量增加和利用率提升,单位 Token 成本会持续下降,边际成本趋近于零。


(四)核心壁垒


Token 工厂的核心壁垒不是硬件资源,而是工程能力


(1)大规模模型部署能力:能够快速、稳定地部署数十甚至上百个不同的大模型。

(2)推理优化能力:通过量化、剪枝、KV 缓存等技术,大幅提升推理速度,降低成本。

(3)多模型混部调度能力:将不同类型、不同负载的模型混合部署在同一批 GPU 上,最大化资源利用率。

(4)合规与安全能力:提供数据加密、内容安全过滤、隐私保护等功能,满足客户的合规要求。



四、行业竞争格局及主要厂商


目前 Token 工厂行业仍处于发展初期,竞争格局尚未完全定型,主要呈现以下特点:

(一)头部厂商:互联网大厂与云厂商


百度、腾讯、字节跳动、阿里云、华为云等头部企业凭借强大的资金实力、技术积累和客户资源,占据了市场主导地位。它们拥有大规模的 GPU 集群,自研了先进的推理调度系统,同时支持自研和第三方大模型,能够提供稳定、高效的 Token 服务。


(二)中部厂商:第三方专业算力运营商(重点)

优刻得、弘信电子等第三方算力运营商专注于算力服务领域,机制灵活,能够快速响应市场需求。

它们通常采用“英伟达 + 华为昇腾”双芯片战略,同时支持多种芯片架构,为客户提供多样化的选择。

(三)其它:中小Token 工厂


大量中小玩家利用开源模型和二手GPU搭建小型Token工厂,以低价策略争夺市场份额。它们的优势是成本低、灵活性高,但在服务稳定性、安全性和合规性方面存在较大差距,主要服务于对价格敏感的中小客户和个人用户。

(四)竞争趋势


未来行业竞争将逐步从“拼硬件”转向“拼效率、拼服务、拼生态”

具备双芯片适配能力、强大的推理优化技术和丰富的行业解决方案的厂商将脱颖而出,行业集中度将逐步提升。

五、Token 工厂全产业链拆解

Token 工厂产业链可分为上游——硬件与基础软件中游 ——Token 工厂运营下游——需求应用三个环节:


(一)上游:硬件与基础软件


硬件层GPU(英伟达 H100/H200、华为昇腾910/950)、AI服务器液冷散热系统高速光模块交换机电力能源。硬件成本占Token工厂总投入的 70%-80%,是Token生产的“生产资料”。

基础软件层推理框架(TensorRT、MindIE)、负载调度系统容器编排监控计费系统。基础软件决定了 Token 生产的效率和稳定性,是 Token 工厂的核心技术壁垒之一。

(二)中游:Token 工厂运营方(核心环节)

中游是产业链的核心,负责将上游的硬件和软件整合起来,生产并销售 Token。主要玩家可分为四类

互联网大厂闭环:百度、腾讯、字节跳动等,自研大模型 + 自建 Token 工厂,全链路自己掌控,利润全部自留;

云厂商:阿里云、华为云、腾讯云等,拥有丰富的算力资源和云服务经验,同时支持多种大模型;

第三方专业算力运营商:优刻得、弘信电子等,专注于算力服务,灵活适配英伟达和华为昇腾等多种芯片;

大模型厂商自建:智谱AI、DeepSeek等,为了保障自身服务的稳定性和成本控制,自建部分Token工厂。


(三)下游:需求应用端


下游客户涵盖所有需要使用 AI 能力的主体:

AI应用开发商:各类 AI 聊天机器人、AI 写作、AI 绘画、AI 短剧等应用

政企客户:政府、金融、制造、教育等行业的智能化转型

个人用户:普通消费者使用的各类 AI 产品




六、投资者在token工厂产业链中重点关注的环节

结合政策确定性、行业景气度与盈利水平三大维度,token工厂产业链中可按优先级分为如下两个梯队。


第一梯队:业绩高增长、高确定性


第三方专业算力运营商:避开互联网大厂闭环竞争,精准服务中小开发者与政企客户。采用英伟达 + 华为昇腾双生态战略,通过多模型混部与推理优化将 GPU 利用率提升至 90% 以上,毛利率从传统租卡的 20%-30% 跃升至 50%-70%,按 Token 分成模式带来更高盈利弹性,业绩与 AI 应用爆发直接挂钩。


第二梯队:国产替代,稳步增长

AI服务器:作为 Token 工厂核心生产资料,硬件成本占总投入 70%-80%。推理需求爆发带动 AI 服务器出货量同比翻倍,其中推理服务器占比已超 90%。龙头厂商凭借供应链优势与芯片配额保障,订单排期至2027年,量价齐升逻辑明确,是产业链业绩确定性强的环节。


七、核心标的


重点关注第一梯队:同时具备英伟达和华为昇腾双生态认证、拥有实质性 Token 生产业务的第三方算力运营商;及第二梯队的AI服务器。



第一梯队核心标的:

(1)弘信电子(300657)

双生态布局:同时支持英伟达和华为昇腾芯片,是华为昇腾生态的重要合作伙伴;

实质性业务:2026年5月与无锡高新区签约,将在无锡建立大规模Token工厂,首期部署华为昇腾384超节点算力集群,是国内首个明确提出建设“国芯国模”Token 工厂的上市公司。

竞争优势:拥有完整的算力基础设施建设和运营能力,与地方政府合作紧密,能够获得充足的电力和土地资源。

所属行业:元件

(2)优刻得 (688158)

双生态布局:同时支持英伟达、华为昇腾、沐曦、壁仞等多种国内外芯片,是国内少数能够提供多元异构算力服务的云厂商

实质性业务:已在云端部署了 DeepSeek 等热门开源大模型,提供一键调用和部署服务,按 Token 计费

竞争优势:技术实力强,自主研发了推理优化和调度系统,能够大幅提升 GPU 利用率,降低单位 Token 成本

所属行业:IT服务

第二梯队核心标的:


(1) 神州数码(000034)

双生态布局:华为昇腾生态重要整机硬件伙伴,同时也是英伟达的核心合作伙伴。

实质性业务:基于“鲲鹏 + 昇腾”算力建设运营了多个智算中心,提供大模型部署和推理服务。

竞争优势:强大的供应链管理能力和渠道资源,能够快速交付AI服务器和算力集群。

所属行业:IT服务


(2)浪潮信息(000977)


双生态布局:英伟达全球顶级DGX供应商;华为昇腾950/Atlas核心整机伙伴、昇腾认证


实质性业务:英伟达:H100/H800服务器主力出货,字节、阿里、海外大客户万卡级订单;昇腾:中标多省智算中心,2025年昇腾相关订单20亿+。

竞争优势:全球最大的 AI 服务器产能,供应链议价能力强,单位硬件成本比行业平均低。

所属行业:计算机设备


风险提示

政策落地不及预期,技术迭代风险,行业竞争加剧


【风险提示】


 “以上内容仅供参考,所依据的软件功能、指标、计算模型存在局限性,不构成投资建议及买卖依据,亦不作未来收益保证,据此操作风险自担。股市有风险,投资需谨慎。


“参阅本服务所提供的资料及图表的人士,被视为已经理解并愿意自行承担投资服务的风险和损失。投资者依据本服务提供的信息、资料及图表进行金融、证券等投资项目所造成的盈亏与本公司无关。


同时本公司承诺诚信提供专业服务,不承诺投资者获取投资收益,也不与投资者约定分享投资收益或分担投资损失。本服务所提供的信息、资料及图表仅供参考,所依据的软件功能、指标、计算模型存在局限性,并不构成对任何股票的收购、购买、认购、抛售或持有的邀约或意图。


投资顾问:彭之誉

执业编号:A0380625050014,

证券咨询提供:杭州顶点财经网络传媒有限公司(证书:913301087996770893)

编辑:板块追踪
主稿:板块追踪 执业编号:A0380625050014
上一篇:
下一篇:
栏目最新