资讯

股市头条

5月18日板块追踪：token工厂：AI 推理工业化时代的核心基础设施

2026/5/18 17:52:06

核心观点

Token工厂本质是AI推理工业化工厂，将传统“卖GPU卡时”的算力租赁模式升级为“卖标准化智能 Token 产出”的新型服务模式，是大模型从训练竞赛转向推理商业化落地的核心基础设施。其核心竞争力不在于拥有多少显卡，而在于大规模模型部署、推理优化和多模型混部调度能力，能将GPU利用率从传统算力租赁的60%-70%提升至90%以上，毛利率从20%-30%提高到50%-70%。

当前Token工厂行业正处于爆发前夜，大模型应用普及催生海量Token需求，开源模型生态成熟降低了部署门槛，按Token计费模式已成为行业标准。未来 3-5年，Token工厂将逐步替代传统算力租赁成为AI算力服务的主流形态，形成 “公有通用Token工厂 + 行业专属私有Token工厂”并行发展的格局。

本文通过对Token工厂产业链分析，建议优先关注第一梯队的第三方专业算力运营商；其次第二梯队的AI服务器。

一、Token 工厂核心定义与底层本质

（一）什么是 Token、什么是 Token 工厂

Token（词元）是大模型处理信息的最小语义单位，大约相当于1个英文单词或1-2个汉字。AI理解和生成内容的过程，本质上就是不断生成和消费Token 的过程。Token不仅是技术单位，更具备了可计量、可定价、可交易的经济属性，成为AI时代的“智能基础货币”。

Token工厂是以GPU 集群 + 液冷散热 + 高速网络 + 大规模模型部署 + 智能推理调度系统为底座，工业化、规模化、低成本生产AI Token 并按 Token 计费的新型智算中心。它不是简单的机房或GPU集群，而是将算力、模型和工程能力整合在一起，直接向客户交付“可用的智能结果”而非“原始算力”。

（二）Token 工厂 vs 传统 IDC / 算力租赁核心区别

Token 工厂与传统 IDC 和算力租赁有着本质区别，核心在于产出形态和商业模式的根本变革，如下表所示：

简单来说，传统算力租赁是“租厨房给客户自己做饭”，而 Token 工厂是“中央厨房统一做饭，直接卖给客户成品”。客户要的是AI生成的内容和服务，不是显卡本身。

二、Token 工厂诞生的行业背景

（一）大模型产业拐点：从训练竞赛转向推理落地

2025年以来，大模型产业发生了根本性转变：从过去比拼模型参数规模的“训练竞赛”，全面转向比拼应用落地和商业化能力的“推理时代”。据行业统计，当前AI算力总需求中，推理需求占比已超过90%，且仍在以每月15%-20%的速度增长。

训练是一次性投入，而推理是持续性消耗。一个大模型训练完成后，每天都要处理海量的用户请求，产生持续的 Token 需求。这就需要专门的基础设施来高效、低成本地满足这些推理需求，Token 工厂应运而生。

（二）传统算力模式无法满足推理需求

传统算力租赁模式存在三大痛点：

利用率低：客户按卡时付费，即使 GPU 闲置也要计费，导致客户不敢长期租用，整体 GPU 利用率仅为 60%-70%

门槛高：客户需要自己完成模型部署、推理优化、运维等工作，技术门槛高

成本高：客户需要为闲置算力买单，实际单位 Token 成本远高于规模化生产的 Token 工厂

Token工厂通过多模型混部、智能负载调度、批处理优化等技术，将不同客户的请求集中处理，最大化 GPU 利用率，从而大幅降低单位Token成本。

（三）开源模型生态成熟降低了部署门槛

千问、DeepSeek 等开源大模型的性能已接近甚至超越部分闭源模型，且可以免费下载使用。这使得任何拥有GPU集群的企业都可以部署这些模型，对外提供Token服务，无需自己训练大模型。

开源模型的普及打破了大模型公司的技术垄断，为Token工厂的大规模发展创造了条件。目前市面上大部分中小Token工厂都是基于开源模型部署运营的。

（四）按 Token 计费模式成为行业标准

OpenAI、百度、字节跳动等头部大模型公司均采用按 Token 计费的模式，这一模式已成为行业通用标准。客户已经习惯了按实际使用的 Token 数量付费，为 Token 工厂的商业化提供了坚实基础。

三、Token 工厂的商业模式深度解析

（一）运营模式

Token 工厂主要有三种运营模式：

（1）公有云 Token 服务：面向所有客户提供通用的 Token 服务，支持多种大模型，按 Token 计费，是目前最主流的模式。

（2）行业专属私有 Token 工厂：为特定行业客户（如金融、医疗）提供专属的 Token 服务，数据隔离，安全性高，通常采用包年包月或定制化计费。

（3）混合部署模式：通用业务走公有云 Token 工厂，涉密业务走本地私有化部署，兼顾成本和安全

（二）成本结构

Token 工厂的主要成本包括：

硬件折旧：占总成本的 40%-50%，GPU服务器折旧年限通常为3-5年

电力成本：占总成本的25%-35%，是Token 工厂最大的运营成本

带宽成本：占总成本的 10%-15%

运维与人力成本：占总成本的 5%-10%

机房租金：占总成本的 5%-10%

（三）盈利模型

Token工厂的盈利核心在于提高GPU 利用率和降低单位Token 成本。以一个拥有1000张 H100 GPU 的Token工厂为例：

当GPU利用率为60% 时，单位Token成本约为 0.00015元/ Token，毛利率约为25%；

当GPU利用率提升至90% 时，单位Token成本可降至 0.00008元/ Token，毛利率可提升至60%以上；

规模化效应显著，随着GPU数量增加和利用率提升，单位 Token 成本会持续下降，边际成本趋近于零。

（四）核心壁垒

Token 工厂的核心壁垒不是硬件资源，而是工程能力：

（1）大规模模型部署能力：能够快速、稳定地部署数十甚至上百个不同的大模型。

（2）推理优化能力：通过量化、剪枝、KV 缓存等技术，大幅提升推理速度，降低成本。

（3）多模型混部调度能力：将不同类型、不同负载的模型混合部署在同一批 GPU 上，最大化资源利用率。

（4）合规与安全能力：提供数据加密、内容安全过滤、隐私保护等功能，满足客户的合规要求。

四、行业竞争格局及主要厂商

目前 Token 工厂行业仍处于发展初期，竞争格局尚未完全定型，主要呈现以下特点：

（一）头部厂商：互联网大厂与云厂商

百度、腾讯、字节跳动、阿里云、华为云等头部企业凭借强大的资金实力、技术积累和客户资源，占据了市场主导地位。它们拥有大规模的 GPU 集群，自研了先进的推理调度系统，同时支持自研和第三方大模型，能够提供稳定、高效的 Token 服务。

（二）中部厂商：第三方专业算力运营商（重点）

优刻得、弘信电子等第三方算力运营商专注于算力服务领域，机制灵活，能够快速响应市场需求。

它们通常采用“英伟达 + 华为昇腾”双芯片战略，同时支持多种芯片架构，为客户提供多样化的选择。

（三）其它：中小Token 工厂

大量中小玩家利用开源模型和二手GPU搭建小型Token工厂，以低价策略争夺市场份额。它们的优势是成本低、灵活性高，但在服务稳定性、安全性和合规性方面存在较大差距，主要服务于对价格敏感的中小客户和个人用户。

（四）竞争趋势

未来行业竞争将逐步从“拼硬件”转向“拼效率、拼服务、拼生态”。

具备双芯片适配能力、强大的推理优化技术和丰富的行业解决方案的厂商将脱颖而出，行业集中度将逐步提升。

五、Token 工厂全产业链拆解

Token 工厂产业链可分为上游——硬件与基础软件、中游 ——Token 工厂运营、下游——需求应用三个环节：

（一）上游：硬件与基础软件

硬件层：GPU（英伟达 H100/H200、华为昇腾910/950）、AI服务器、液冷散热系统、高速光模块、交换机、电力能源。硬件成本占Token工厂总投入的 70%-80%，是Token生产的“生产资料”。

基础软件层：推理框架（TensorRT、MindIE）、负载调度系统、容器编排、监控计费系统。基础软件决定了 Token 生产的效率和稳定性，是 Token 工厂的核心技术壁垒之一。

（二）中游：Token 工厂运营方（核心环节）

中游是产业链的核心，负责将上游的硬件和软件整合起来，生产并销售 Token。主要玩家可分为四类：

互联网大厂闭环：百度、腾讯、字节跳动等，自研大模型 + 自建 Token 工厂，全链路自己掌控，利润全部自留；

云厂商：阿里云、华为云、腾讯云等，拥有丰富的算力资源和云服务经验，同时支持多种大模型；

第三方专业算力运营商：优刻得、弘信电子等，专注于算力服务，灵活适配英伟达和华为昇腾等多种芯片；

大模型厂商自建：智谱AI、DeepSeek等，为了保障自身服务的稳定性和成本控制，自建部分Token工厂。

（三）下游：需求应用端

下游客户涵盖所有需要使用 AI 能力的主体：

AI应用开发商：各类 AI 聊天机器人、AI 写作、AI 绘画、AI 短剧等应用

政企客户：政府、金融、制造、教育等行业的智能化转型

个人用户：普通消费者使用的各类 AI 产品

六、投资者在token工厂产业链中重点关注的环节

结合政策确定性、行业景气度与盈利水平三大维度，token工厂产业链中可按优先级分为如下两个梯队。

第一梯队：业绩高增长、高确定性

第三方专业算力运营商：避开互联网大厂闭环竞争，精准服务中小开发者与政企客户。采用英伟达 + 华为昇腾双生态战略，通过多模型混部与推理优化将 GPU 利用率提升至 90% 以上，毛利率从传统租卡的 20%-30% 跃升至 50%-70%，按 Token 分成模式带来更高盈利弹性，业绩与 AI 应用爆发直接挂钩。

第二梯队：国产替代，稳步增长

AI服务器：作为 Token 工厂核心生产资料，硬件成本占总投入 70%-80%。推理需求爆发带动 AI 服务器出货量同比翻倍，其中推理服务器占比已超 90%。龙头厂商凭借供应链优势与芯片配额保障，订单排期至2027年，量价齐升逻辑明确，是产业链业绩确定性强的环节。

七、核心标的

重点关注第一梯队：同时具备英伟达和华为昇腾双生态认证、拥有实质性 Token 生产业务的第三方算力运营商；及第二梯队的AI服务器。

第一梯队核心标的：

（1）弘信电子（300657）

双生态布局：同时支持英伟达和华为昇腾芯片，是华为昇腾生态的重要合作伙伴；

实质性业务：2026年5月与无锡高新区签约，将在无锡建立大规模Token工厂，首期部署华为昇腾384超节点算力集群，是国内首个明确提出建设“国芯国模”Token 工厂的上市公司。

竞争优势：拥有完整的算力基础设施建设和运营能力，与地方政府合作紧密，能够获得充足的电力和土地资源。

所属行业：元件

（2）优刻得（688158）

双生态布局：同时支持英伟达、华为昇腾、沐曦、壁仞等多种国内外芯片，是国内少数能够提供多元异构算力服务的云厂商

实质性业务：已在云端部署了 DeepSeek 等热门开源大模型，提供一键调用和部署服务，按 Token 计费

竞争优势：技术实力强，自主研发了推理优化和调度系统，能够大幅提升 GPU 利用率，降低单位 Token 成本

所属行业：IT服务

第二梯队核心标的：

（1）神州数码（000034）

双生态布局：华为昇腾生态重要整机硬件伙伴，同时也是英伟达的核心合作伙伴。

实质性业务：基于“鲲鹏 + 昇腾”算力建设运营了多个智算中心，提供大模型部署和推理服务。

竞争优势：强大的供应链管理能力和渠道资源，能够快速交付AI服务器和算力集群。

所属行业：IT服务

（2）浪潮信息（000977）

双生态布局：英伟达全球顶级DGX供应商；华为昇腾950/Atlas核心整机伙伴、昇腾认证

实质性业务：英伟达：H100/H800服务器主力出货，字节、阿里、海外大客户万卡级订单；昇腾：中标多省智算中心，2025年昇腾相关订单20亿+。

竞争优势：全球最大的 AI 服务器产能，供应链议价能力强，单位硬件成本比行业平均低。

所属行业：计算机设备

风险提示

政策落地不及预期，技术迭代风险，行业竞争加剧

【风险提示】

“以上内容仅供参考，所依据的软件功能、指标、计算模型存在局限性，不构成投资建议及买卖依据，亦不作未来收益保证，据此操作风险自担。股市有风险，投资需谨慎。

“参阅本服务所提供的资料及图表的人士，被视为已经理解并愿意自行承担投资服务的风险和损失。投资者依据本服务提供的信息、资料及图表进行金融、证券等投资项目所造成的盈亏与本公司无关。

同时本公司承诺诚信提供专业服务，不承诺投资者获取投资收益，也不与投资者约定分享投资收益或分担投资损失。本服务所提供的信息、资料及图表仅供参考，所依据的软件功能、指标、计算模型存在局限性，并不构成对任何股票的收购、购买、认购、抛售或持有的邀约或意图。

投资顾问：彭之誉

执业编号：A0380625050014，

证券咨询提供：杭州顶点财经网络传媒有限公司（证书：913301087996770893）

编辑：板块追踪

主稿：板块追踪执业编号：A0380625050014

上一篇:

下一篇:

栏目最新

新闻标题新闻标题新闻标题新闻标题
2016-03-25 09:39:02

5月18日板块追踪：token工厂：AI 推理工业化时代的核心基础设施

新闻标题新闻标题新闻标题新闻标题