index
股市头条

字节跳动发布豆包实时语音大模型,附AI端侧核心公司名单!

2025/1/21 21:52:35

近日,字节跳动发布豆包实时语音大模型,该模型是一款语音理解和生成一体化的模型,实现了端到端语音对话


相比传统级联模式,该模型在语音表现力、控制力、情绪承接方面表现较强,并具备低时延、对话中可随时打断等特性。在数据收集中,团队筛选并整理大量包含丰富情感的语音数据,涵盖各种场景与情绪状态。



在预训练阶段,团队对各模态交织数据进行深入训练,精准捕捉并高效压缩海量语音信息,通过Scaling,最大程度实现语音与文本能力深度融合和能力涌现。在后训练阶段,团队使用了高质量数据与RL算法,进一步提供模型高情商对话能力与安全性,并使大模型同时兼具“智商”与“情商”。


架构支持多模态输入输出,涌现出较强声音控制、声音扮演等能力


在架构方面,豆包团队研发端到端框架,深度融合语音与文本模态,该框架面向语音生成和理解进行统一联合建模,实现多模态输入和输出效果,涵盖S2S(语音到语音)、S2T(语音到文本)、T2S(文本到语音)、T2T(文本到文本)等多种模式。



模型涌现多种能力:在声音控制方面,模型不仅能依照基础指令输出,还可遵循丰富的复杂指令;在声音扮演方面,目前模型部分方言和口音,主要源自于预训练阶段数据泛化,而非针对性训练。


此外,模型支持实时联网功能,能够根据问题,动态获取最新信息,问题回答时效性强。从测评结来看,豆包实时语音大模型在情绪理解和情感表达方面优势明显,整体满意度方面,豆包实时语音大模型评分为4.36,GPT-4o为3.18,豆包模型表现更优。


ToB和ToC端大模型齐飞,重视字节跳动等相关产业链投资机会。


以下是字节AI端侧核心公司梳理,大家可结合五绝战法+三红指标筛选(点击股票可查看个股详情,包含麒麟趋势线等):


AI玩具


实丰文化 (002862):公司目前全力打造第二代精品 AI 玩具,将豆包等大模型装进玩具里,赋予传统玩具以生命力。


移远通信 (603236):公司称尚未接到字节跳动或相关玩具厂商的订单,正在与玩具广商进行方案评估和洽谈,但尚未正式出货。


乐鑫科技 (688018):在字节跳动推出的 AI玩具 folotoy 的文档里有 espstool,espstool 是乐鑫的。


博通集成 (603068):与奥嘟比合作推出搭载AI大模型的玩具智能套件。


苏豪弘业 (600128):与华麦机器人共同研发的AI陪伴玩偶粉红猪搭载豆包大模型。


三维通信 (002115):子公司巨网科技连续取得字节跳动旗下巨量引擎等平台颁发的荣誉奖项,综合实力现已进入行业前五。


润欣科技 (300493):是DB AI玩具核心合作厂商,产品通过Folotoy进入字节儿童对话玩具“显眼包”,是火山引擎端侧AI SoC芯片重点合作方。


元隆雅图 (002878):公司布局动漫、国潮等各类IP,在AI玩具相关领域有一定的业务布局。


AI耳机


恒玄科技 (688608):字节Ola Friend智能体耳机使用了恒玄科技的soc芯片。


中科蓝讯 (688332):讯龙三代BT895X芯片被搭载于支持豆包大模型的AI耳机产品。


歌尔股份 (002241):可为客户提供智能耳机等产品的垂直整合产品解决方案和一站式研发制造服务。


佳禾智能 (300793):在智能耳机制造方面有相关业务。


天键股份 (301383):为字节AI耳机提供代工服务。


瀛通通讯 (002861):积极推动以TWS真无线蓝牙耳机为重点业务。


中科创达 (300496):在互动平台表示公司已具备AI耳机的相关技术、产品和方案。


奥尼电子 (301189):拥有AI智能耳机技术,将人工智能AI技术应用于可穿戴耳机中。


漫步者 (002351):国内知名的音频设备品牌厂商,在耳机市场具有较高的知名度和市场占有率。


老师梳理不易

亲们记得一键三连

点赞+评论+打赏


特别是点赞和评论

❤策略币多少都是爱 ❤

大佬可以打赏888


编辑:题材掘金
主稿:题材掘金 执业编号:A0380624040004
上一篇:
下一篇:
栏目最新