资讯

股市头条

【研报精选】豆包大模型推出，AI应用加速发展（附股）

2025/1/21 18:20:46

豆包即将发布最新实时语音大模型，并将基于此模型全量上线豆包App实时语音通话功能。目前，豆包APP已小范围测试最新能力，部分用户在豆包App的实时通话界面已更新。此前，业内就曾有消息称豆包将上线最新情感语音大模型，测试效果超过GPT-4o。

据了解，该传言提及模型即为上述实时语音模型。最新模型通过面向语音生成和理解进行统一建模，区别于此前的ASR+LLM+TTS级联方式，在对话效果上有大幅提升，实时交互上不仅低延时，也能流畅打断。

根据火山引擎2024冬季force原动力大会披露的数据，豆包大模型的日均调用量在高速增长，2024年5月豆包大模型的日均tokens调用量为1200亿，7月增长到5000亿，9月达1.3万亿，截止2024年12月15日已经突破了4万亿，在7个月的时间里增长超过33倍。

大模型升级：全方位看一下，豆包大模型的优化

2024年12月18日火山引擎 FORCE 原动力大会上，火山引擎展示了其全新升级的豆包大模型家族，包含豆包视觉理解模型、豆包3D生成模型，以及全面更新的豆包通用模型pro、音乐模型、文生图模型等，为企业提供多模态大模型能力。豆包大模型于12月实现日均 tokens 使用量超过4万亿，较5月发布时期增长超过33倍，稳居行业领先地位。

视觉理解模型重磅发布。视觉理解模型具备以下三种能力：更强的内容识别能力，可识别出图像中的物体类别、形状等基本要素以及理解物体之间的关系、空间布局以及场景的整体含义；更强的理解和推理能力，能根据所识别的文字和图像信息进行复杂的逻辑计算；更细腻的视觉描述能力，可以基于图像信息，更细腻地描述图像呈现的内容以及多种文体创作。