具备“看图思考”能力,字节跳动发布豆包1.5深度思考模型
潮新闻客户端 记者 楼纯
潮新闻记者获悉,4月17日,火山引擎AI创新巡展杭州站上,火山引擎总裁谭待发布了最新的豆包1.5深度思考模型,同步升级文生图模型3.0、视觉理解模型,并推出OS Agent 解决方案及AI云原生推理套件,帮助企业更快、更省地构建和部署Agent应用。

火山引擎总裁谭待
据介绍,该模型在数学、编程、科学推理等专业领域及创意写作等通用任务中表现突出。“模型能够结合视觉理解技术提供更多功能,例如根据照片分析地貌,或在旅行时辅助点餐、完成企业项目管理流程图。”谭待表示。
据了解,该模型采用MoE架构,总参数200B,激活参数为20B,低于业界同类模型参数规模的50%,具备显著的推理成本优势。同时,谭待表示,豆包大模型使用量持续高速增长。截至2025年3月,豆包大模型日均tokens使用量超12.7万亿,较发布之初增长超106倍。谭待说:“深度思考模型是构建Agent的基础,模型要有能力做好思考、计划和反思,并且一定要支持多模态,就像人类具备视觉和听觉一样,Agent才能更好地处理复杂任务。”
据谭待介绍,豆包1.5·深度思考模型在专业领域的推理任务中表现出色,数学推理AIME2024测试得分追平OpenAI o3-mini-high,编程竞赛和科学推理测试成绩也接近o1。在创意写作、人文知识问答等通用任务上,模型也展示出优秀的泛化能力,能胜任更广泛的使用场景。
另外,豆包深度思考模型还具备视觉推理能力,能像人类一样对看到的事物进行联想和思考,极大拓展了智能推理的应用边界。谭待举例说明,“模型可以看懂复杂的企业项目管理流程图表,快速定位到关键信息,并以强大的指令遵循能力,严格按照流程图,回答客户的问题;分析航拍图时,能结合地貌特征判断区域开发可行性。有多模态能力的加持,豆包深度思考模型可以助力企业在更多场景实现智能化升级。”
此外,豆包文生图模型Seedream3.0也正式向企业开放。该模型已在即梦AI、豆包产品上线,并在近期登上权威竞技场Artificial Analysis文生图榜单第一梯队。Seedream3.0支持2K分辨率直出,生图结构准确性、小字生成与排版、美感、真实度等方面具有优势。
“转载请注明出处”