首页 小说推荐 实时讯息 百科知识 范文大全 经典语录
您的位置: 首页 > 实时讯息 >

商汤发布多模态推理大模型,可生成6万字长思维链,10秒解说视频亮点

0次浏览     发布时间:2025-04-10 23:44:00    

AI似乎已让人陷入审美疲劳。去年12月,在OpenAI举行的ChatGPT两周年发布会上,人们并没有等来新一代大模型GPT-5,号称世界上参数最大的Grok-1也没有赢得足够的掌声。原因可能是撞上了“数据墙”。

有数据表明,互联网上可用的人类文本数据将在2028年消耗殆尽。但这并不意味着知识被耗尽,人类社会的更多知识存在于图片、声音和视频等多模态之中。

商汤技术交流日。

今天的商汤技术交流日上,商汤科技发布了“商汤日日新 SenseNova V6(简称日日新V6)”,它具备最长64K思维链、多模态深度推理、全局记忆等能力,支持10分钟的视频推理及深度推理。

“文字并非与AI交互的最终形态,更自然的交互是无处不在的多模态。”商汤科技联合创始人、大模型首席科学家林达华说。AI2.0时代的游戏规则,似乎变了。

多模态长思维链重塑AI“智力”

俗话说“一图胜千言”,许多用文字难以描述的事情,一张图就懂了。显然,声音、图片和视频等多模态是人类智能的核心要素,每个人从出生起就通过眼睛从外部世界获取知识,到了一定年龄才会去学习文字。

日日新V6的核心突破是构建出多模态长思维链。当你向它发送一段语音、一张图片或一段视频,思维链主引擎就开始工作了。它会调用商汤10年间在多模态上积累的各种能力,给出反馈并不断循环,直到输出高质量多模态长思维链。“这条思维链最长可达64K,相当于在得到答案前,大模型已思考了6万字。”商汤科技董事长兼首席执行官徐立说。

多模态对于提升大模型“智力”如此重要,但想要落地却并不容易。在预训练过程中,如果将不同数据流一股脑儿喂给大模型,容易“消化不良”。商汤掌握了不同数据流之间的桥接方法,走通了多模态预训练这条路。

另一个难点在于。视频输入相对于文字的数据量暴增。徐立表示,即使以每秒一帧的频率采集视频数量,输入量也是文字的400倍。商汤通过多维信息压缩解决了多模态视频输入的长上下文问题,率先在国内突破长视频理解的上限,可支持10分钟的视频理解及深度推理。

“日日新”模型走向“日日用”

发布会上,徐立将更多时间留给了应用场景。购物比价、店铺经营、游戏解说、文化商旅、具身智能、情感陪伴……一个个鲜活场景轮番登场,让人惊呼AI应用将深入生活的方方面面。

最大的受益群体可能是家长,因为多模态大模型可以辅导功课和讲故事了。以往AI在辅助作业方面最大的应用是拍照搜题,但这并不能让孩子学会解题思路。日日新V6能找到孩子在解题过程中出错的那个环节,并像老师一样针对错误予以讲解。

睡前给孩子读绘本也是一些家长的“必修课”,可是有些绘本文字不多,需要家长自己理解后转述给孩子。这个工作也能交给日日新V6,它拥有强大的“看图说话”能力,几张图就能编出一个有趣的故事,有时还能给出意想不到的结局。

看图说话。

视频博主的生态也将由此改变。现场展示了热门游戏《黑神话悟空》的打斗片段,日日新V6不仅能将打斗中的精彩时刻剪辑出来,还能配上解说词:“当BOSS纵身跃下,长矛划出完美抛物线,玩家立即后撤步拉开距离,这是防止被连击的核心操作……”,这一切在10秒内完成。

如果将这一能力移植到旅游,将带给人全新体验。上海西岸文化产业投资发展有限公司副总经理蔡彭菲介绍,上海西岸未来将营造AI2.0文旅体验。比如,获取信息不必扫二维码,只要将手机对准目标,AI就能自动“开讲”;将游玩时长、个人兴趣输入大模型,它会主动生成导览路线;旅游中“随手拍”也不妨扔给大模型,让它为你剪出精彩瞬间……

多模态模型迈向舞台中央

生成式AI爆发后,多模态大模型早已成为人们追求的方向。谷歌认为,只有从头开始的多模态才能构建出超越前代的先进模型。这意味着它天生地可以读取和输出不同模态内容,还具备强大的多模态推理能力和跨模态迁移能力。

这被称为“原生融合多模态技术”,被认为是AI未来发展的必由之路,也是商汤始终坚持的研发重点。林达华表示,一流企业需要有引领能力,而非紧跟热点。

2023年4月,商汤首次推出商汤日日新SenseNova大模型体系。经过5个版本迭代,去年7月推出的日日新5.5版本成为国内首个对标GPT-4o的多模态实时交互大模型,实现了语音、视频和语言模型的原生融合。日日新V6pro在多模态推理能力上相较5.5版本提升104%,纯文本能力提升55%。

自去年10月,商汤科技确立了“大装置-大模型-应用”三位一体核心战略后,其发展策略似乎变了。徐立也坦言,过去商汤的场景大多较为宏大,比如城市管理、智能工业、电网,而此次发布会则显得更有人情味。这是因为当时的模型只能针对单一任务实现闭环价值,随着大模型变得更加通用,反而让它走到更多人身边,变成“日用品”。

大模型赛道风起云涌,3个月不创新格局就会变。可以预见,手握多模态的交互入口,商汤已在AI应用新一轮爆发来临之前领先“一个身位”。

相关文章

成都熊猫基地推出新视频 带您“云上”解锁熊猫会客厅

2025-04-13 22:20:00实时讯息

【捉谣记】学员将车开上树?假的!驾校被约谈

2025-04-12 21:34:00实时讯息

美国前常务副国务卿坎贝尔诛心:特朗普高估了自身实力,低估了中国应对能力

2025-04-11 21:18:00实时讯息

不敢吹智驾的新势力们,还有什么看点?

2025-04-11 10:58:00实时讯息

与花有约!去上海国际花展欣赏千百种花的姿态

2025-04-11 08:15:00实时讯息