发布多模态融合大模型，商汤想抢占未来的交互入口

界面新闻记者 | 李如嘉
界面新闻编辑 | 文姝琪

4月10日，在商汤技术交流日上，商汤科技正式推出全新版本的“商汤日日新 SenseNova”多模态融合大模型及“商汤大装置 SenseCore 2.0”端到端能力体系。

本次发布的“日日新 SenseNova V6”大模型系列包含四个版本，其中SenseNova V6 Pro为原生多模态通用大模型，采用了6200亿参数的混合专家架构，实现文本、图像和视频的原生融合；SenseNova V6 Reasoner Pro在SenseNova V6 Pro基础上通过多模态长思维链训练和多模态增强学习，形成突出的多模态推理能力；SenseNova V6 Video是视频理解模型，可以理解总结视频内容，并在此基础上进行深入分析和推理；SenseNova V6 Omni是轻量级的全模态交互模型，深度融合语言、语音和视频，提供实时交互体验。

在现场，商汤展示了SenseNova V6的多模态能力。例如，用户可以将自己的数学题手写答案拍照上传，通过V6 Reasoner Pro的多步骤推理思考，模型先进行解题，并对用户的答案进行分析，然后通过V6 Omni的音视频沟通能力，模型以引导提问的方式为用户逐步剖析解题思路，还支持语音实时答疑，随时解答用户在解题过程中遇到的问题。

比起市面上的其他拍照搜题应用，V6更像是一个“一对一私教”。SenseNova V6还可以实现通过摄像头实时解读绘本，根据画面和用户的语音要求讲故事，在交流中，V6可针对不同的对话内容和场景需求，即时切换语气、情感与音调。

“未来的交互一定是一个多模态、全模态的交互，商汤要打通未来交互入口的核心技术。”商汤科技联合创始人、执行董事及人工智能基础设施和大模型首席科学家林达华告诉界面新闻，人类生活在一个丰富多彩的世界，交流的方式一直是多模态的，而不是单纯的文字交流，这也是未来大模型发展的必然方向。

“从Gemini 2.0、GPT 4.5到最近刚发布的Llama 4，都可以看到国际主流机构正在持续提升原生多模态能力。”他表示，但目前在国内还很少有企业集中在多模态推理、交互能力的研发上。因此，基于在计算机视觉领域的积累，商汤选择不去参与大语言模型的竞争，而是提前进入多模态大模型的赛道，希望能抢占未来多模态交互的入口。

商汤称，目前SenseNova V6 Pro的多模态综合能力可以对标Gemini 2.0 Pro和GPT-4.5。此外，在技术能力上还有三项关键突破：强推理、强交互和长记忆。

此前，商汤科技确立了“大装置-大模型-应用”三位一体核心战略，以日日新（SenseNova）多模态大模型为基石，以生产力工具和交互工具为两大落地方向。

其认为，在AI 2.0时代，基础设施、大模型和应用三者的关系是密不可分的：应用场景推动模型发展，而大模型通过差异化创新来突破各种垂直领域的需求；同时，大模型的发展也牵引了AI基础设施的持续优化，反过来，强大的AI基础设施又能支撑大模型能力的跃迁。

具体从大模型和应用两者之间的关系来看，商汤认为，大模型对商业应用主要有两个方面的关键价值：一是融入真实的业务应用，具备处理复杂信息和解决复杂问题的能力；二是以更有亲和力的方式与人交互，让人感受到和模型交流的良好体验，愿意和模型持续交流。

为了实现上述目标，模型需要具备强大的推理能力，以支撑对人类意图的深度理解、对复杂信息的分析判断、以及解决真实环境中的复杂问题；能理解情感，与人共情，并且可以和人实时互动；能记住过去一段时间发生的事情，并且捕捉其中的关键信息并融入推理。这也是商汤在V6中做到的主要突破。

“靠单纯的技术很难形成长久的壁垒，现在一个新的模型发布后很快就会有一系列模型追赶上来，开源也会进一步缩小大家在技术上的差距。技术和行业的深度结合才能形成持久壁垒。”林达华认为。商汤希望能够把模型嵌入到真实的业务场景中，真正替代掉业务链条中的某些环节。

目前，基于多模态大模型，商汤开发了多种新场景应用。例如在长视频上，商汤上线了视频理解功能，提供对教学视频、旅游视频、生活视频的解析、总结、对话，以及对情景之外的情节和逻辑的补全。面向日常应用的需求，SenseNova V6 Omni具备数学解题、点读翻译、文旅讲解、绘本讲解四大功能。在财务审核、购物比价、商铺运营等场景中也可以利用V6来解决用户需求。

此外，在技术交流日上，商汤还展示了和具身智能企业傅利叶的合作。基于SenseNova V6 Omni，傅利叶的机器人可以通过融合图像、视频、语音和文本信息理解环境，进行思考与表达，洞察用户的需求与情绪，与人类进行交互。机器人在输出语音的同时，还能同步生成与语义相匹配的动作，实现语言与行为的统一。