TAG:多模态AI
商汤科技发布日日新 SenseNova 6.7 Flash-Lite,多模态能力实现跨越式升级
商汤科技发布新一代轻量化多模态智能体模型日日新 SenseNova 6.7 Flash-Lite,专为真实世界工作流设计。该模型通过原生多模态架构,直接识读复杂文档和图表,实现视觉理解与逻辑决策一体化,在数据分析、调研和PPT生成等办公场景中表现高效。其Token消耗降低60%,响应达毫秒级,同时通过免费调用活动和开源技能包,助力开发者构建智能体应用。
TikTok撤回视频摘要AI功能,因频繁出现“蓝莓”等严重幻觉
TikTok近期暂停了其AI视频摘要功能的测试,因为该功能在实际应用中频繁出现严重错误,如将视频内容误识别为‘蓝莓’等幻觉现象。这一事件凸显了当前多模态AI在处理动态视觉信息时面临的技术瓶颈,包括逻辑关联断裂和语义识别错误。文章分析了这一案例对行业的影响,指出AI工具正从追求全能描述转向垂直应用,以提高实用性和商业确定性。
中文视觉大模型竞争格局生变:豆包领先,国产实力全面反超
SuperCLUE-VLM最新测评显示,中文视觉大模型竞争格局生变:字节豆包以90.66分登顶,超越谷歌Gemini,阿里、商汤、智谱等国产模型也整体表现亮眼。文章同时指出,国产模型虽在基础认知与数据分析上领先,但在视觉推理和专业应用场景仍有提升空间。
Soul 开源实时数字人生成模型SoulXFlashTalk 实现亚秒级延迟
本文介绍Soul AI Lab开源业内首个14亿参数实时数字人生成模型SoulXFlashTalk,该模型可实现亚秒级延迟与32帧高帧率,开放相关资源能有效降低行业研发门槛,此举完善了Soul“语音+视觉”双模态开源布局,未来将持续推进开源战略,推动AI与社交等多领域的创新发展。
谷歌推出 Gemini 3.1 Pro 深度研究代理,支持 MCP 协议与多模态自主研究
谷歌发布基于 Gemini3.1Pro 的 Deep Research 与 Deep Research Max 两款自主研究代理,支持 MCP 协议、多模态输入与原生可视化,可在开放网络和专有数据库间协同检索并进行长时推理。产品面向实时对话与深度异步研究双场景,凸显 AI 从搜索工具向自主分析助手升级。
Anthropic发布Claude Opus 4.7:金融分析能力登顶公开模型 软件工程、多模态全面进阶
Anthropic发布Claude Opus 4.7,重点强化软件工程执行力与复杂任务稳定性,并在金融分析测试中拿下公开模型最高分。新版本多模态能力升级、图像识别分辨率提升,文档与演示生成更具“品味”,同时增强长会话记忆能力;在价格不变下,词元消耗或上升,用户需在性能与成本间权衡。
珞石机器人与南洋理工大学MARS Lab共建具身智能联合创新中心
珞石机器人与南洋理工大学NTU MARS Lab共建具身智能联合创新中心,由杨剑飞教授领衔,聚焦多模态高速推理模型、世界模型长程推演与高质量数据集建设。双方将结合顶尖科研与产业化能力,加速具身智能在工业和服务场景规模落地,推动机器人从“能感知”迈向“会理解、可执行”的商业化发展。
香港用户喜迎谷歌Gemini网页版 图像音乐功能全面开放
香港用户终于迎来谷歌Gemini网页版的全面开放,可使用其多模态AI能力生成图像、音乐及处理复杂任务。此举标志着香港在人工智能应用领域迈出关键一步,助力本地开发者与创意人士提升生产力,同时提醒用户警惕AI生成内容的风险。
OpenAI计划为ChatGPT整合视频生成工具Sora
OpenAI计划将AI视频生成器Sora整合到ChatGPT平台,以拓展多模态AI技术布局,提升用户使用率。这一战略转变预计将带来显著成本增加,推理成本或超2250亿美元。
OpenAI战略升级 ChatGPT将整合视频生成工具Sora
OpenAI计划将视频生成工具Sora整合至ChatGPT平台,以增强其多模态AI能力并推动用户增长。此举旨在应对谷歌和Meta的竞争,同时面临巨大的算力和成本挑战。
DeepSeek V4即将发布 多模态模型或重塑AI格局
DeepSeek即将发布全新多模态模型V4,具备图像、视频和文本生成能力,并全面支持国产算力。同时推出的V4 Lite测试版拥有2000亿参数和100万tokens上下文窗口,原生多模态架构显著提升处理能力。这一系列技术突破将加速AI与本土芯片的融合,为人工智能领域带来新的发展动力。
全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临
全球权威AI基准测试机构Artificial Analysis最新排名显示,快手自研的可灵3.0 Pro模型凭借卓越的视觉质量与逻辑一致性,登顶文生视频赛道全球第一。中国AI展现出集团军优势,前15名中可灵家族占据7席,标志着AI视频生成技术已从玩具质变为生产力工具,正式开启影视级AI时代。
字节调整视频生成服务应对迪士尼侵权指控
字节跳动日本公司宣布调整其视频生成AI模型Seedance2.0的服务,以应对版权侵权风险。该模型因能生成迪士尼、《奥特曼》等未经授权的IP形象视频而受到指控,日本政府已要求企业纠正。事件凸显了生成式AI在技术突破与版权保护间的博弈,数据合规性正成为产品生存的核心标准。
谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流
谷歌于2026年2月25日宣布对其AI创意工作室Flow进行重大升级,深度整合了Whisk与ImageFX项目,并集成了全新的Nano Banana图像模型。此次更新打通了从图像生成到Veo视频制作的工作流,新增了局部编辑、镜头控制等工具,旨在构建统一的多模态创意平台,强化其在AI创意领域的生态竞争力。