TAG:多模态AI

商汤科技发布日日新 SenseNova 6.7 Flash-Lite,多模态能力实现跨越式升级

商汤科技发布日日新 SenseNova 6.7 Flash-Lite,多模态能力实现跨越式升级

商汤科技发布新一代轻量化多模态智能体模型日日新 SenseNova 6.7 Flash-Lite,专为真实世界工作流设计。该模型通过原生多模态架构,直接识读复杂文档和图表,实现视觉理解与逻辑决策一体化,在数据分析、调研和PPT生成等办公场景中表现高效。其Token消耗降低60%,响应达毫秒级,同时通过免费调用活动和开源技能包,助力开发者构建智能体应用。

2026-05-08 12:02
80
0

TikTok撤回视频摘要AI功能,因频繁出现“蓝莓”等严重幻觉

TikTok撤回视频摘要AI功能,因频繁出现“蓝莓”等严重幻觉

TikTok近期暂停了其AI视频摘要功能的测试,因为该功能在实际应用中频繁出现严重错误,如将视频内容误识别为‘蓝莓’等幻觉现象。这一事件凸显了当前多模态AI在处理动态视觉信息时面临的技术瓶颈,包括逻辑关联断裂和语义识别错误。文章分析了这一案例对行业的影响,指出AI工具正从追求全能描述转向垂直应用,以提高实用性和商业确定性。

2026-05-07 10:49
0
0

中文视觉大模型竞争格局生变:豆包领先,国产实力全面反超

中文视觉大模型竞争格局生变:豆包领先,国产实力全面反超

SuperCLUE-VLM最新测评显示,中文视觉大模型竞争格局生变:字节豆包以90.66分登顶,超越谷歌Gemini,阿里、商汤、智谱等国产模型也整体表现亮眼。文章同时指出,国产模型虽在基础认知与数据分析上领先,但在视觉推理和专业应用场景仍有提升空间。

2026-04-29 10:47
0
0

Soul 开源实时数字人生成模型SoulXFlashTalk 实现亚秒级延迟

Soul 开源实时数字人生成模型SoulXFlashTalk 实现亚秒级延迟

本文介绍Soul AI Lab开源业内首个14亿参数实时数字人生成模型SoulXFlashTalk,该模型可实现亚秒级延迟与32帧高帧率,开放相关资源能有效降低行业研发门槛,此举完善了Soul“语音+视觉”双模态开源布局,未来将持续推进开源战略,推动AI与社交等多领域的创新发展。

2026-04-24 10:59
71
0

谷歌推出 Gemini 3.1 Pro 深度研究代理,支持 MCP 协议与多模态自主研究

谷歌推出 Gemini 3.1 Pro 深度研究代理,支持 MCP 协议与多模态自主研究

谷歌发布基于 Gemini3.1Pro 的 Deep Research 与 Deep Research Max 两款自主研究代理,支持 MCP 协议、多模态输入与原生可视化,可在开放网络和专有数据库间协同检索并进行长时推理。产品面向实时对话与深度异步研究双场景,凸显 AI 从搜索工具向自主分析助手升级。

2026-04-22 11:31
83
0

Anthropic发布Claude Opus 4.7:金融分析能力登顶公开模型 软件工程、多模态全面进阶

Anthropic发布Claude Opus 4.7:金融分析能力登顶公开模型 软件工程、多模态全面进阶

Anthropic发布Claude Opus 4.7,重点强化软件工程执行力与复杂任务稳定性,并在金融分析测试中拿下公开模型最高分。新版本多模态能力升级、图像识别分辨率提升,文档与演示生成更具“品味”,同时增强长会话记忆能力;在价格不变下,词元消耗或上升,用户需在性能与成本间权衡。

2026-04-17 10:15
84
0

珞石机器人与南洋理工大学MARS Lab共建具身智能联合创新中心

珞石机器人与南洋理工大学MARS Lab共建具身智能联合创新中心

珞石机器人与南洋理工大学NTU MARS Lab共建具身智能联合创新中心,由杨剑飞教授领衔,聚焦多模态高速推理模型、世界模型长程推演与高质量数据集建设。双方将结合顶尖科研与产业化能力,加速具身智能在工业和服务场景规模落地,推动机器人从“能感知”迈向“会理解、可执行”的商业化发展。

2026-04-16 11:06
0
0

香港用户喜迎谷歌Gemini网页版 图像音乐功能全面开放

香港用户喜迎谷歌Gemini网页版 图像音乐功能全面开放

香港用户终于迎来谷歌Gemini网页版的全面开放,可使用其多模态AI能力生成图像、音乐及处理复杂任务。此举标志着香港在人工智能应用领域迈出关键一步,助力本地开发者与创意人士提升生产力,同时提醒用户警惕AI生成内容的风险。

2026-03-16 17:42
0
0

OpenAI计划为ChatGPT整合视频生成工具Sora

OpenAI计划为ChatGPT整合视频生成工具Sora

OpenAI计划将AI视频生成器Sora整合到ChatGPT平台,以拓展多模态AI技术布局,提升用户使用率。这一战略转变预计将带来显著成本增加,推理成本或超2250亿美元。

2026-03-15 20:07
0
0

OpenAI战略升级 ChatGPT将整合视频生成工具Sora

OpenAI战略升级 ChatGPT将整合视频生成工具Sora

OpenAI计划将视频生成工具Sora整合至ChatGPT平台,以增强其多模态AI能力并推动用户增长。此举旨在应对谷歌和Meta的竞争,同时面临巨大的算力和成本挑战。

2026-03-11 16:58
0
0

DeepSeek V4即将发布 多模态模型或重塑AI格局

DeepSeek V4即将发布 多模态模型或重塑AI格局

DeepSeek即将发布全新多模态模型V4,具备图像、视频和文本生成能力,并全面支持国产算力。同时推出的V4 Lite测试版拥有2000亿参数和100万tokens上下文窗口,原生多模态架构显著提升处理能力。这一系列技术突破将加速AI与本土芯片的融合,为人工智能领域带来新的发展动力。

2026-03-02 10:44
0
0

全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临

全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临

全球权威AI基准测试机构Artificial Analysis最新排名显示,快手自研的可灵3.0 Pro模型凭借卓越的视觉质量与逻辑一致性,登顶文生视频赛道全球第一。中国AI展现出集团军优势,前15名中可灵家族占据7席,标志着AI视频生成技术已从玩具质变为生产力工具,正式开启影视级AI时代。

2026-02-27 14:15
33
0

字节调整视频生成服务应对迪士尼侵权指控

字节调整视频生成服务应对迪士尼侵权指控

字节跳动日本公司宣布调整其视频生成AI模型Seedance2.0的服务,以应对版权侵权风险。该模型因能生成迪士尼、《奥特曼》等未经授权的IP形象视频而受到指控,日本政府已要求企业纠正。事件凸显了生成式AI在技术突破与版权保护间的博弈,数据合规性正成为产品生存的核心标准。

2026-02-26 16:10
1
0

谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流

谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流

谷歌于2026年2月25日宣布对其AI创意工作室Flow进行重大升级,深度整合了Whisk与ImageFX项目,并集成了全新的Nano Banana图像模型。此次更新打通了从图像生成到Veo视频制作的工作流,新增了局部编辑、镜头控制等工具,旨在构建统一的多模态创意平台,强化其在AI创意领域的生态竞争力。

2026-02-26 10:49
43
0

春晚AI技术突围

春晚AI技术突围

文章聚焦字节跳动在2026年春晚中的AI技术突破,通过豆包大模型、Seedance 2.0视频生成模型等,成功将水墨画动态化、实现8K超高清输出,并支撑了19亿次AI互动。这标志着国产AI在多模态应用和规模化落地方面取得关键进展,从舞台视觉到机器人交互,展现了技术深度融入文化创作与产业实践的潜力。

2026-02-18 20:03
6
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agentren.cn/