TAG:多模态AI
香港用户喜迎谷歌Gemini网页版 图像音乐功能全面开放
香港用户终于迎来谷歌Gemini网页版的全面开放,可使用其多模态AI能力生成图像、音乐及处理复杂任务。此举标志着香港在人工智能应用领域迈出关键一步,助力本地开发者与创意人士提升生产力,同时提醒用户警惕AI生成内容的风险。
OpenAI计划为ChatGPT整合视频生成工具Sora
OpenAI计划将AI视频生成器Sora整合到ChatGPT平台,以拓展多模态AI技术布局,提升用户使用率。这一战略转变预计将带来显著成本增加,推理成本或超2250亿美元。
OpenAI战略升级 ChatGPT将整合视频生成工具Sora
OpenAI计划将视频生成工具Sora整合至ChatGPT平台,以增强其多模态AI能力并推动用户增长。此举旨在应对谷歌和Meta的竞争,同时面临巨大的算力和成本挑战。
DeepSeek V4即将发布 多模态模型或重塑AI格局
DeepSeek即将发布全新多模态模型V4,具备图像、视频和文本生成能力,并全面支持国产算力。同时推出的V4 Lite测试版拥有2000亿参数和100万tokens上下文窗口,原生多模态架构显著提升处理能力。这一系列技术突破将加速AI与本土芯片的融合,为人工智能领域带来新的发展动力。
全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临
全球权威AI基准测试机构Artificial Analysis最新排名显示,快手自研的可灵3.0 Pro模型凭借卓越的视觉质量与逻辑一致性,登顶文生视频赛道全球第一。中国AI展现出集团军优势,前15名中可灵家族占据7席,标志着AI视频生成技术已从玩具质变为生产力工具,正式开启影视级AI时代。
字节调整视频生成服务应对迪士尼侵权指控
字节跳动日本公司宣布调整其视频生成AI模型Seedance2.0的服务,以应对版权侵权风险。该模型因能生成迪士尼、《奥特曼》等未经授权的IP形象视频而受到指控,日本政府已要求企业纠正。事件凸显了生成式AI在技术突破与版权保护间的博弈,数据合规性正成为产品生存的核心标准。
谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流
谷歌于2026年2月25日宣布对其AI创意工作室Flow进行重大升级,深度整合了Whisk与ImageFX项目,并集成了全新的Nano Banana图像模型。此次更新打通了从图像生成到Veo视频制作的工作流,新增了局部编辑、镜头控制等工具,旨在构建统一的多模态创意平台,强化其在AI创意领域的生态竞争力。
字节发布大模型,实力亮相
字节跳动于2月14日正式发布豆包大模型2.0,包含Pro、Lite、Mini三款通用Agent模型和Code模型,针对不同业务场景优化。Pro版对标GPT 5.2与Gemini 3 Pro,具备深度推理能力;Code版专为编程设计。模型在图片识别、多模态理解等方面表现优秀,已上线豆包App及火山引擎API服务。同时,视频生成模型Seedance 2.0也已发布,支持原声音画同步。
字节跳动推出豆包大模型2.0对标GPT 5.2与Gemini 3 Pro
字节跳动于2月14日正式发布豆包大模型2.0,该模型围绕大规模生产环境需求进行优化,具备高效推理、多模态理解和复杂指令执行能力。其Pro版本对标GPT 5.2与Gemini 3 Pro,专为深度推理与长链路任务设计,同时提供Lite、Mini及Code版以满足不同场景需求。模型已上线豆包App及火山引擎API服务。
Seedance2.0上线内测引发海内外关注
字节跳动新一代AI视频生成模型Seedance2.0开启内测,凭借其多模态创作、自动运镜和单指令生成连贯多场景的突破性能力,在全球引发热议。该模型能根据文字或图像生成带原生音轨的多镜头视频,效果逼真如好莱坞大片,大幅降低了专业视频创作门槛,展现了国内AI技术的领先实力。
字节新AI产品Seedance2.0引爆海内外 哪些行业将被颠覆?
字节跳动推出的Seedance2.0 AI视频生成模型近期引发广泛关注,它能够根据文本或图像在60秒内生成带有原生音频的多镜头序列视频,并具备独特的连贯叙事能力。该模型在分镜、运动控制等方面表现突出,被业内视为可能颠覆影视、短剧等内容创作行业的重要技术突破。
语音AI巨头ElevenLabs获5亿美元融资 估值升至110亿美元
全球领先的语音AI公司ElevenLabs宣布完成5亿美元融资,估值飙升至110亿美元,相比一年前增长超三倍。公司年经常性收入已达3.3亿美元,展现出强劲的商业化能力。本轮融资由红杉资本领投,资金将用于产品研发、全球市场扩张以及从语音模型向多模态智能代理的战略升级,旨在革新人机交互方式。
上海AI实验室开源全球最大科学多模态模型Intern-S1-Pro
上海人工智能实验室开源了全球最大的科学多模态模型Intern-S1-Pro,拥有万亿参数,基于创新的SAGE架构和混合专家技术,在数理推理和科研任务中达到国际领先水平,标志着从模型架构到国产算力自主技术的完整突破。
三星发布2026年多模态AI智能眼镜计划
三星宣布将于2026年推出多模态AI智能眼镜,重点从传统显示转向深度理解现实环境。该设备通过融合视觉、语音等多模态输入,实现AI与物理世界的沉浸式交互,旨在成为继智能手机后的下一代核心交互终端。此举标志着三星正式加入与苹果、Meta在XR领域的竞争。