TAG:多模态AI

香港用户喜迎谷歌Gemini网页版 图像音乐功能全面开放

香港用户喜迎谷歌Gemini网页版 图像音乐功能全面开放

香港用户终于迎来谷歌Gemini网页版的全面开放,可使用其多模态AI能力生成图像、音乐及处理复杂任务。此举标志着香港在人工智能应用领域迈出关键一步,助力本地开发者与创意人士提升生产力,同时提醒用户警惕AI生成内容的风险。

2026-03-16 17:42
0
0

OpenAI计划为ChatGPT整合视频生成工具Sora

OpenAI计划为ChatGPT整合视频生成工具Sora

OpenAI计划将AI视频生成器Sora整合到ChatGPT平台,以拓展多模态AI技术布局,提升用户使用率。这一战略转变预计将带来显著成本增加,推理成本或超2250亿美元。

2026-03-15 20:07
0
0

OpenAI战略升级 ChatGPT将整合视频生成工具Sora

OpenAI战略升级 ChatGPT将整合视频生成工具Sora

OpenAI计划将视频生成工具Sora整合至ChatGPT平台,以增强其多模态AI能力并推动用户增长。此举旨在应对谷歌和Meta的竞争,同时面临巨大的算力和成本挑战。

2026-03-11 16:58
0
0

DeepSeek V4即将发布 多模态模型或重塑AI格局

DeepSeek V4即将发布 多模态模型或重塑AI格局

DeepSeek即将发布全新多模态模型V4,具备图像、视频和文本生成能力,并全面支持国产算力。同时推出的V4 Lite测试版拥有2000亿参数和100万tokens上下文窗口,原生多模态架构显著提升处理能力。这一系列技术突破将加速AI与本土芯片的融合,为人工智能领域带来新的发展动力。

2026-03-02 10:44
0
0

全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临

全球视频大模型竞技:快手可灵3.0夺冠,7款模型跻身前15,影视级AI时代来临

全球权威AI基准测试机构Artificial Analysis最新排名显示,快手自研的可灵3.0 Pro模型凭借卓越的视觉质量与逻辑一致性,登顶文生视频赛道全球第一。中国AI展现出集团军优势,前15名中可灵家族占据7席,标志着AI视频生成技术已从玩具质变为生产力工具,正式开启影视级AI时代。

2026-02-27 14:15
33
0

字节调整视频生成服务应对迪士尼侵权指控

字节调整视频生成服务应对迪士尼侵权指控

字节跳动日本公司宣布调整其视频生成AI模型Seedance2.0的服务,以应对版权侵权风险。该模型因能生成迪士尼、《奥特曼》等未经授权的IP形象视频而受到指控,日本政府已要求企业纠正。事件凸显了生成式AI在技术突破与版权保护间的博弈,数据合规性正成为产品生存的核心标准。

2026-02-26 16:10
1
0

谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流

谷歌推出新Flow:整合Nano Banana模型与Veo视频工作流

谷歌于2026年2月25日宣布对其AI创意工作室Flow进行重大升级,深度整合了Whisk与ImageFX项目,并集成了全新的Nano Banana图像模型。此次更新打通了从图像生成到Veo视频制作的工作流,新增了局部编辑、镜头控制等工具,旨在构建统一的多模态创意平台,强化其在AI创意领域的生态竞争力。

2026-02-26 10:49
43
0

春晚AI技术突围

春晚AI技术突围

文章聚焦字节跳动在2026年春晚中的AI技术突破,通过豆包大模型、Seedance 2.0视频生成模型等,成功将水墨画动态化、实现8K超高清输出,并支撑了19亿次AI互动。这标志着国产AI在多模态应用和规模化落地方面取得关键进展,从舞台视觉到机器人交互,展现了技术深度融入文化创作与产业实践的潜力。

2026-02-18 20:03
6
0

字节发布大模型,实力亮相

字节发布大模型,实力亮相

字节跳动于2月14日正式发布豆包大模型2.0,包含Pro、Lite、Mini三款通用Agent模型和Code模型,针对不同业务场景优化。Pro版对标GPT 5.2与Gemini 3 Pro,具备深度推理能力;Code版专为编程设计。模型在图片识别、多模态理解等方面表现优秀,已上线豆包App及火山引擎API服务。同时,视频生成模型Seedance 2.0也已发布,支持原声音画同步。

2026-02-14 18:16
7
0

字节跳动推出豆包大模型2.0对标GPT 5.2与Gemini 3 Pro

字节跳动推出豆包大模型2.0对标GPT 5.2与Gemini 3 Pro

字节跳动于2月14日正式发布豆包大模型2.0,该模型围绕大规模生产环境需求进行优化,具备高效推理、多模态理解和复杂指令执行能力。其Pro版本对标GPT 5.2与Gemini 3 Pro,专为深度推理与长链路任务设计,同时提供Lite、Mini及Code版以满足不同场景需求。模型已上线豆包App及火山引擎API服务。

2026-02-14 15:16
13
0

Seedance2.0上线内测引发海内外关注

Seedance2.0上线内测引发海内外关注

字节跳动新一代AI视频生成模型Seedance2.0开启内测,凭借其多模态创作、自动运镜和单指令生成连贯多场景的突破性能力,在全球引发热议。该模型能根据文字或图像生成带原生音轨的多镜头视频,效果逼真如好莱坞大片,大幅降低了专业视频创作门槛,展现了国内AI技术的领先实力。

2026-02-11 18:58
1
0

字节新AI产品Seedance2.0引爆海内外 哪些行业将被颠覆?

字节新AI产品Seedance2.0引爆海内外 哪些行业将被颠覆?

字节跳动推出的Seedance2.0 AI视频生成模型近期引发广泛关注,它能够根据文本或图像在60秒内生成带有原生音频的多镜头序列视频,并具备独特的连贯叙事能力。该模型在分镜、运动控制等方面表现突出,被业内视为可能颠覆影视、短剧等内容创作行业的重要技术突破。

2026-02-09 14:40
39
0

语音AI巨头ElevenLabs获5亿美元融资 估值升至110亿美元

语音AI巨头ElevenLabs获5亿美元融资 估值升至110亿美元

全球领先的语音AI公司ElevenLabs宣布完成5亿美元融资,估值飙升至110亿美元,相比一年前增长超三倍。公司年经常性收入已达3.3亿美元,展现出强劲的商业化能力。本轮融资由红杉资本领投,资金将用于产品研发、全球市场扩张以及从语音模型向多模态智能代理的战略升级,旨在革新人机交互方式。

2026-02-05 11:39
8
0

上海AI实验室开源全球最大科学多模态模型Intern-S1-Pro

上海AI实验室开源全球最大科学多模态模型Intern-S1-Pro

上海人工智能实验室开源了全球最大的科学多模态模型Intern-S1-Pro,拥有万亿参数,基于创新的SAGE架构和混合专家技术,在数理推理和科研任务中达到国际领先水平,标志着从模型架构到国产算力自主技术的完整突破。

2026-02-05 10:47
50
0

三星发布2026年多模态AI智能眼镜计划

三星发布2026年多模态AI智能眼镜计划

三星宣布将于2026年推出多模态AI智能眼镜,重点从传统显示转向深度理解现实环境。该设备通过融合视觉、语音等多模态输入,实现AI与物理世界的沉浸式交互,旨在成为继智能手机后的下一代核心交互终端。此举标志着三星正式加入与苹果、Meta在XR领域的竞争。

2026-01-30 11:02
0
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/