TAG:多模态AI

视频生成初创公司PixVerse完成4.39亿美元C轮融资，估值突破20亿美元

PixVerse宣布完成4.39亿美元C轮融资，估值突破20亿美元。文章聚焦其融资背景、核心视频生成技术、产品矩阵与全球化布局，并分析在多模态AI竞争加速下，资本与市场为何持续看好高质量视频生成赛道。

aibase

2026-07-14 10:39

阶跃星辰发布 Step Edge 系列终端模型，实现本地高效多模态处理

阶跃星辰发布 Step Edge 系列终端模型，覆盖文本、图像、音频等多模态能力，支持本地屏幕理解、语音识别、界面操作和图像生成。结合云端协同与自研推理引擎，在提升响应速度的同时增强隐私安全，推动手机、车载等智能终端AI加速落地。

aibase

2026-07-13 15:20

920

日本拟部署1000万台AI机器人应对劳动力危机

日本政府修订《人工智能机器人战略》，计划到2040年在18个行业部署1000万台AI机器人，以应对人口老龄化和低出生率引发的严重劳动力危机。经产省将投入高达1万亿日元（2026财年3873亿日元）支持由软银、NEC、本田、索尼等巨头成立的Noetra联合企业，开发多模态AI大模型与物理AI基础设施，充分发挥日本在机器人制造领域的技术优势，为全球老龄化社会提供重要解决方案。

aibase

2026-07-06 10:51

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT，谁更适合Agent？-资讯中国

本文实测对比Step 3.7 Flash、DeepSeek v4、MiniMax、Gemini 3.5与GPT在Agent场景的真实表现。使用相同提示词和Trae Work工具，完成短视频平台调研PPT自动生成和浏览器信息抓取两大任务。从工具调用准确性、稳定性、速度、成本、输出质量（内容组织与视觉效果）多维度评估。结论显示Step 3.7 Flash在生产级高频Agent中平衡性最佳，国内模型性价比优势明显，为开发者选型提供实战参考。

资讯中国

2026-07-02 19:04

DeepMind CEO 强调团队在 AI 领域领先地位，倡导多模态与安全并重

Google DeepMind CEO 德米斯·哈萨比斯在戛纳广告节上重申公司拥有全球顶尖AI研究团队。他强调通往AGI的路径在于多模态感知与强化学习的深度融合，而非单纯扩大模型规模，并以AI+科学成果为有力证明。面对生成式AI版权争议，他主张AI应赋能创作者而非取代，DeepMind已开源SynthID数字水印技术，并呼吁探索新型版权商业模式。同时强烈呼吁国际社会建立统一AI安全标准与第三方测试机构，避免“先污染后治理”。这一表态为AI行业创新与责任平衡指明方向。

aibase

2026-06-30 10:27

Meta发布新一代AI眼镜：起价299美元，支持26款定制风格与多模态能力升级

6月23日，Meta与依视路陆逊梯卡合作推出新一代智能眼镜Meta Glasses，起售价299美元，提供26种定制风格。作为首款搭载Muse Spark多模态大模型的AI硬件，该眼镜具备手势交互、视觉理解和扩展的实时翻译能力，支持长续航和高品质音频，标志着端侧AI助手在智能可穿戴设备上的重要升级，推动AI眼镜向主流市场融合。

aibase

2026-06-24 10:24

豆包视频生成大模型Seedance 2.5亮相，将于7月初正式发布

在2026火山引擎大会上，字节跳动豆包视频生成大模型Seedance 2.5正式亮相，计划于7月初发布。该模型突破了视频生成时长限制，最高支持30秒视频生成，全球领先；并引入多模态素材处理能力，支持50个素材联合输入和局部重绘功能，极大简化创作流程。同时，配合Seedream5.0Pro图像模型和Seed-Audio1.0音频模型，豆包系列通过多模态协同，强化了在生成式AI领域的优势，有望推动视频创作行业的工业化效率提升。

aibase

2026-06-23 16:41

火山引擎发布豆包Seedance2.5视频模型，方舟大模型服务用户超110万

在2026年6月的夏季FORCE原动力大会上，火山引擎发布了新一代视频生成模型Seedance2.5，该模型具备30秒原生视频直出、多达50个全模态素材联合生成以及画面一致性局部编辑等核心能力突破。同时，火山引擎展示了多模态AI进展和Agent工具升级，并宣布方舟大模型服务用户已超110万，年Token调用量破万亿，覆盖多个支柱产业，标志着大模型正加速从技术演进走向工业级深水区，为企业提供全新的AI工具和解决方案。

aibase

2026-06-23 13:58

572

OpenAI正筹备发布新一代双向语音模型GPT-Bidi-1

OpenAI近日被曝正在筹备推出名为“GPT-Bidi-1”的下一代双向音频模型，这标志着其在语音交互技术上的重大突破。该模型采用双向架构，支持系统同时进行聆听与表达，实时捕捉用户插话并动态调整输出，显著提升了对话的自然度和流畅性。此外，GPT-Bidi-1在语音端引入了智力与速度分级，让用户可根据任务需求平衡交互深度与响应速度。这一技术迭代不仅是音质升级，更是OpenAI补齐多模态战略关键一环，凸显了语音作为下一代AI核心入口的战略野心，为未来语音优先设备和企业工具奠定技术基础。

aibase

2026-06-17 16:17

谷歌发布 Android17 与 Wear OS7，全面集成 Gemini Omni 与 Lyria3 多模态模型

谷歌于6月16日发布了Android17和Wear OS7操作系统，全面集成Gemini Omni多模态模型与Lyria3音乐生成模型。新系统支持通过文本或图像创作音乐、编辑视频，并推出Quick Share跨平台文件共享功能。此外，Android17引入气泡栏UI提升多任务效率，增强安全和家庭管理功能。Wear OS7加入紧急检测和个性化小部件，续航提升10%。这标志着移动操作系统在端侧AI应用生态的深化，为Pixel系列注入新一代AI基础设施，推动智能手机与可穿戴设备竞争进入AI原生驱动新维度。

aibase

2026-06-17 10:14

DoorDash发布Ask DoorDash AI聊天机器人，支持文本与照片跨模态下单

DoorDash于2026年6月11日发布“Ask DoorDash”AI聊天机器人，支持文本和照片直接下单。用户可通过自然语言描述需求，或上传菜谱/购物清单照片，系统自动识别商品并生成购物车；还集成预订咨询功能，帮助用户筛选私人餐厅。首批在iOS端部分地区上线，未来将向全美扩展，标志即时配送服务向对话式多模态AI交互的升级。

aibase

2026-06-12 10:26

多模态AI如何重新定义新能源车险定价？

本文探讨了多模态AI和深度学习如何革新新能源车险定价。通过表征学习技术，如去噪自编码器（DAE）和联合嵌入预测架构（JEPA），从复杂多模态数据中提取关键特征，提升精算模型的精准度和效率。文章结合实战案例，展示了在新能源汽车风险评估、图像理赔、文本处理等领域的应用，为保险行业提供智能化解决方案。

资讯中国

2026-06-05 16:35

微软Build大会发布多款自研MAI模型，350亿参数版本旨在业界领先

微软在Build 2026开发者大会上集中发布了多款自研AI模型，其中首款高级推理模型MAI-Thinking-1拥有350亿参数，在关键基准测试中达到业界领先水平，且完全基于干净数据训练，未使用蒸馏数据，彰显技术自主性。同时，微软扩展了MAI家族，涵盖图像、语音、转写和编码模型，完善了从推理到应用的AI生态闭环，展示了在减少外部依赖方面的战略决心。

aibase

2026-06-03 10:49

xAI面向全球悬赏“最懂中文的声音”，时薪达304元支持远程

xAI公司于2026年6月公开招募中文AI训练师，时薪高达304元并支持远程工作，旨在优化其大模型Grok的语音互动和多语言处理能力。该岗位涉及语音标注、录音和转写，要求候选人具备中文母语水平及口音理解，以在AI多模态竞争中构建技术优势，标志着AI向实时交互的演进。

aibase

2026-06-02 14:34

MiniMax发布M3大模型：首创MSA架构并支持1M上下文，全面开源对标海外旗舰

MiniMax于2026年6月发布前沿开源大模型M3，首创MSA稀疏注意力架构，支持1M超长上下文和原生多模态能力。该模型在性能评测中超越GPT-5.5和Gemini3.1Pro，计算效率显著提升，旨在对标海外闭源旗舰。通过全要素开源，M3为国内开发者提供高性价比选择，打破技术垄断并重塑生态边界。

aibase

2026-06-01 13:00

通知

尊敬的用户

user

TAG:多模态AI

视频生成初创公司PixVerse完成4.39亿美元C轮融资，估值突破20亿美元

阶跃星辰发布 Step Edge 系列终端模型，实现本地高效多模态处理

日本拟部署1000万台AI机器人应对劳动力危机

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT，谁更适合Agent？-资讯中国

DeepMind CEO 强调团队在 AI 领域领先地位，倡导多模态与安全并重

Meta发布新一代AI眼镜：起价299美元，支持26款定制风格与多模态能力升级

豆包视频生成大模型Seedance 2.5亮相，将于7月初正式发布

火山引擎发布豆包Seedance2.5视频模型，方舟大模型服务用户超110万

OpenAI正筹备发布新一代双向语音模型GPT-Bidi-1

谷歌发布 Android17 与 Wear OS7，全面集成 Gemini Omni 与 Lyria3 多模态模型

DoorDash发布Ask DoorDash AI聊天机器人，支持文本与照片跨模态下单

多模态AI如何重新定义新能源车险定价？

微软Build大会发布多款自研MAI模型，350亿参数版本旨在业界领先

xAI面向全球悬赏“最懂中文的声音”，时薪达304元支持远程

MiniMax发布M3大模型：首创MSA架构并支持1M上下文，全面开源对标海外旗舰

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

user

TAG:多模态AI

视频生成初创公司PixVerse完成4.39亿美元C轮融资，估值突破20亿美元

阶跃星辰发布 Step Edge 系列终端模型，实现本地高效多模态处理

日本拟部署1000万台AI机器人应对劳动力危机

Step 3.7 Flash、DeepSeek、MiniMax、Gemini、GPT，谁更适合Agent？-资讯中国

DeepMind CEO 强调团队在 AI 领域领先地位，倡导多模态与安全并重

Meta发布新一代AI眼镜：起价299美元，支持26款定制风格与多模态能力升级

豆包视频生成大模型Seedance 2.5亮相，将于7月初正式发布

火山引擎发布豆包Seedance2.5视频模型，方舟大模型服务用户超110万

OpenAI正筹备发布新一代双向语音模型GPT-Bidi-1

谷歌发布 Android17 与 Wear OS7，全面集成 Gemini Omni 与 Lyria3 多模态模型

DoorDash发布Ask DoorDash AI聊天机器人，支持文本与照片跨模态下单

多模态AI如何重新定义新能源车险定价？

微软Build大会发布多款自研MAI模型，350亿参数版本旨在业界领先

xAI面向全球悬赏“最懂中文的声音”，时薪达304元支持远程

MiniMax发布M3大模型：首创MSA架构并支持1M上下文，全面开源对标海外旗舰

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红 芯片概念股冲高回落 短期风险需警惕

申昊科技拟设具身智能子公司 加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务