TAG:多模态
小红书开源训练引擎Relax,拓展AI训练基础设施布局
小红书AI平台团队开源大模型强化学习训练引擎Relax,面向全模态与Agentic场景,支持文本、图像、音频、视频统一接入。其模态感知并行与端到端异步流水机制提升训练效率与扩展性。此次开源体现小红书AI工程积累,并借技术贡献布局开发者生态。
MiniMax 开源面向 AI Agent 的命令行工具 MMX-CLI,打破接口壁垒
MiniMax 推出专为 AI Agent 设计的开源命令行工具 MMX-CLI,旨在解决多模态接口适配繁琐的痛点。该工具支持在主流开发环境中一键调度编程、视频生成、语音合成等全模态能力。通过输出隔离、语义化状态码及异步任务控制等深度优化,MMX-CLI 显著提升了 Agent 在非交互环境下的运行稳定性与自动化效率,助力开发者轻松构建复杂的 AI 自动化工作流。
程一笑时隔五年半再谈快手字节竞争
快手科技2025年财报显示,总收入达1428亿元,经调整净利润增长16.5%至206亿元。在AI赛道上,可灵AI商业化加速,年化收入运行率超3亿美元。程一笑回应与字节跳动Seedance2.0的竞争,强调多模态技术的前瞻性布局。2026年快手计划投入约260亿元资本支出,重点聚焦AI模型迭代、Agent能力落地及内容生态智能化。
欧洲AI巨头推出全能模型Mistral Small 4 支持推理多模态编程
Mistral AI 发布全能型大模型 Mistral Small4,首次在单一模型中集成旗舰级推理、多模态理解和编程能力。采用 MoE 架构,拥有 256k 超长上下文窗口,性能较前代提升显著,并以 Apache2.0 协议开源,为开发者提供高效灵活的选择。
开源界重磅发布Mistral Small 4 性能提升更省资源
Mistral AI 正式发布开源大模型 Mistral Small4,采用128专家混合架构,整合了逻辑推理、多模态处理和智能体编码三大能力,性能更强且算力开销更低。支持256k超长上下文窗口和可配置推理强度,为开发者提供高效全能底座。
DeepSeek V4与腾讯混元模型4月同步亮相
据《白鲸实验室》独家消息,DeepSeek V4与腾讯姚顺雨新混元模型将于2026年4月同步发布。DeepSeek V4由梁文锋主导研发,在多模态处理、代码能力和长期记忆方面有显著提升,并深度适配国产芯片。腾讯混元模型则注重实际应用,拥有30亿参数,强调长上下文与Agent可用性。两大模型的发布标志着中国AI领域的快速发展。
OpenAI测试ChatGPT写作模板功能 支持上传样本复刻个人文风
OpenAI正在测试ChatGPT的写作模板功能,用户可上传个人文档样本来复刻独特的文风与表达习惯,标志着AI从通用对齐转向个性化适配。同时,多模态联动与办公场景集成等更新,旨在通过精细化工具套件降低AI的机械感,提升生产力与用户体验。
DeepSeek V4细节曝光:支持百万上下文与原生多模态
DeepSeek V4作为国产AI领军模型,技术细节曝光:具备万亿参数规模、原生多模态处理能力以及高达100万token的上下文窗口,可一次性处理超长文本或代码库。模型优先适配国产算力平台,发布在即,预计将冲击全球AI竞争格局。
腾讯混元迎顶级科学家庞天宇,领衔多模态强化学习
清华大学博士、前新加坡Sea AI Lab高级研究科学家庞天宇正式加盟腾讯,出任混元多模态部首席研究科学家,将重点负责强化学习技术的研究与突破,助力混元大模型在多模态领域的深度演进。此次加盟是腾讯AI人才战略的重要布局,展现了其在核心技术研发上的坚定投入。
腾讯混元图像3.0开源,800亿参数引领AI创作新纪元
腾讯混元团队正式开源全球最强开源图生图模型——混元图像3.0,拥有800亿参数,采用混合专家架构,在LMArena榜单中位列第一梯队。模型通过‘先思考,后编辑’的核心技术,深度融合文本与视觉理解,支持增删改、风格变换、老照片修复等多种编辑功能,适用于从普通用户到专业设计师的广泛场景。
Kimi K2.5低调发布 视觉与工具调用能力双提升
Kimi K2.5已悄然上线,带来视觉与工具调用双升级。新版本原生支持图像分析,可基于图片生成3D模型,并增强工具调用功能,提升在数学、编程等复杂任务中的推理能力。用户反馈性能惊艳,开源社区期待高涨,标志着Moonshot AI在AI领域的持续创新。
枢途开源HORA数据集:10万轨迹全视频采集,赋能通用具身训练
枢途科技发布业界首个从真实场景人类视频中提取的多模态具身智能数据集HORA,包含15万条高质量轨迹,覆盖多种实际应用场景。该数据集基于SynaData技术构建,支持毫米级轨迹提取和跨本体适配,有效解决传统数据采集成本高、通用性差的问题,为机器人技能训练提供完整、可直接使用的数据基础。
长跑型AI亮相:Jan团队推出Jan-v2-VL,提升多步任务执行能力
Jan团队发布Jan-v2-VL-Max多模态大模型,专注于解决AI在长周期执行任务中的稳定性问题。该30B参数模型采用LoRA-based RLVR技术,有效减少多步操作误差累积,抑制幻觉现象,在幻象递减回报基准测试中超越Gemini2.5Pro等模型,适用于Agent自动化、UI控制等复杂场景,支持网页体验和本地私有化部署。
MiniMax通过港交所聆讯 AI应用加速落地普及
国产大模型企业MiniMax已通过港交所聆讯,计划于2026年上市,有望成为全球最快IPO的AI公司。公司服务全球超2亿用户和10万家企业,实现可持续盈利。文章分析了多模态大模型的技术进步与商业化前景,并提及了值得买、巨人网络等上市公司与MiniMax的合作关系。
谭待对话火山引擎:大模型深入复杂场景
火山引擎总裁谭待在Force原动力大会上分享了对大模型产业发展的最新洞察。文章探讨了多模态技术如何推动AI从对话走向执行,Agent开发成为落地关键瓶颈,以及AI原生架构如何围绕Agent重构云基础设施。谭待还分析了从Token计费到Agent商业模式的演进趋势,为行业提供了商业化路径的思考。