TAG:多模态
Step 3.7 Flash重磅发布:Agent效率新时代到来
Step3.7Flash开源模型正式发布,专为Agent时代设计,解决效率、可靠性和多模态执行痛点。它在多项基准测试中领先,如ClawEval-1.1排名第一,提供高速推理(400TPS)和低成本部署。模型能理解视觉内容,自主完成代码生成和工具调用,工具调用成功率高达98%以上。同时,兼容主流Agent框架,支持本地运行,为开发者构建高效、可靠的智能工作流提供强大支持。
阶跃星辰开源 Step 3.7 Flash 大模型 速度翻倍
阶跃星辰正式开源Step 3.7 Flash大模型,专为智能体生产化落地设计。该模型采用稀疏混合专家架构,参数量达196B,生成速度最高每秒400 Tokens,显著提升效率并减少延迟。具备原生多模态理解能力,可解析UI、图表等视觉信息,并增强联网搜索功能。在智能体工作流中表现出高工具调用稳定性和生态兼容性,降低开发门槛,助力复杂任务高效执行。
字节跳动开源Lance 3B:实现图像与视频理解与生成
字节跳动开源了Lance 3B模型,这是一个仅30亿参数的轻量级原生统一多模态大模型。它打破了理解模型与生成模型之间的技术壁垒,能同时处理图像和视频的理解、生成与编辑任务。采用Apache2.0协议,训练高效,性能超越更大模型,有望推动AI短剧、智能体等领域的应用发展,降低多模态AI部署成本。
重构图像生成范式 智象未来原生全模态大模型HiDream-O1-Image登顶AA榜开源首发
智象未来发布的HiDream-O1-Image模型,以8B参数规模登顶Artificial Analysis文生图榜单开源第一。该模型采用原生全模态架构,摒弃传统VAE和独立文本编码器,通过像素级统一Transformer实现端到端生成,减少模态转换损耗。创新性地引入基于Gemma 4的推理智能体,在生成前进行思维链推理,提升指令遵循能力,打破开源图像生成领域稳定格局,推动多模态基础模型发展。
面壁智能推出MiniCPM-V 4.6,低内存高效率的人工智能新选择
面壁智能联合清华大学及OpenBMB开源社区发布了新一代端侧多模态大模型MiniCPM-V 4.6。该模型仅需1.3B参数和6G内存,即可在终端设备上高效运行,支持自然语言处理、图像识别和音频处理等多模态任务,适用于智能家居、机器人等场景。作为开源模型,它促进了技术共享,为人工智能应用提供了低内存高效率的新选择,推动创新并让更多用户享受AI便利。
MiniMax 启动「10x Team」计划,悬赏全球顶尖专家加速国产大模型研发
MiniMax 启动「10x Team」全球人才合作计划,面向顶尖行业专家与开发者开放多模态等核心资源,共同定义行业痛点与评测体系,推动大模型从通用能力走向垂直深度应用,实现行业效率十倍提升,反映国产大模型竞争转向产业落地。
国产大模型Qwen3.6-35B-A3B正式开源,聚焦高效率与多模态思考能力提升
国产大模型Qwen3.6-35B-A3B正式开源,该模型采用创新的MoE架构,实现350亿总参数下仅需激活30亿参数的极致推理效率。其在编程、Agent任务及多模态思考方面表现优异,尤其在空间分析和复杂逻辑处理上极具优势,且已深度兼容主流Agent框架,是开发者本地部署高性能AI底座的理想选择。
小红书开源训练引擎Relax,拓展AI训练基础设施布局
小红书AI平台团队开源大模型强化学习训练引擎Relax,面向全模态与Agentic场景,支持文本、图像、音频、视频统一接入。其模态感知并行与端到端异步流水机制提升训练效率与扩展性。此次开源体现小红书AI工程积累,并借技术贡献布局开发者生态。
MiniMax 开源面向 AI Agent 的命令行工具 MMX-CLI,打破接口壁垒
MiniMax 推出专为 AI Agent 设计的开源命令行工具 MMX-CLI,旨在解决多模态接口适配繁琐的痛点。该工具支持在主流开发环境中一键调度编程、视频生成、语音合成等全模态能力。通过输出隔离、语义化状态码及异步任务控制等深度优化,MMX-CLI 显著提升了 Agent 在非交互环境下的运行稳定性与自动化效率,助力开发者轻松构建复杂的 AI 自动化工作流。
程一笑时隔五年半再谈快手字节竞争
快手科技2025年财报显示,总收入达1428亿元,经调整净利润增长16.5%至206亿元。在AI赛道上,可灵AI商业化加速,年化收入运行率超3亿美元。程一笑回应与字节跳动Seedance2.0的竞争,强调多模态技术的前瞻性布局。2026年快手计划投入约260亿元资本支出,重点聚焦AI模型迭代、Agent能力落地及内容生态智能化。
欧洲AI巨头推出全能模型Mistral Small 4 支持推理多模态编程
Mistral AI 发布全能型大模型 Mistral Small4,首次在单一模型中集成旗舰级推理、多模态理解和编程能力。采用 MoE 架构,拥有 256k 超长上下文窗口,性能较前代提升显著,并以 Apache2.0 协议开源,为开发者提供高效灵活的选择。
开源界重磅发布Mistral Small 4 性能提升更省资源
Mistral AI 正式发布开源大模型 Mistral Small4,采用128专家混合架构,整合了逻辑推理、多模态处理和智能体编码三大能力,性能更强且算力开销更低。支持256k超长上下文窗口和可配置推理强度,为开发者提供高效全能底座。
DeepSeek V4与腾讯混元模型4月同步亮相
据《白鲸实验室》独家消息,DeepSeek V4与腾讯姚顺雨新混元模型将于2026年4月同步发布。DeepSeek V4由梁文锋主导研发,在多模态处理、代码能力和长期记忆方面有显著提升,并深度适配国产芯片。腾讯混元模型则注重实际应用,拥有30亿参数,强调长上下文与Agent可用性。两大模型的发布标志着中国AI领域的快速发展。
OpenAI测试ChatGPT写作模板功能 支持上传样本复刻个人文风
OpenAI正在测试ChatGPT的写作模板功能,用户可上传个人文档样本来复刻独特的文风与表达习惯,标志着AI从通用对齐转向个性化适配。同时,多模态联动与办公场景集成等更新,旨在通过精细化工具套件降低AI的机械感,提升生产力与用户体验。
DeepSeek V4细节曝光:支持百万上下文与原生多模态
DeepSeek V4作为国产AI领军模型,技术细节曝光:具备万亿参数规模、原生多模态处理能力以及高达100万token的上下文窗口,可一次性处理超长文本或代码库。模型优先适配国产算力平台,发布在即,预计将冲击全球AI竞争格局。