TAG:大模型推理

Mac用户福音:Ollama整合苹果MLX框架 推理提速一倍 M5芯片性能飙升

Mac用户福音:Ollama整合苹果MLX框架 推理提速一倍 M5芯片性能飙升

Ollama 正式集成苹果 MLX 框架,大幅提升 Mac 上本地大模型推理性能,M5 芯片机型响应速度最高翻倍,长对话体验流畅,开启本地 AI 助手的毫秒级时代。开发者迎来软硬协同新红利。

2026-04-01 10:47
0
0

谷歌发布TurboQuant技术 大模型内存占用锐减六成

谷歌发布TurboQuant技术 大模型内存占用锐减六成

谷歌研究院推出革命性AI内存压缩技术TurboQuant,可在不损失精度的前提下将大模型KV缓存占用缩减至1/6,并实现最高8倍的推理速度提升。该技术适配Gemma、Mistral等主流模型,显著降低部署成本,推动AI在长文本处理与复杂对话中的应用突破。

2026-03-26 13:58
0
0

DeepSeek发布新论文 模型V4引关注

DeepSeek发布新论文 模型V4引关注

DeepSeek团队联合北大、清华发布新论文,提出名为DualPath的创新推理系统,通过优化KV-Cache读取机制,显著提升大模型在智能体任务中的推理速度。该系统将离线推理吞吐量最高提升1.87倍,在线服务性能平均提升1.96倍,为解决AI智能体实际应用中的性能瓶颈提供了高效解决方案。

2026-02-27 16:54
17
0

国产算力再攀高峰 摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

国产算力再攀高峰 摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程与硅基流动基于国产GPU MTT S5000,成功完成对千亿参数大模型DeepSeek V3 671B的高效适配与推理验证。通过创新应用FP8低精度推理技术,单卡性能表现亮眼,推理速度逼近国际顶尖水平,标志着国产AI算力生态从“能跑”迈向“高效跑”的关键突破,为关键领域提供了高性价比、高安全性的本土化AI部署选项。

2026-01-22 10:29
26
0

摩尔线程张建中谈大模型推理三大挑战

摩尔线程张建中谈大模型推理三大挑战

摩尔线程创始人张建中在首届MUSA开发者大会上指出,当前大模型推理面临迭代高速化、服务极致化和模型复杂化三大挑战,揭示了AI技术发展的关键瓶颈。

2025-12-20 19:41
9
0

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

本次直播将深入探讨大模型复杂推理技术的最新进展,重点介绍DeepSeek-R1等模型如何通过强化学习实现长思维链推理。中国人民大学赵鑫教授将分享慢思考技术的研究成果,施普林格·自然编辑总监常兰兰博士将介绍2025年人工智能图书资源。活动还将提供与大模型专家交流的机会,并有机会获得专业书籍和周边礼品。

2025-08-28 21:20
15
0

推荐专栏

爱力方

爱力方

机器人前沿资讯及信息解读
机器人大讲堂

机器人大讲堂

中国顶尖的机器人专业媒体服务平台
关注爱力方,掌握前沿具身智能动态

© 2025 A³·爱力方

https://www.agent.ren/