TAG:大模型推理

北大与DeepSeek联合开源大模型推理框架DSpark，实现算力提速关键突破

北京大学与DeepSeek联合开源DSpark大模型推理加速框架。该框架针对高并发自回归生成中的响应延迟与算力浪费痛点，创新采用半自回归架构（2层Transformer优于5层并行模型）与置信度调度验证机制。在代码、数学、对话等多场景测试中显著优于Eagle3和DFlash，尤其擅长长序列生成。已落地DeepSeek-V4服务并全面开源代码、权重及工具，为行业提供低成本高性能推理技术范式。

aibase

2026-06-29 10:36

DeepSeek发表重磅论文，提出两项互补机制，大模型推理最高提速85%

DeepSeek联合北大提出DSpark推测解码框架，通过半自回归生成架构与置信度调度验证两项互补机制，实现大模型推理速度提升60%-85%。该技术已部署于V4系列及Qwen、Gemma等主流模型，配套开源DeepSpec全栈代码库，有效降低中小企业大模型落地门槛。

财联社

2026-06-28 17:23

字节跳动加大量采购国产芯片，互联网大厂竞速搭建算力护城河

文章聚焦字节跳动加量采购国产AI芯片、扩充数据中心算力版图，分析互联网大厂为何加速搭建多供应商算力体系。内容指出AI产业正从训练转向推理驱动，国产芯片在推理场景进入规模化部署窗口，未来竞争核心将聚焦更低的Token成本与更强的算力自主可控能力。

中国能源网

2026-06-18 14:59

智谱联合清华等提出ZCube组网架构，大模型推理吞吐提升15%，网络成本削减三分之一

智谱联合清华大学等在ACM SIGCOMM 2025上提出ZCube网络架构，针对大模型推理中的网络瓶颈。该架构采用扁平化设计，取消Spine层交换机，实现流量负载均衡。在GLM-5.1coding生产环境中，ZCube使GPU推理吞吐提升15%，首Token时延降低40.6%，同时网络成本削减33%。这标志着智算基础设施从通用互联向模型流量驱动的系统协同转变，为大规模AI推理提供了高效经济的解决方案。

aibase

2026-05-21 11:45

Moonshot AI联合清华大学发布PrfaaS架构，破解大模型算力瓶颈

Moonshot AI与清华大学联合发布了PrfaaS（预填充即服务）架构，旨在破解大模型推理中的算力瓶颈。该架构通过解耦预填充与解码阶段，将计算密集型任务卸载至专用集群，并配合双时间尺度调度机制优化资源利用。实测显示，该方案可提升54%的服务吞吐量并显著降低延迟，为未来跨地域算力网络的构建和AI工业化应用奠定了坚实的技术基础。

aibase

2026-04-20 15:33

Mac用户福音：Ollama整合苹果MLX框架推理提速一倍 M5芯片性能飙升

Ollama 正式集成苹果 MLX 框架，大幅提升 Mac 上本地大模型推理性能，M5 芯片机型响应速度最高翻倍，长对话体验流畅，开启本地 AI 助手的毫秒级时代。开发者迎来软硬协同新红利。

aibase

2026-04-01 10:47

谷歌发布TurboQuant技术大模型内存占用锐减六成

谷歌研究院推出革命性AI内存压缩技术TurboQuant，可在不损失精度的前提下将大模型KV缓存占用缩减至1/6，并实现最高8倍的推理速度提升。该技术适配Gemma、Mistral等主流模型，显著降低部署成本，推动AI在长文本处理与复杂对话中的应用突破。

aibase

2026-03-26 13:58

DeepSeek发布新论文模型V4引关注

DeepSeek团队联合北大、清华发布新论文，提出名为DualPath的创新推理系统，通过优化KV-Cache读取机制，显著提升大模型在智能体任务中的推理速度。该系统将离线推理吞吐量最高提升1.87倍，在线服务性能平均提升1.96倍，为解决AI智能体实际应用中的性能瓶颈提供了高效解决方案。

中国能源网

2026-02-27 16:54

国产算力再攀高峰摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程与硅基流动基于国产GPU MTT S5000，成功完成对千亿参数大模型DeepSeek V3 671B的高效适配与推理验证。通过创新应用FP8低精度推理技术，单卡性能表现亮眼，推理速度逼近国际顶尖水平，标志着国产AI算力生态从“能跑”迈向“高效跑”的关键突破，为关键领域提供了高性价比、高安全性的本土化AI部署选项。

aibase

2026-01-22 10:29

摩尔线程张建中谈大模型推理三大挑战

摩尔线程创始人张建中在首届MUSA开发者大会上指出，当前大模型推理面临迭代高速化、服务极致化和模型复杂化三大挑战，揭示了AI技术发展的关键瓶颈。

每日经济新闻

2025-12-20 19:41

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

本次直播将深入探讨大模型复杂推理技术的最新进展，重点介绍DeepSeek-R1等模型如何通过强化学习实现长思维链推理。中国人民大学赵鑫教授将分享慢思考技术的研究成果，施普林格·自然编辑总监常兰兰博士将介绍2025年人工智能图书资源。活动还将提供与大模型专家交流的机会，并有机会获得专业书籍和周边礼品。

机器人大讲堂

2025-08-28 21:20

通知

尊敬的用户

user

TAG:大模型推理

北大与DeepSeek联合开源大模型推理框架DSpark，实现算力提速关键突破

DeepSeek发表重磅论文，提出两项互补机制，大模型推理最高提速85%

字节跳动加大量采购国产芯片，互联网大厂竞速搭建算力护城河

智谱联合清华等提出ZCube组网架构，大模型推理吞吐提升15%，网络成本削减三分之一

Moonshot AI联合清华大学发布PrfaaS架构，破解大模型算力瓶颈

Mac用户福音：Ollama整合苹果MLX框架推理提速一倍 M5芯片性能飙升

谷歌发布TurboQuant技术大模型内存占用锐减六成

DeepSeek发布新论文模型V4引关注

国产算力再攀高峰摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程张建中谈大模型推理三大挑战

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

user

TAG:大模型推理

北大与DeepSeek联合开源大模型推理框架DSpark，实现算力提速关键突破

DeepSeek发表重磅论文，提出两项互补机制，大模型推理最高提速85%

字节跳动加大量采购国产芯片，互联网大厂竞速搭建算力护城河

智谱联合清华等提出ZCube组网架构，大模型推理吞吐提升15%，网络成本削减三分之一

Moonshot AI联合清华大学发布PrfaaS架构，破解大模型算力瓶颈

Mac用户福音：Ollama整合苹果MLX框架 推理提速一倍 M5芯片性能飙升

谷歌发布TurboQuant技术 大模型内存占用锐减六成

DeepSeek发布新论文 模型V4引关注

国产算力再攀高峰 摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

摩尔线程张建中谈大模型推理三大挑战

直播预告| 大模型复杂推理技术: 如何重塑AI推理逻辑

快讯

美股三大指数震荡整理，芯片股走高，光通信板块大涨

多空胶着恒指震荡整理，AI景气外溢主导行情波动

宠物AI公司PurrPurr获阿尔法公社投资 首年GMV目标5000万

隆源股份业绩说明会回应今年新能源汽车零部件领域新客户洽谈中

中国品牌市占率达75%，4月我国汽车销量约252.6万辆，新能源汽车出口贡献度近五成

英特尔涨超8%，CEO陈立武透露与英伟达合作开发新品；与台积电成立芯片企业，索尼涨近7%；抗病毒概念股普涨，Moderna涨7.9%

4月汽车出口增长51% 国内零售下跌超20%

4月全国新能源汽车渗透率历史首次突破60%，燃油车零售同比暴跌37%

港股复盘：强势翻红 芯片概念股冲高回落 短期风险需警惕

申昊科技拟设具身智能子公司 加码人形机器人业务

推荐专栏

爱力方

机器人大讲堂

Mac用户福音：Ollama整合苹果MLX框架推理提速一倍 M5芯片性能飙升

谷歌发布TurboQuant技术大模型内存占用锐减六成

DeepSeek发布新论文模型V4引关注

国产算力再攀高峰摩尔线程携手硅基流动实现DeepSeek V3 671B高效推理单卡性能达国际顶尖水平

宠物AI公司PurrPurr获阿尔法公社投资首年GMV目标5000万

港股复盘：强势翻红芯片概念股冲高回落短期风险需警惕

申昊科技拟设具身智能子公司加码人形机器人业务