摘要:DeepSeek 在人工智能开发和分发方面的做法,不仅仅是一项技术成就,它还代表了一种截然不同的理念,即先进技术应如何在社会中传播。通过宽松的许可协议免费提供尖端人工智能技术,DeepSeek 激发了...

中国人工智能初创公司 DeepSeek 悄然发布了一款新的大语言模型,它在人工智能行业掀起了波澜 —— 不仅因其强大的能力,还因其独特的部署方式。这个重达 641GB 的模型名为 DeepSeek-V3-0324,今天悄然出现在人工智能资源库 Hugging Face 上,几乎没有任何预先宣告,延续了该公司低调却极具影响力的发布风格。

此次发布尤为引人注目的是,该模型采用 MIT 许可协议,这意味着它可免费用于商业用途。而且,早期有报告称,它能直接在消费级硬件上运行,特别是配备 M3 Ultra 芯片的苹果 Mac Studio。

“配备 512GB 内存的 M3 Ultra 芯片,在使用 mlx-lm 运行时,4 位量化的新 DeepSeek-V3-0324 模型每秒能处理超过 20 个Token!” 人工智能研究员阿夫尼・汉农(Awni Hannun)在社交媒体上写道。虽然售价 9499 美元的 Mac Studio 可能超出了 “消费级硬件” 的一般定义,但能在本地运行如此大规模的模型,与通常需要数据中心支持的前沿人工智能技术相比,是一个重大突破。

DeepSeek 的秘密发布策略打破了人工智能市场的预期

这个拥有 6850 亿参数的模型发布时,既没有配套的白皮书、博客文章,也没有市场推广,只有一个空白的 README 文件和模型权重文件。这种做法与西方人工智能公司精心策划的产品发布形成鲜明对比,西方公司在产品正式发布前,往往会进行数月的预热宣传。

早期测试者反馈,与上一版本相比,该模型有显著改进。人工智能研究员泽奥丰(Xeophon)在X.com(原推特)上发文称:“我在内部测试平台上对新的 DeepSeek V3 进行了测试,它在所有测试指标上都有巨大飞跃。它现在是最好的非推理模型,取代了 Sonnet 3.5 的地位。”

如果这一说法在更广泛的测试中得到验证,那么 DeepSeek 的新模型将超越 Anthropic 公司备受推崇的商业人工智能系统 Claude Sonnet 3.5。而且与需要订阅才能使用的 Sonnet 不同,DeepSeek-V3-0324 的模型权重任何人都可以免费下载使用。

DeepSeek V3-0324 的突破性架构如何实现无与伦比的效率

DeepSeek-V3-0324 采用了专家混合(MoE)架构,从根本上重新定义了大语言模型的运行方式。传统模型在处理每个任务时都会激活全部参数,而 DeepSeek 的方法是在特定任务中仅激活 6850 亿参数中的约 370 亿个。

这种选择性激活代表了模型效率的重大变革。通过仅为每个特定任务激活最相关的 “专家” 参数,DeepSeek 在大幅降低计算需求的同时,实现了与更大规模全激活模型相媲美的性能。

该模型还融入了两项突破性技术:多头潜在注意力(MLA)和多Token预测(MTP)。MLA 增强了模型在长文本段落中保持上下文理解的能力,而 MTP 则改变了通常一次生成一个Token的方式,每次可以生成多个Token。这些创新共同将输出速度提高了近 80%。

开发者工具创建者西蒙・威利森(Simon Willison)在一篇博客文章中指出,4 位量化版本将存储占用空间减少到 352GB,这使得在像配备 M3 Ultra 芯片的 Mac Studio 这样的高端消费级硬件上运行成为可能。

这可能标志着人工智能部署的重大转变。传统的人工智能基础设施通常依赖多个英伟达 GPU,功耗可达数千瓦,而 Mac Studio 在推理过程中的功耗不到 200 瓦。这种效率差距表明,人工智能行业可能需要重新思考对顶级模型性能所需基础设施的假设。

中国的开源人工智能革命挑战硅谷的封闭模式

DeepSeek 的发布策略体现了中国和西方公司在人工智能商业理念上的根本差异。美国的 OpenAI 和 Anthropic 等行业领导者将模型设置付费门槛,而中国的人工智能公司则越来越倾向于宽松的开源许可模式。

这种方式正在迅速改变中国的人工智能生态系统。尖端模型的开放获取产生了乘数效应,使初创企业、研究人员和开发者能够在无需大量资本支出的情况下,基于先进的人工智能技术进行开发。这以惊人的速度提升了中国的人工智能能力,令西方观察家大为震惊。

这种策略背后的商业逻辑反映了中国的市场现实。在中国,众多资金雄厚的公司相互竞争,当竞争对手免费提供类似功能时,坚持专有模式变得越来越困难。开源通过生态系统领导力、API 服务以及基于免费基础模型构建的企业解决方案,创造了其他价值实现途径。

就连中国的老牌科技巨头也意识到了这一转变。百度宣布计划在 6 月前将其文心一言 4.5 系列模型开源,阿里巴巴和腾讯也发布了具有特定功能的开源人工智能模型。这一趋势与西方行业领导者以 API 为中心的策略形成鲜明对比。

开源模式还解决了中国人工智能公司面临的独特挑战。由于获取尖端英伟达芯片受到限制,中国公司一直强调效率和优化,以便在计算资源有限的情况下实现具有竞争力的性能。这种因需求驱动的创新如今已成为一种潜在的竞争优势。

DeepSeek V3-0324:人工智能推理革命的基石

DeepSeek-V3-0324 的发布时间和特性强烈暗示,它将成为 DeepSeek-R2 的基础。预计在未来两个月内,DeepSeek-R2 这款更注重推理能力的改进模型将会推出。这延续了 DeepSeek 的一贯模式,其基础模型通常会在专业推理模型发布前几周推出。

“这与他们在圣诞节前后发布 V3,几周后推出 R1 的方式一致。有传言称 R2 将在 4 月发布,所以很可能就是这个。”Reddit 用户 mxforest 评论道。

先进的开源推理模型意义重大。目前,像 OpenAI 的 o1 和 DeepSeek 的 R1 这样的推理模型代表了人工智能能力的前沿水平,在从数学到编程等领域展现出前所未有的问题解决能力。如果将这项技术免费开放,将使目前只有资金雄厚的机构和个人才能使用的人工智能系统实现普及。

在潜在的 R2 模型即将推出之际,有关推理模型计算需求的重要信息也浮出水面。英伟达首席执行官黄仁勋最近指出,DeepSeek 的 R1 模型 “计算量是普通非推理人工智能的 100 倍”,这与行业此前对效率的假设相悖。这也凸显了 DeepSeek 模型的卓越成就,即在比西方同行更有限的资源条件下,依然能实现具有竞争力的性能。

如果 DeepSeek-R2 延续 R1 的发展轨迹,它可能会对 OpenAI 传闻将在未来几个月发布的下一款旗舰模型 GPT-5 构成直接挑战。OpenAI 封闭且资金雄厚的发展模式,与 DeepSeek 开放且资源高效利用的策略,代表了人工智能未来发展的两种竞争理念。

如何体验 DeepSeek V3-0324:开发者和用户的完整指南

对于那些渴望试用 DeepSeek-V3-0324 的人来说,可以根据技术需求和资源选择不同的途径。完整的模型权重可在 Hugging Face 上获取,但 641GB 的大小意味着,只有具备充足存储和计算资源的用户才能直接下载。

对于大多数用户而言,基于云的服务提供了最便捷的使用方式。OpenRouter 提供该模型的免费 API 访问,还配备了用户友好的聊天界面。用户只需选择 DeepSeek V3 0324 模型,即可开始体验。

DeepSeek 官方的聊天界面(chat.deepseek.com)很可能也已更新到新版本,尽管该公司尚未明确确认这一点。早期用户反馈,通过这个平台可以访问该模型,而且性能比之前的版本有所提升。

希望将该模型集成到应用程序中的开发者,可以通过各种推理服务提供商来接入。Hyperbolic Labs 宣布已率先在 Hugging Face 上提供该模型的推理服务,OpenRouter 则提供与 OpenAI SDK 兼容的 API 访问。

DeepSeek 的新模型更注重技术精准度而非对话亲和力

早期用户注意到,该模型的交流风格有明显变化。此前的 DeepSeek 模型因其对话式、类似人类的语气受到称赞,而 “V3-0324” 则表现出更正式、更侧重技术的风格。

“是只有我有这种感觉,还是这个版本确实没那么像人类对话了?”Reddit 用户 nother_level 问道,“对我来说,DeepSeek V3 之前与其他模型的不同之处在于它更像人与人的交流。语气、用词等都不像其他大语言模型那么生硬,但是这个版本却和其他模型一样,听起来很机械。”

另一位用户 AppearanceHeavy6724 补充道:“没错,它确实失去了那种独特的魅力,感觉太理性了,反而有些过头。”

这种风格转变很可能是 DeepSeek 工程师有意为之。向更精确、更具分析性的交流风格转变,表明该模型在战略上重新定位,更侧重于专业和技术应用,而非日常对话。这与行业大趋势相符,人工智能开发者越来越认识到,不同的应用场景需要不同的交互风格。

对于开发专业应用程序的开发者来说,这种更精确的交流风格实际上可能是一个优势,能为专业工作流程提供更清晰、更一致的输出。然而,对于那些注重亲和力和易接近性的面向客户的应用来说,这种风格可能会限制模型的吸引力。

DeepSeek 的开源策略如何重塑全球人工智能格局

DeepSeek 在人工智能开发和分发方面的做法,不仅仅是一项技术成就,它还代表了一种截然不同的理念,即先进技术应如何在社会中传播。通过宽松的许可协议免费提供尖端人工智能技术,DeepSeek 激发了指数级的创新,而封闭模型从本质上限制了这种创新。

这种理念正在迅速缩小人们眼中中美之间的人工智能差距。就在几个月前,大多数分析师还估计中国的人工智能能力落后美国 1 - 2 年。如今,这一差距已大幅缩小,可能仅为 3 - 6 个月,在某些领域甚至已接近持平,部分领域中国已处于领先地位。

这与安卓系统对移动生态系统的影响有惊人的相似之处。谷歌决定免费开放安卓系统,打造了一个最终在全球市场占据主导地位的平台。同样,开源人工智能模型可能凭借广泛的普及度和数千名贡献者的集体创新,在竞争中超越封闭系统。

其影响不仅体现在市场竞争方面,还涉及技术获取的基本问题。西方人工智能行业领导者越来越多地受到批评,因为他们将先进的人工智能能力集中在资源丰富的企业和个人手中。DeepSeek 的做法更广泛地传播了这些能力,有可能加速人工智能在全球的应用。

随着 DeepSeek-V3-0324 进入全球各地的研究实验室和开发者的工作站,竞争已不再仅仅局限于打造最强大的人工智能,而是在于让更多人能够利用人工智能进行开发。在这场竞赛中,DeepSeek 的低调发布充分彰显了人工智能的未来走向。那些最慷慨分享技术的公司,最终可能对人工智能如何重塑世界产生最大的影响。