纯 CPU 硬刚 DeepSeek
了解更多,可以点击我们的官网:
最近有篇文章很火!腾讯玄武实验室居然整出了个纯 CPU 硬刚 DeepSeek R1 的方案,只需不到 4 万块钱的硬件就能搞定 DeepSeek-R1-671B-Q8!
峰值生成速度达到 7.17 tokens/s,也就是每秒能输出大约 10 个汉字,而且整机功耗和噪音跟我家里那台电脑差不多。
他们的秘诀是啥?玄武实验室采用了"内存带宽优先"的策略,解决了很多技术难题。原来在 CPU 推理中,内存带宽直接影响生成速度,而且 NUMA 冲突会严重拖慢性能。所以他们推荐单 CPU 配置,并坚持把 12 通道内存全塞满。系统层面他们还配置了 1G 大页预分配,甚至修改了 llama.cpp 代码,让硬件性能发挥到极致。
想了解更多技术细节,可以看这篇文章详细介绍。
玄武实验室把方案发布在了云原生构建 CNB 平台上,可以快速免费体验纯 CPU 部署方案的效果。
因为无需本地搭环境拉巨大的模型,并且也是免费体验的。
操作特别简单 Frok 仓库以后,点了一下「云原生671b,启动」就直接启动了 DS 671b 了!
启动的速度极其快!15s 载入模型,27s 进入对话,并且我尝试启动了多个仓库,也是一样的快,非常牛~
翻到这个代码仓库一看,远看平平无奇,仔细一看,这个仓库竟然有 664 GiB,能做到这么快启动这么大的仓库,背后肯定有硬核科技。
CNB 为什么能做到这么快?
挖掘了一下 CNB 的文档,发现 CNB 有个「秒级克隆」的特性,他是使用 git-clone-yyds 插件实现的。
代码开源地址:/cnb/cool/git-clone-yyds
git-clone-yyds 本质上是运行在母机上的一个 docker 容器,他通过 volume 把代码缓存挂载到工作区 (workspace)下。
- git代码缓存初始化:如果是首次拉代码,需要运行 git init 和 git fetch 进行代码的拉取,如果是已存在 .git 目录,则直接使用 git fetch 对 .git 进行更新
- workspace 代码准备,使用 OverlayFS 对 .git缓存进行复制,瞬间创建副本。通过 mount -t overlay 的方式,把代码缓存挂载到 lowerdir,并且建立一个空的 upperdir,然后 merged 就是最终在流水线看到的 workspace 的文件视图。
- 在 merged 文件夹上进行 checkout、build 等操作,基于 CoW (Copy-on-Write) 的特性,可以实现当需要写入时,从 lowerdir 的 cache 上 copy 出来再写入,如果只需要读,直接从 lowerdir 读取,这样就能保证在并发场景下的代码隔离。
- 构建结构后,删除副本。
这里 git-clone-yyds 的核心是基于 overlayfs 的 Copy-on-Write 机制来实现代码的秒级克隆。
从计算机角度来看,git 代码克隆缓存和构建缓存等操作本质上是典型的文件独占问题。传统上,这些文件在同一时间只能服务于一次构建,限制了并发性能。为了解决这个问题,CNB 采用了 Copy-on-Write (简称 CoW)机制。
Copy-on-Write(CoW)是一种优化策略,允许多个进程共享同一份资源,直到需要修改时才创建副本。这种机制大家并不陌生,在 Docker 上就有使用。Docker 利用 OverlayFS(一种联合文件系统)来实现 CoW。OverlayFS 能够将多个目录层叠在一起,形成统一视图,这使得多个容器可以共享同一个基础镜像,只有在需要修改时才在特定容器中创建独立的可写层。
基于 git-clone-yyds 的 CoW特性,CNB 还实现了更强大的功能。
fork 后的仓库可以直接复用父仓库的代码缓存。
这意味着什么呢?当你 fork 一个大型项目(比如 DeepSeek-R1 这样的 600GB+ 模型仓库)时,不需要重新下载或复制整个代码库,而是可以直接通过 CoW 机制共享原始仓库的缓存。
就解释了为什么 CNB 能在短短 10 秒内创建任意多个远程环境来体验 DeepSeek-R1 这样的超大模型。
对于想要体验 DeepSeek-R1 但又不想投入大量硬件成本的普通用户来说,CNB 平台提供的这种解决方案无疑是最佳选择。
你只需要访问文章底部阅读原文,点击「云原生671b,启动」,就能快速体验,不必担心硬件配置、下载时间和环境搭建等繁琐问题。
「秒级克隆」不仅适用于 DeepSeek-R1,对于其他大型 AI 大模型或者超大仓库的部署和体验也是可以复用的。
了解更多,可以点击我们的官网:
发布评论