tombkeeper 粉丝站

2026-03-16 15:43被tk转发5次

来看看 Gemini 3.1 Pro Preview 对“二驴背反”这个故事（微博正文）的解读——没有任何引导和提示，纯靠 AI 自己理解，也已经能理解我 98% 的笔意了。

现在再去纠结“LLM 有没有智能”已经越来越没什么意思了。AI 没智能，你有智能吗？AI 有幻觉，你没幻觉吗？AI 上下文不够，你的上下文又有多长？

图片描述 by gemini-3-flash-preview

详情

tombkeeper

2026-03-15 21:12

今天的盲猜关注列表活动又开始啦！//@wsnfjc:以后要注册一个账号，只关注这个博主，就不怕他这招了//@tombkeeper:今天的盲猜关注列表活动开始啦！//@Hi010010:工具调用没有27B好

tombkeeper

2026-03-15 14:42被tk转发4次

刚才做了个实验，用一台老机器跑 Qwen 3.5。这台机器有 6G 显存，显卡是 GTX 1660 Ti，内存 32G，内存带宽大约 40 GB/s，跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 输出速度可达到 21 t/s ~ 25 t/s。这个速度对家庭日常使用已经完全可接受了。

我做了一些定量和定性的测试，结果还是挺好的，包括我之前提过的编程测试任务（微博正文）——这个测试甚至到今天国内仍有一家公司的最新模型还做不及格——只剩这一家，其它公司都可以了。

GTX 1660 Ti 现在只要 700 元。内存虽然涨价了，但两根 16G 的 DDR 4 也就 1400 左右。如果用疫情前的硬件就能跑出这样的效果，那么“家庭智能中心”这样的产品也就变得很现实了。 tombkeeper的微博视频

详情

tombkeeper

2026-03-15 17:56

今天的盲猜关注列表活动开始啦！//@Hi010010:工具调用没有27B好

tombkeeper

2026-03-15 14:42被tk转发4次

刚才做了个实验，用一台老机器跑 Qwen 3.5。这台机器有 6G 显存，显卡是 GTX 1660 Ti，内存 32G，内存带宽大约 40 GB/s，跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 输出速度可达到 21 t/s ~ 25 t/s。这个速度对家庭日常使用已经完全可接受了。

我做了一些定量和定性的测试，结果还是挺好的，包括我之前提过的编程测试任务（微博正文）——这个测试甚至到今天国内仍有一家公司的最新模型还做不及格——只剩这一家，其它公司都可以了。

GTX 1660 Ti 现在只要 700 元。内存虽然涨价了，但两根 16G 的 DDR 4 也就 1400 左右。如果用疫情前的硬件就能跑出这样的效果，那么“家庭智能中心”这样的产品也就变得很现实了。 tombkeeper的微博视频

详情

tombkeeper

2026-03-15 17:52

前面讲的用 6G 显存的 GTX 1660 Ti 跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 速度能达到 21 t/s ~ 25 t/s 的这个实验（微博正文），有人问是不是用这个机器跑别的模型也可以。

首先，并不能因为 35B 的 Qwen3.5-35B-A3B 在这个机器上能跑，所以认为 27B 的 Qwen3.5-27B 肯定也可以。实际上即使 Qwen3.5-9B 跑起来也很慢，只有 6 t/s。这主要是因为 Qwen3.5-35B-A3B 是 MoE 模型，激活参数只有 3B。也就是说，对显存较小机器来说，Qwen3.5-35B-A3B 是 Qwen3.5 系列中最适合的。

另外，总参数 30B 激活参数 3B 的 GLM-4.7-Flash-Q4_K_M 也量化到 Q4，同样用 llama.cpp 在这台机器上的速度大约 13 t/s。Qwen3.5 的速度更快可能和它用了混合注意力设计、软件优化更好等因素等有关。所以，不仅在 Qwen3.5 系列中，而是在当前所有模型中，Qwen3.5-35B-A3B 可能都是小显存机器跑大模型的最优解。

如果你有类似硬件，想体验一下，但对技术了解不多，可以参考下面的最简化尝试步骤（假设你的操作系统是 Windows）：

1、下载 llama.cpp
github.com/ggml-org/llama.cpp/releases/download/b8352/llama-b8352-bin-win-cuda-12.4-x64.zip
github.com/ggml-org/llama.cpp/releases/download/b8352/cudart-llama-bin-win-cuda-12.4-x64.zip
把两个压缩包解开，文件放进同一个目录。假设该目录名字是 llama。

2、下载 Qwen3.5-35B-A3B-Q4_K_M.gguf
huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-Q4_K_M.gguf?download=true
建议存放在固态硬盘而不是机械硬盘上，这会直接影响接下来加载模型的速度。

3、在命令行执行 llama 目录中的 llama-cli：
llama-cli -m Qwen3.5-35B-A3B-Q4_K_M.gguf

详情

tombkeeper

2026-03-15 14:42被tk转发4次

刚才做了个实验，用一台老机器跑 Qwen 3.5。这台机器有 6G 显存，显卡是 GTX 1660 Ti，内存 32G，内存带宽大约 40 GB/s，跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 输出速度可达到 21 t/s ~ 25 t/s。这个速度对家庭日常使用已经完全可接受了。

我做了一些定量和定性的测试，结果还是挺好的，包括我之前提过的编程测试任务（微博正文）——这个测试甚至到今天国内仍有一家公司的最新模型还做不及格——只剩这一家，其它公司都可以了。

GTX 1660 Ti 现在只要 700 元。内存虽然涨价了，但两根 16G 的 DDR 4 也就 1400 左右。如果用疫情前的硬件就能跑出这样的效果，那么“家庭智能中心”这样的产品也就变得很现实了。 tombkeeper的微博视频

详情