• 邮件反馈
  • 支持 TK
  • 那年今日
  • 微博

    • 看看最新
    • 那年今日
    • 随便看看
    • 过去一年
  • 文章

    • 皮相专栏
    • 百度空间
    • 焦点博客
  • 探索

    • TK猴子

  • 支持
下个页面那年今日

点右侧微博标记去微博订阅真爱粉群👉

加入tk真爱粉群
tombkeeper
2026-03-15 17:56
今天的盲猜关注列表活动开始啦!//@Hi010010:工具调用没有27B好
tombkeeper
2026-03-15 14:42被tk转发4次
刚才做了个实验,用一台老机器跑 Qwen 3.5。这台机器有 6G 显存,显卡是 GTX 1660 Ti,内存 32G,内存带宽大约 40 GB/s,跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 输出速度可达到 21 t/s ~ 25 t/s。这个速度对家庭日常使用已经完全可接受了。

我做了一些定量和定性的测试,结果还是挺好的,包括我之前提过的编程测试任务(微博正文)——这个测试甚至到今天国内仍有一家公司的最新模型还做不及格——只剩这一家,其它公司都可以了。

GTX 1660 Ti 现在只要 700 元。内存虽然涨价了,但两根 16G 的 DDR 4 也就 1400 左右。如果用疫情前的硬件就能跑出这样的效果,那么“家庭智能中心”这样的产品也就变得很现实了。 tombkeeper的微博视频
详情
tombkeeper
2026-03-15 17:52
前面讲的用 6G 显存的 GTX 1660 Ti 跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 速度能达到 21 t/s ~ 25 t/s 的这个实验(微博正文),有人问是不是用这个机器跑别的模型也可以。

首先,并不能因为 35B 的 Qwen3.5-35B-A3B 在这个机器上能跑,所以认为 27B 的 Qwen3.5-27B 肯定也可以。实际上即使 Qwen3.5-9B 跑起来也很慢,只有 6 t/s。这主要是因为 Qwen3.5-35B-A3B 是 MoE 模型,激活参数只有 3B。也就是说,对显存较小机器来说,Qwen3.5-35B-A3B 是 Qwen3.5 系列中最适合的。

另外,总参数 30B 激活参数 3B 的 GLM-4.7-Flash-Q4_K_M 也量化到 Q4,同样用 llama.cpp 在这台机器上的速度大约 13 t/s。Qwen3.5 的速度更快可能和它用了混合注意力设计、软件优化更好等因素等有关。所以,不仅在 Qwen3.5 系列中,而是在当前所有模型中,Qwen3.5-35B-A3B 可能都是小显存机器跑大模型的最优解。

如果你有类似硬件,想体验一下,但对技术了解不多,可以参考下面的最简化尝试步骤(假设你的操作系统是 Windows):

1、下载 llama.cpp
github.com/ggml-org/llama.cpp/releases/download/b8352/llama-b8352-bin-win-cuda-12.4-x64.zip
github.com/ggml-org/llama.cpp/releases/download/b8352/cudart-llama-bin-win-cuda-12.4-x64.zip
把两个压缩包解开,文件放进同一个目录。假设该目录名字是 llama。

2、下载 Qwen3.5-35B-A3B-Q4_K_M.gguf
huggingface.co/unsloth/Qwen3.5-35B-A3B-GGUF/resolve/main/Qwen3.5-35B-A3B-Q4_K_M.gguf?download=true
建议存放在固态硬盘而不是机械硬盘上,这会直接影响接下来加载模型的速度。

3、在命令行执行 llama 目录中的 llama-cli:
llama-cli -m Qwen3.5-35B-A3B-Q4_K_M.gguf
详情
tombkeeper
2026-03-15 14:42被tk转发4次
刚才做了个实验,用一台老机器跑 Qwen 3.5。这台机器有 6G 显存,显卡是 GTX 1660 Ti,内存 32G,内存带宽大约 40 GB/s,跑 Qwen3.5-35B-A3B-Q4_K_M.gguf 输出速度可达到 21 t/s ~ 25 t/s。这个速度对家庭日常使用已经完全可接受了。

我做了一些定量和定性的测试,结果还是挺好的,包括我之前提过的编程测试任务(微博正文)——这个测试甚至到今天国内仍有一家公司的最新模型还做不及格——只剩这一家,其它公司都可以了。

GTX 1660 Ti 现在只要 700 元。内存虽然涨价了,但两根 16G 的 DDR 4 也就 1400 左右。如果用疫情前的硬件就能跑出这样的效果,那么“家庭智能中心”这样的产品也就变得很现实了。 tombkeeper的微博视频
详情
tombkeeper
2026-03-14 11:34
我称之为原子性按闹分配 微博正文
胖虎鲸
2026-03-14 11:25被tk转发1次
我一直在想一个问题,就是一堆明明可以依法快速便捷处理的小烂事,比如噪音扰民,公共洗手间抽烟,私人霸占公共空间,遛狗不牵绳随地大小便狗吓人,拦路讨要红包,老头乐无视交通法爱咋开咋开,占用他人停车位等等等等类似这些,不直接处罚,非要来个官方的人去和这些不守规矩的人讲道理,非要受到伤害的人去理解去和解,这不瞎扯淡吗,他但凡能听得懂道理能干出这事吗?唯一后果就是浪费大量的官方人力资源,让违法的人受到鼓舞继续肆无忌惮,让守规矩的人对法治丧失信心。

我真的搞不懂这个逻辑,我也不想用阴暗的思路去揣测这么干的原因。
详情
tombkeeper
2026-03-14 11:07
今天的盲猜关注列表活动开始啦!//@中華和:你這裏的「是」不都在判斷或描述事實?對錯也不是「是」表達出來的啊 查看图片
tombkeeper
2026-03-11 15:25被tk转发2次
“是”有三个意思。

“马铃薯是土豆”,“他是小明”,在这两句话里,“是”前后的词可以互换:“土豆是马铃薯”、“小明是他”也都是对的。这里的“A是B”,逻辑为“A=B”。

“儿童是人”,这里前后就不能互换,说“人是儿童”就不对。儿童属于人,但儿童不等于人。这里的“A是B”,逻辑为“A∈B”。

“我们的目标是没有蛀牙”,这里虽然前后可以互换,也可以说“没有蛀牙是我们的目标”,但前后并不是等于的关系,因为人目标肯定不止一个没有蛀牙。严谨的表达应该是“我们的目标之一是没有蛀牙”。但很多时候不会说的那么严谨。所以,这里的“A是B”,逻辑为“B∈A”。

因为“是”这个常用的词其实有三个意思,但很多人未必想得清楚,所有经常会有人利用这一点来混淆概念,甚至恶意攻击。
详情
1...45678...6444