我问DeepSeek，怎么在本地部署DeepSeek

想傲江湖 发表于 2025-2-9 20:50

我问：

怎么在Windows 10 系统上部署本地DeepSeek-R1-Distill-Qwen-1.5B，存储位置为D:\\DeepSeek\\DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek答：

要在Windows 10系统上部署本地DeepSeek-R1-Distill-Qwen-1.5B模型，并指定存储位置为D:\\DeepSeek\\DeepSeek-R1-Distill-Qwen-1.5B，可以按照以下步骤操作：

1. 安装Python和依赖
确保已安装Python 3.8或更高版本，并安装必要的依赖库。

下载Python：从Python官网下载并安装Python。

安装依赖：打开命令提示符，运行以下命令安装所需的库：

bash
复制
pip install torch transformers
2. 下载模型
将DeepSeek-R1-Distill-Qwen-1.5B模型下载到指定目录。

创建目录：在D:\\DeepSeek\\下创建DeepSeek-R1-Distill-Qwen-1.5B文件夹。

下载模型：使用transformers库下载并保存模型：

python
复制
from transformers import AutoModelForCausalLM, AutoTokenizer

model_name = "DeepSeek-R1-Distill-Qwen-1.5B"
model = AutoModelForCausalLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

model.save_pretrained("D:\\DeepSeek\\DeepSeek-R1-Distill-Qwen-1.5B")
tokenizer.save_pretrained("D:\\DeepSeek\\DeepSeek-R1-Distill-Qwen-1.5B")
3. 加载和使用模型
在Python脚本中加载并使用模型。

python
复制
from transformers import AutoModelForCausalLM, AutoTokenizer

model_path = "D:\\DeepSeek\\DeepSeek-R1-Distill-Qwen-1.5B"
model = AutoModelForCausalLM.from_pretrained(model_path)
tokenizer = AutoTokenizer.from_pretrained(model_path)

input_text = "你好，DeepSeek-R1-Distill-Qwen-1.5B"
inputs = tokenizer(input_text, return_tensors="pt")
outputs = model.generate(**inputs)
print(tokenizer.decode(outputs, skip_special_tokens=True))
4. 运行脚本
将上述代码保存为run_model.py，在命令提示符中运行：

bash
复制
python run_model.py
5. 其他注意事项
GPU支持：如果有NVIDIA GPU并安装了CUDA，可以安装torch的GPU版本以加速推理。

虚拟环境：建议使用虚拟环境管理依赖。

总结
通过以上步骤，你可以在Windows 10上成功部署并使用DeepSeek-R1-Distill-Qwen-1.5B模型。

想傲江湖 发表于 2025-2-9 20:54

Python装的是python-3.8.10
库和依赖也装好了：pip install torch transformers
就是下载不了DeepSeek-R1-Distill-Qwen-1.5B

眼前此刻 发表于 2025-2-9 21:47

DeepSeek有点滑头啊，稍稍敏感点就装死

micrqq 发表于 2025-2-10 08:49

还得装python

LLAOLI 发表于 2025-2-10 08:55

电脑配置不够，布置作用也不大

想傲江湖 发表于 2025-2-10 09:04

通过询问DeepSeek，得到Git下载地址。

用Git下载DeepSeek模型：
在命令提示符窗口中运行以下命令：

d:
cd \deepseek
git lfs install
git clone https://www.modelscope.cn/deepseek-ai/DeepSeek-R1-Distill-Qwen-1.5B.git

zqz120 发表于 2025-2-10 09:25

感谢分享{:5_260:}

841588799 发表于 2025-2-10 09:31

1.5B最低的硬件要求是什么

chengyiqun 发表于 2025-2-10 10:07

本帖最后由 chengyiqun 于 2025-2-10 10:08 编辑

搞太麻烦了一般用 Ollama 或者 LM studio, 搞不定网络(抱脸网国内访问困难)可以手动导入 GGUF 格式的模型

chengyiqun 发表于 2025-2-10 10:10

眼前此刻发表于 2025-2-9 21:47
DeepSeek有点滑头啊，稍稍敏感点就装死

从抱脸上下载 mradermacher 这个作者的 Uncensored 版本模型

focpo 发表于 2025-2-11 18:57

本帖最后由 focpo 于 2025-2-11 18:59 编辑

chengyiqun 发表于 2025-2-10 10:07
搞太麻烦了一般用 Ollama 或者 LM studio, 搞不定网络(抱脸网国内访问困难)可以手动导入 GGUF 格式的模型

...
DeepSeek-R1-Distill-Qwen-32B-Q4就这个模型来说，有32B-Q4_K_L.gguf、Q4-K-S\Q4-K-M,
不明白有什么区别？请教一下。
同时，还有出了带有abliterated
后缀的模型，同时也有以上KS\\KL\KM的版本。又有什么区别呢

iddabing 发表于 2025-2-11 19:26

感谢分享

想傲江湖 发表于 2025-2-11 21:32

chengyiqun 发表于 2025-2-10 10:07
搞太麻烦了一般用 Ollama 或者 LM studio, 搞不定网络(抱脸网国内访问困难)可以手动导入 GGUF 格式的模型

...

LM Studio 启用代理(Proxy)，看看速度会不会快一点。
点击LM Studio主界面右下角的齿轮图标后，勾选下图设置：

chengyiqun 发表于 2025-2-12 00:18

focpo 发表于 2025-2-11 18:57
DeepSeek-R1-Distill-Qwen-32B-Q4就这个模型来说，有32B-Q4_K_L.gguf、Q4-K-S\Q4-K-M,
不明白有什么区别？ ...

B是大模型参数, billion
Q是量化等级, k是 k-quants, k后面的L M S 代表模型的大小
参考:
https://zhuanlan.zhihu.com/p/12729759086

调优参考:
https://www.bilibili.com/video/BV1qoFGepEhL/

一般来说, 不要比 Q4数字更小的效果就不要了
然后在满足Q的情况下, B能带的动的越大越好

chengyiqun 发表于 2025-2-12 00:28

focpo 发表于 2025-2-11 18:57
DeepSeek-R1-Distill-Qwen-32B-Q4就这个模型来说，有32B-Q4_K_L.gguf、Q4-K-S\Q4-K-M,
不明白有什么区别？ ...

我用deepseek提炼总结了下

量化方式的选择对模型的性能和精度有显著影响。不同的量化方法在压缩模型大小、加速推理速度和保持模型精度之间有不同的权衡。以下是对几种常见量化方式的效果对比：

1. 朴素方法（Qn_0 和 Qn_1）
Qn_0：通常表示对称量化，即量化范围对称于零。这种方法简单且计算效率高，但在某些情况下可能会导致精度损失较大。

Qn_1：通常表示非对称量化，量化范围可以不对称。这种方法在某些情况下可以更好地保留模型的精度，但计算复杂度稍高。

效果对比：Qn_1 通常在精度上优于 Qn_0，尤其是在模型精度敏感的任务中。然而，Qn_0 的计算效率更高，适合对速度要求较高的场景。

2. k-quants 方法（Qn_K_M 和 Qn_K_S）
Qn_K_M：表示中等大小的模型量化，通常在精度和速度之间取得平衡。

Qn_K_S：表示小型模型的量化，通常用于更轻量级的模型，牺牲一些精度以换取更快的推理速度和更小的模型尺寸。

效果对比：Qn_K_M 在精度上通常优于 Qn_K_S，但推理速度稍慢。Qn_K_S 适合资源受限的设备或对实时性要求较高的应用。

3. i-quants 方法（IQn_XS 等）
IQn_XS：表示一种更精细的量化方法，通常用于极小型模型或对精度要求较高的场景。

效果对比：i-quants 方法通常在精度上优于朴素方法和 k-quants 方法，尤其是在极低比特量化（如 4 位或更低）的情况下。然而，i-quants 的计算复杂度较高，可能不适合对速度要求极高的场景。

4. 三元量化（TQ1_0）
TQ1_0：表示三元量化，即每个参数只能取三个值（例如 -1, 0, 1）。这种方法极大地压缩了模型大小，并且可以显著加速推理。

效果对比：三元量化在模型压缩和加速方面效果显著，但精度损失较大，通常只适用于对精度要求不高的任务，或者作为初步的模型压缩步骤。

总结
精度：i-quants > k-quants > 朴素方法 > 三元量化

速度：三元量化 > 朴素方法 > k-quants > i-quants

模型大小：三元量化 < 朴素方法 < k-quants < i-quants

选择哪种量化方式取决于具体的应用场景和需求。如果对精度要求较高，i-quants 或 k-quants 可能是更好的选择；如果对速度和模型大小有严格要求，朴素方法或三元量化可能更合适。

hongqiguo 发表于 2025-2-12 08:58

专业教程

xxreal 发表于 2025-2-12 23:04

马克一个！空了找台机器试试！

liyonghu 发表于 2025-2-12 23:24

眼前此刻发表于 2025-2-9 21:47
DeepSeek有点滑头啊，稍稍敏感点就装死

多少要懂点人情世嘛

rubycon 发表于 2025-2-13 07:24

眼前此刻发表于 2025-2-9 21:47
DeepSeek有点滑头啊，稍稍敏感点就装死

这个说明已经很智能了啊。

rubycon 发表于 2025-2-13 07:50

xxreal 发表于 2025-2-12 23:04
马克一个！空了找台机器试试！

单机部署，只能选择小模型，不如使用网页版 ai.com\ai.cn\chat.deepseek.com 了。

页: [1] 2

远景论坛 - 前沿科技与智慧生态的极客社区's Archiver

我问DeepSeek，怎么在本地部署DeepSeek