[深度学习] 大模型学习8上-推理部署框架llama.cpp与Ollama使用指北

2026年5月18日 24点热度 0人点赞 0条评论

📰 来源: 博客园

随着大语言模型（Large Language Model，LLM）全面步入实际应用阶段，推理部署框架成为模型落地进程中必不可少的重要组成部分。不同框架在性能优化方式、部署复杂度以及适用场景上差异较大，在实际工程选型中往往需要先理解其基本定位与使用方式。关于模型推理部署基础概念的介绍，可参考：大模型学习6-模型量化与推理部署。

本文将对当前常见的LLM推理框架进行简要梳理，并聚焦于本地推理场景中极具代表性的llama.cpp与Ollama，介绍它们的核心原理及基础用法。另一广泛使用的生产级框架vLLM，作为面向高吞吐环境的推理方案，内容相对独立且较为丰富，将留待下一篇文章专门展开。

2 llama.cpp快速入门

2.1 部署准备
- 2.1.1 环境准备
- 2.1.2 模型准备
2.2 llama-cli使用
- 2.2.1 参数说明
- 2.2.2 推理与交互
2.3 llama-server使用

2.1 部署准备

2.1.1 环境准备
2.1.2 模型准备

2.2 llama-cli使用

2.2.1 参数说明
2.2.2 推理与交互

2.2.2 推理与交互

2.3 llama-server使用

3 Ollama快速入门

3.1 环境准备
3.2 Ollama基本使用
3.3 Ollama自定义使用

3.2 Ollama基本使用

3.2.1 核心命令
3.2.2 交互模式常用命令
3.2.3 Python SDK调用模型

3.2.2 交互模式常用命令

3.2.3 Python SDK调用模型

3.3 Ollama自定义使用

3.3.1 Modelfile配置
3.3.2 导入自有模型
3.3.3 Ollama API
3.3.4 Ollama聊天界面

3.3.1 Modelfile配置

3.3.2 导入自有模型

3.3.3 Ollama API

3.3.4 Ollama聊天界面

近年来，随着LLM的持续发展，推理部署框架在模型落地中的作用日益重要。作为连接模型能力与实际应用场景的关键基础设施，其设计与性能直接影响部署效率与最终效果。目前，业界已涌现出多种具有代表性的推理框架，常见的包括以下几类：

llama.cpp
llama.cpp是一个由开源社区维护的轻量级LLM推理框架，采用纯C/C++实现，并结合多种量化技术，具有很强的硬件兼容性和较低的资源占用。它支持CPU与GPU混合推理，尤其适合边缘设备、普通电脑，以及需要离线运行模型的个人开发者。

llama.cpp
llama.cpp是一个由开源社区维护的轻量级LLM推理框架，采用纯C/C++实现，并结合多种量化技术，具有很强的硬件兼容性和较低的资源占用。它

🔗 原文链接: 点击阅读原文

文章评论