公開日: 2026年6月14日

利用 AI 構建個人知識庫的免費方案

以下是按技术路线分类的主流免费方案全景图，你可以根据自己的电脑配置和需求选择。

方案一：完全本地化、零门槛、重隐私（适合普通用户/轻量笔记）

核心逻辑：本地 Embedding 模型 + 本地向量数据库 + 本地/云端 LLM（通过 API 或 Ollama）。数据不出硬盘。

工具/组合	核心特点	硬件要求	适合人群	关键技术栈
Cherry Studio (强烈推荐⭐⭐⭐⭐⭐)	颜值最高、最易用的桌面客户端。内置知识库(RAG)，支持拖拽文件/文件夹，一键接入 Ollama/各大云厂商 API。支持多模型对比、提示词库、MCP协议。	低 (仅跑 UI) + 模型侧要求	小白首选，想要开箱即用、界面美观、支持多模型切换。	内置向量引擎 + Ollama/OpenAI API
AnythingLLM (Desktop版)	功能最全的“全能桶”。支持 Workspace 隔离、Agent 技能、文档去重、 citaion 引用、向量数据库可选。Docker/桌面端双版本。	中 (自带向量DB较占内存)	需要多工作空间隔离、Agent自动化、团队协作雏形的用户。	LanceDB/Chroma/Pinecone + Ollama/OpenAI
Obsidian + 插件	笔记即知识库。利用 Obsidian 生态插件实现 RAG。数据纯 Markdown 文件，版本控制极致。	极低	重度 Obsidian 用户，坚持“文件即数据”，不想迁移笔记。	Text Generator / Smart Connections / Copilot 插件 + 本地/云模型
LibreChat + RAG 插件	类 ChatGPT 界面，支持插件系统、多模态、分支对话。部署稍复杂(Docker)。	中	喜欢 Web 界面、需要分支对话、多模型并发的极客。	MongoDB/MeiliSearch + OpenAI/Ollama

💡 省钱小技巧（本地跑模型）：电脑内存 ≥ 16GB（推荐 32GB）可装 Ollama 跑 qwen2.5:7b / llama3.1:8b / nemotron3-ultra (推理强)；显存 ≥ 8GB 可跑 qwen2.5:14b / deepseek-r1:14b (推理)；Mac M 系列芯片统一内存架构极其友好，32GB/64GB 统一内存可跑 32B/70B 量化模型。

方案二：云端免费额度“白嫖”派（无本地算力/求省心/数据不极度敏感）

核心逻辑：利用大厂免费 Embedding API + 免费向量数据库云服务 + 免费 LLM API。成本为 0，但数据上云、有额度限制。

组件	免费推荐方案 (2024/2025 有效)	限制/注意点
Embedding 模型	SiliconFlow (硅基流动) - BAAI/bge-m3 <br> Z.ai (GLM) - embedding-2/3 <br> OpenAI text-embedding-3-small (需境外号/卡)	国内直连、免费额度极大 (SiliconFlow 送 14 元/约几千万 tokens)、支持中英文混合、稠密+稀疏向量。
向量数据库	TiDB Serverless (向量索引免费 5GiB) <br> Supabase (pgvector) (项目免费 500MB-1GB) <br> Zilliz Cloud (Milvus 托管) (免费 2 CU / 512MB) <br> Qdrant Cloud (免费 1GB)	TiDB Serverless 最慷慨，兼容 MySQL 协议，无需学新语法。Supabase 适合全栈开发。
LLM (大模型)	SiliconFlow (Qwen2.5, DeepSeek-V3/R1, Llama 3.1 等免费调用) <br> Google AI Studio (Gemini 1.5 Flash/Pro) (海量免费额度、超长上下文) <br> OpenRouter / DeepSeek 官方 / Z.ai / 月之暗面等均有免费额度。	Gemini 1.5 Flash 目前性价比之王：1M 上下文免费、速度快、多模态强。SiliconFlow 国内直连最稳。
前端/编排框架	Dify Cloud (云版免费额度) / FastGPT Cloud / Coze (扣子) / Cherry Studio (本地客户端连云 API)	Dify/FastGPT 适合搭建 Agent/Workflow；Cherry Studio 适合个人聊天+知识库；Coze 适合发布 Bot 到微信/飞书/抖音。

🛠️ 组装示例（零成本云知识库）：
注册 SiliconFlow 拿 API Key (Embedding: BAAI/bge-m3 + LLM: Qwen2.5-72B-Instruct / DeepSeek-V3)。
注册 TiDB Serverless 创建集群，开启向量索引，拿连接串。
下载 Cherry Studio (或 AnythingLLM Desktop) -> 设置 -> 模型服务商填 SiliconFlow -> 知识库向量数据库选 TiDB (MySQL 协议) -> 导入文件 -> 开聊。
优点：无需本地显存、检索快、模型智商高（72B/MoE大模型）。
缺点：文档内容上传硅基流动/TiDB 云端；受限于免费额度（通常个人够用）。

方案三：开源自托管（有闲置服务器/NAS/老电脑/云服务器，追求完全可控）

核心逻辑： Docker Compose 一键部署全家桶。数据 100% 在自己手里，可无限扩展。

项目	定位	核心优势	部署难度	资源占用 (最低建议)
Dify (AWS Marketplace / Docker)	LLMOps 平台标杆。可视化编排 RAG/Agent/Workflow，多租户，插件市场，API 发布。	企业级功能免费用，可视化编排最强，生态最活跃。	中 (Docker Compose)	4C8G / 2C4G 也能跑 (关闭部分服务)
RAGFlow	复杂文档解析之王。深度文档理解 (DeepDOC)，处理 PDF 表格/公式/版面/图片极强。	文档解析能力碾压同级，适合研报、合同、论文、扫描件。	中高	8G+ 内存 (依赖 es/redis/minio/deepdoc)
FastGPT	国产化程度高，对接微信/飞书/钉钉/公众号极其方便，工作流编排易用。	国内生态对接最好，社区活跃，文档中文友好。	中	2C4G 起步
MaxKB	面向企业/团队开箱即用。内置应用市场、模型管理、知识库、流程编排。	部署相对轻量，界面专业，权限管理细致。	低中	2C4G
Open WebUI	极简、漂亮、功能强的 Web UI。支持 RAG、Function Calling、Pipeline、多模型、图片生成。	单文件二进制/Docker 部署极简，颜值最高，纯前端架构轻量。	低	1C2G (仅 UI) + 模型侧资源
Kotaemon	学术/研发风 RAG 界面。支持多路检索、重排序、引用定位、多模态。	专为 RAG 设计，检索参数可视化调节极细，适合调优。	中	2C4G+

💡 服务器选型建议：
国内小厂/个人：轻量应用服务器 (腾讯/阿里/华为) 2C4G/4C8G 年付 ¥200-500，装 1Panel / CasaOS / Portainer 面板，一键装 Docker 应用商店里的 Dify/FastGPT/OpenWebUI。
闲置 NAS/老电脑/树莓派5/零刻等迷你主机：装 CasaOS 或 Ubuntu Server + Docker，跑 OpenWebUI + Ollama (最省资源) 或 Dify (功能全)。
有显卡服务器 (RTX 3060 12G/4060 16G/4090/专业卡)：必上 vLLM / SGLang / TGI 高性能推理框架 + Dify/RAGFlow 对接 OpenAI 协议。

方案四：硬核极客/开发者自研栈（完全定制）

自己写代码组装：LangChain / LlamaIndex / LangGraph (Python/JS) + Chroma / Qdrant / Milvus / PGVector (向量库) + Ollama / vLLM / API (模型服务) + Streamlit / Gradio / FastAPI + Next.js (前端)。

优点：完全可控，学得最深，简历亮点。
缺点：造轮子耗时，维护成本高，不建议只想“建知识库”的用户。

🧩 关键技术选型避坑指南（省钱核心）

1. Embedding 模型（决定检索准不准）

本地跑 (CPU/GPU)： BAAI/bge-m3 (最强开源多语言、支持稠密/稀疏/多向量、首选)、bge-large-zh-v1.5 (旧版中文强)、gte-Qwen2-1.5B-instruct (新一代、长上下文、指令微调强)。
云端 API： SiliconFlow BAAI/bge-m3 (免费、稳、快)、Google text-embedding-004 (免费额度大、768维、效果好)、Z.ai embedding-3。
维度对齐：向量数据库建表维度必须与 Embedding 输出维度一致 (bge-m3=1024, gte-qwen2=1536, openai-small=1536)。

2. 向量数据库（决定规模与速度）

场景	推荐	理由
本地嵌入/轻量/桌面端	LanceDB / ChromaDB / SQLite-VSS	无服务进程，文件级，零配置，Python/JS 原生嵌入。
本地服务器/单机高性能	Qdrant (Rust, 极快, 功能全) / Milvus Lite / pgvector (PostgreSQL)	Qdrant 单机王者；pgvector 如果已有 PG 数据库最省事。
云端免费/Serverless	TiDB Serverless (5GiB免费, MySQL协议, 极易用) / Supabase (pgvector) / Zilliz Cloud	TiDB Serverless 目前免费额度最大、协议兼容性最好、无冷启动延迟。
大规模/生产/混合检索	Milvus / Elasticsearch / OpenSearch	功能最全 (稀疏/稠密/全文混合检索、过滤、分片)，但重、运维难。

3. Reranker 重排模型（提升召回质量的关键一跃）

强烈建议加上！召回 Top 20 -> Rerank -> Top 3 喂给 LLM，效果质变。
本地： BAAI/bge-reranker-v2-m3 (多语言强)、gte-reranker (轻量快)。
云端： SiliconFlow BAAI/bge-reranker-v2-m3 (免费)、Cohere Rerank 3.5 (免费额度)、Jina AI Reranker (免费额度)。

4. 文档解析/分块（Garbage In, Garbage Out）

不要只用简单的 RecursiveCharacterTextSplitter (按字符切)。
进阶免费方案：
- Marker (PDF) / MinerU (PDF/OCR/公式/表格) - 开源 SOTA 解析，可本地跑 (需 GPU/CPU)。
- Docling (IBM) - 新星，统一解析 PDF/DOCX/PPTX/HTML -> Markdown/JSON，保留结构，强烈推荐本地跑。
- Unstructured.io (开源库/云API) - 功能全但重。
- RAGFlow / Dify / FastGPT 自带解析 - 都集成了类 DeepDoc/MinerU 能力，直接用平台自带最省心。
分块策略：语义分块 > 标题层级分块 (MarkdownHeaderTextSplitter) > 固定大小重叠分块。保留标题上下文。

🚀 我的配置建议（按你的情况选一条）

你的情况	推荐方案	关键词
普通笔记本/MacBook (16G/32G 内存)，想要最丝滑、最私密、最好看	Cherry Studio + Ollama (跑 qwen2.5/bge-m3) + 本地知识库	零配置、颜值高、纯本地、支持联网搜索/MCP
有闲置服务器/NAS/迷你主机 (4C8G+)，想搭建团队/家庭共享知识库	1Panel 面板 -> 一键安装 Dify / FastGPT / MaxKB + Ollama/vLLM 跑模型	可视化运维、多用户、工作流、应用发布
无服务器、无显存、文档含大量复杂 PDF 表格/公式/扫描件	RAGFlow (本地 Docker 部署需 16G+ 内存) / Dify Cloud / FastGPT Cloud + 云端免费 API (SiliconFlow/Gemini)	文档解析最强、云端免费算力
程序员/极客，想完全自己写代码可控，或集成到自己业务系统	LangGraph + Qdrant/TiDB + SiliconFlow API + Streamlit/FastAPI	灵活、可测试、可监控、可扩展
重度 Obsidian 用户，不想离开编辑器	Obsidian + Smart Connections (本地向量) / Copilot (调云 API)	笔记即知识库、Git 版控、纯文本
想发布到微信/飞书/公众号/网页给别人用	FastGPT / Dify / Coze (扣子) + 云端免费模型 API	发布渠道全、应用编排强、免运维(Coze)

💰 “隐形成本”提醒

时间成本：折腾本地部署、调参数、修 Docker 报错可能花费数十小时。Cherry Studio / Dify Cloud / Coze 能节省 90% 时间。
电费/硬件折旧：老电脑 24H 跑 Ollama 约 30-50W，一度电约 0.6 元，月电费 ¥15-30。云服务器年付更划算且稳定。
Token 成本：云端免费额度通常够个人重度使用。SiliconFlow 送的 14 元 ≈ 1.4 亿 tokens (bge-m3) 或 700 万 tokens (Qwen2.5-72B)，极其耐用。
数据安全：涉及合同、代码、身份证、医疗记录 → 强制本地化方案 (Cherry Studio/Ollama/Dify自建)。闲聊、学习资料、公开文档 → 云端免费 API 香。

🎬 立即行动的最小步骤

想最快上手体验：下载 Cherry Studio -> 设置里开 Ollama (自动下载模型) 或填 SiliconFlow Key -> 知识库拖入一个 PDF -> 提问。
想搭建长期自建服务：买个腾讯/阿里轻量服务器 2C4G/4C8G (年付~¥300-500) -> SSH 连上 -> curl -sSL <https://resource.fit2cloud.com/1panel/package/quick_start.sh> -o quick_start.sh && sudo bash quick_start.sh -> 面板应用商店搜 Dify / FastGPT / OpenWebUI -> 点装 -> 配置域名/HTTPS -> 填 SiliconFlow Key -> 用。
想深度钻研 RAG 技术：克隆 RAGFlow 或 Dify 源码 -> 看 rag/ / api/ 目录下的检索/重排/分块实现 -> 跑通单测 -> 改造。

核心原则：先跑通最简单的闭环 (导文件->问问题->有答案)，再迭代优化 (换模型、加 Rerank、调分块、换向量库、上工作流)。别上来就搞复杂架构。