利用 AI 構建個人知識庫的免費方案

以下是按技术路线分类的主流免费方案全景图,你可以根据自己的电脑配置和需求选择。


方案一:完全本地化、零门槛、重隐私(适合普通用户/轻量笔记)

核心逻辑: 本地 Embedding 模型 + 本地向量数据库 + 本地/云端 LLM(通过 API 或 Ollama)。数据不出硬盘。

工具/组合核心特点硬件要求适合人群关键技术栈
Cherry Studio (强烈推荐⭐⭐⭐⭐⭐)颜值最高、最易用的桌面客户端。内置知识库(RAG),支持拖拽文件/文件夹,一键接入 Ollama/各大云厂商 API。支持多模型对比、提示词库、MCP协议。低 (仅跑 UI) + 模型侧要求小白首选,想要开箱即用、界面美观、支持多模型切换。内置向量引擎 + Ollama/OpenAI API
AnythingLLM (Desktop版)功能最全的“全能桶”。支持 Workspace 隔离、Agent 技能、文档去重、 citaion 引用、向量数据库可选。Docker/桌面端双版本。中 (自带向量DB较占内存)需要多工作空间隔离Agent自动化团队协作雏形的用户。LanceDB/Chroma/Pinecone + Ollama/OpenAI
Obsidian + 插件笔记即知识库。利用 Obsidian 生态插件实现 RAG。数据纯 Markdown 文件,版本控制极致。极低重度 Obsidian 用户,坚持“文件即数据”,不想迁移笔记。Text Generator / Smart Connections / Copilot 插件 + 本地/云模型
LibreChat + RAG 插件类 ChatGPT 界面,支持插件系统、多模态、分支对话。部署稍复杂(Docker)。喜欢 Web 界面、需要分支对话多模型并发的极客。MongoDB/MeiliSearch + OpenAI/Ollama
💡 省钱小技巧(本地跑模型): 电脑内存 ≥ 16GB(推荐 32GB)可装 Ollamaqwen2.5:7b / llama3.1:8b / nemotron3-ultra (推理强);显存 ≥ 8GB 可跑 qwen2.5:14b / deepseek-r1:14b (推理);Mac M 系列芯片统一内存架构极其友好,32GB/64GB 统一内存可跑 32B/70B 量化模型。

方案二:云端免费额度“白嫖”派(无本地算力/求省心/数据不极度敏感)

核心逻辑: 利用大厂免费 Embedding API + 免费向量数据库云服务 + 免费 LLM API。成本为 0,但数据上云、有额度限制。

组件免费推荐方案 (2024/2025 有效)限制/注意点
Embedding 模型SiliconFlow (硅基流动) - BAAI/bge-m3 <br> Z.ai (GLM) - embedding-2/3 <br> OpenAI text-embedding-3-small (需境外号/卡)国内直连、免费额度极大 (SiliconFlow 送 14 元/约几千万 tokens)、支持中英文混合、稠密+稀疏向量。
向量数据库TiDB Serverless (向量索引免费 5GiB) <br> Supabase (pgvector) (项目免费 500MB-1GB) <br> Zilliz Cloud (Milvus 托管) (免费 2 CU / 512MB) <br> Qdrant Cloud (免费 1GB)TiDB Serverless 最慷慨,兼容 MySQL 协议,无需学新语法。Supabase 适合全栈开发。
LLM (大模型)SiliconFlow (Qwen2.5, DeepSeek-V3/R1, Llama 3.1 等免费调用) <br> Google AI Studio (Gemini 1.5 Flash/Pro) (海量免费额度、超长上下文) <br> OpenRouter / DeepSeek 官方 / Z.ai / 月之暗面 等均有免费额度。Gemini 1.5 Flash 目前性价比之王:1M 上下文免费、速度快、多模态强。SiliconFlow 国内直连最稳。
前端/编排框架Dify Cloud (云版免费额度) / FastGPT Cloud / Coze (扣子) / Cherry Studio (本地客户端连云 API)Dify/FastGPT 适合搭建 Agent/Workflow;Cherry Studio 适合个人聊天+知识库;Coze 适合发布 Bot 到微信/飞书/抖音。
🛠️ 组装示例(零成本云知识库):
  1. 注册 SiliconFlow 拿 API Key (Embedding: BAAI/bge-m3 + LLM: Qwen2.5-72B-Instruct / DeepSeek-V3)。
  2. 注册 TiDB Serverless 创建集群,开启向量索引,拿连接串。
  3. 下载 Cherry Studio (或 AnythingLLM Desktop) -> 设置 -> 模型服务商填 SiliconFlow -> 知识库向量数据库选 TiDB (MySQL 协议) -> 导入文件 -> 开聊。
    优点: 无需本地显存、检索快、模型智商高(72B/MoE大模型)。
    缺点: 文档内容上传硅基流动/TiDB 云端;受限于免费额度(通常个人够用)。

方案三:开源自托管(有闲置服务器/NAS/老电脑/云服务器,追求完全可控)

核心逻辑: Docker Compose 一键部署全家桶。数据 100% 在自己手里,可无限扩展。

项目定位核心优势部署难度资源占用 (最低建议)
Dify (AWS Marketplace / Docker)LLMOps 平台标杆。可视化编排 RAG/Agent/Workflow,多租户,插件市场,API 发布。企业级功能免费用,可视化编排最强,生态最活跃。中 (Docker Compose)4C8G / 2C4G 也能跑 (关闭部分服务)
RAGFlow复杂文档解析之王。深度文档理解 (DeepDOC),处理 PDF 表格/公式/版面/图片 极强。文档解析能力碾压同级,适合研报、合同、论文、扫描件。中高8G+ 内存 (依赖 es/redis/minio/deepdoc)
FastGPT国产化程度高,对接微信/飞书/钉钉/公众号极其方便,工作流编排易用。国内生态对接最好,社区活跃,文档中文友好。2C4G 起步
MaxKB面向企业/团队开箱即用。内置应用市场、模型管理、知识库、流程编排。部署相对轻量,界面专业,权限管理细致。低中2C4G
Open WebUI极简、漂亮、功能强的 Web UI。支持 RAG、Function Calling、Pipeline、多模型、图片生成。单文件二进制/Docker 部署极简,颜值最高,纯前端架构轻量。1C2G (仅 UI) + 模型侧资源
Kotaemon学术/研发风 RAG 界面。支持多路检索、重排序、引用定位、多模态。专为 RAG 设计,检索参数可视化调节极细,适合调优。2C4G+
💡 服务器选型建议:
  • 国内小厂/个人: 轻量应用服务器 (腾讯/阿里/华为) 2C4G/4C8G 年付 ¥200-500,装 1Panel / CasaOS / Portainer 面板,一键装 Docker 应用商店里的 Dify/FastGPT/OpenWebUI。
  • 闲置 NAS/老电脑/树莓派5/零刻等迷你主机:CasaOSUbuntu Server + Docker,跑 OpenWebUI + Ollama (最省资源) 或 Dify (功能全)。
  • 有显卡服务器 (RTX 3060 12G/4060 16G/4090/专业卡): 必上 vLLM / SGLang / TGI 高性能推理框架 + Dify/RAGFlow 对接 OpenAI 协议。

方案四:硬核极客/开发者自研栈(完全定制)

自己写代码组装:LangChain / LlamaIndex / LangGraph (Python/JS) + Chroma / Qdrant / Milvus / PGVector (向量库) + Ollama / vLLM / API (模型服务) + Streamlit / Gradio / FastAPI + Next.js (前端)。

  • 优点: 完全可控,学得最深,简历亮点。
  • 缺点: 造轮子耗时,维护成本高,不建议只想“建知识库”的用户

🧩 关键技术选型避坑指南(省钱核心)

1. Embedding 模型(决定检索准不准)

  • 本地跑 (CPU/GPU): BAAI/bge-m3 (最强开源多语言、支持稠密/稀疏/多向量、首选)、bge-large-zh-v1.5 (旧版中文强)、gte-Qwen2-1.5B-instruct (新一代、长上下文、指令微调强)。
  • 云端 API: SiliconFlow BAAI/bge-m3 (免费、稳、快)、Google text-embedding-004 (免费额度大、768维、效果好)、Z.ai embedding-3
  • 维度对齐: 向量数据库建表维度必须与 Embedding 输出维度一致 (bge-m3=1024, gte-qwen2=1536, openai-small=1536)。

2. 向量数据库(决定规模与速度)

场景推荐理由
本地嵌入/轻量/桌面端LanceDB / ChromaDB / SQLite-VSS无服务进程,文件级,零配置,Python/JS 原生嵌入。
本地服务器/单机高性能Qdrant (Rust, 极快, 功能全) / Milvus Lite / pgvector (PostgreSQL)Qdrant 单机王者;pgvector 如果已有 PG 数据库最省事。
云端免费/ServerlessTiDB Serverless (5GiB免费, MySQL协议, 极易用) / Supabase (pgvector) / Zilliz CloudTiDB Serverless 目前免费额度最大、协议兼容性最好、无冷启动延迟。
大规模/生产/混合检索Milvus / Elasticsearch / OpenSearch功能最全 (稀疏/稠密/全文混合检索、过滤、分片),但重、运维难。

3. Reranker 重排模型(提升召回质量的关键一跃)

  • 强烈建议加上! 召回 Top 20 -> Rerank -> Top 3 喂给 LLM,效果质变。
  • 本地: BAAI/bge-reranker-v2-m3 (多语言强)、gte-reranker (轻量快)。
  • 云端: SiliconFlow BAAI/bge-reranker-v2-m3 (免费)、Cohere Rerank 3.5 (免费额度)、Jina AI Reranker (免费额度)。

4. 文档解析/分块(Garbage In, Garbage Out)

  • 不要只用简单的 RecursiveCharacterTextSplitter (按字符切)。
  • 进阶免费方案:
    • Marker (PDF) / MinerU (PDF/OCR/公式/表格) - 开源 SOTA 解析,可本地跑 (需 GPU/CPU)。
    • Docling (IBM) - 新星,统一解析 PDF/DOCX/PPTX/HTML -> Markdown/JSON,保留结构,强烈推荐本地跑
    • Unstructured.io (开源库/云API) - 功能全但重。
    • RAGFlow / Dify / FastGPT 自带解析 - 都集成了类 DeepDoc/MinerU 能力,直接用平台自带最省心
  • 分块策略: 语义分块 > 标题层级分块 (MarkdownHeaderTextSplitter) > 固定大小重叠分块。保留标题上下文。

🚀 我的配置建议(按你的情况选一条)

你的情况推荐方案关键词
普通笔记本/MacBook (16G/32G 内存),想要最丝滑、最私密、最好看Cherry Studio + Ollama (跑 qwen2.5/bge-m3) + 本地知识库零配置、颜值高、纯本地、支持联网搜索/MCP
有闲置服务器/NAS/迷你主机 (4C8G+),想搭建团队/家庭共享知识库1Panel 面板 -> 一键安装 Dify / FastGPT / MaxKB + Ollama/vLLM 跑模型可视化运维、多用户、工作流、应用发布
无服务器、无显存、文档含大量复杂 PDF 表格/公式/扫描件RAGFlow (本地 Docker 部署需 16G+ 内存) / Dify Cloud / FastGPT Cloud + 云端免费 API (SiliconFlow/Gemini)文档解析最强、云端免费算力
程序员/极客,想完全自己写代码可控,或集成到自己业务系统LangGraph + Qdrant/TiDB + SiliconFlow API + Streamlit/FastAPI灵活、可测试、可监控、可扩展
重度 Obsidian 用户,不想离开编辑器Obsidian + Smart Connections (本地向量) / Copilot (调云 API)笔记即知识库、Git 版控、纯文本
想发布到微信/飞书/公众号/网页给别人用FastGPT / Dify / Coze (扣子) + 云端免费模型 API发布渠道全、应用编排强、免运维(Coze)

💰 “隐形成本”提醒

  1. 时间成本: 折腾本地部署、调参数、修 Docker 报错可能花费数十小时。Cherry Studio / Dify Cloud / Coze 能节省 90% 时间。
  2. 电费/硬件折旧: 老电脑 24H 跑 Ollama 约 30-50W,一度电约 0.6 元,月电费 ¥15-30。云服务器年付更划算且稳定。
  3. Token 成本: 云端免费额度通常够个人重度使用。SiliconFlow 送的 14 元 ≈ 1.4 亿 tokens (bge-m3) 或 700 万 tokens (Qwen2.5-72B),极其耐用。
  4. 数据安全: 涉及合同、代码、身份证、医疗记录 → 强制本地化方案 (Cherry Studio/Ollama/Dify自建)。闲聊、学习资料、公开文档 → 云端免费 API 香。

🎬 立即行动的最小步骤

  1. 想最快上手体验: 下载 Cherry Studio -> 设置里开 Ollama (自动下载模型) 或填 SiliconFlow Key -> 知识库拖入一个 PDF -> 提问。
  2. 想搭建长期自建服务: 买个 腾讯/阿里轻量服务器 2C4G/4C8G (年付~¥300-500) -> SSH 连上 -> curl -sSL <https://resource.fit2cloud.com/1panel/package/quick_start.sh> -o quick_start.sh && sudo bash quick_start.sh -> 面板应用商店搜 Dify / FastGPT / OpenWebUI -> 点装 -> 配置域名/HTTPS -> 填 SiliconFlow Key -> 用。
  3. 想深度钻研 RAG 技术: 克隆 RAGFlowDify 源码 -> 看 rag/ / api/ 目录下的检索/重排/分块实现 -> 跑通单测 -> 改造。

核心原则:先跑通最简单的闭环 (导文件->问问题->有答案),再迭代优化 (换模型、加 Rerank、调分块、换向量库、上工作流)。别上来就搞复杂架构。