我为什么需要这个系统
每天打开手机,信息像洪水一样涌来:公众号文章、知乎热榜、GitHub 热门项目、技术博客……看到好的就收藏,收藏了就再也不看。
这不是我的问题,这是所有人的问题。收藏不等于学会,浏览不等于理解。
前阵子看到一篇文章介绍 Hermes + AutoCLI + Obsidian 的全自动知识库方案,思路不错:采集 → 处理 → 存储,全自动闭环。但我仔细看完发现,AutoCLI 能做的,OpenCLI 做得更多更好,而我们恰好已经在用 OpenCLI。
于是我就顺手搭了一套自己的全自动知识采集系统。
先看技术选型对比
| 环节 | 文章方案 | 我的方案 | 差异 |
|---|---|---|---|
| 采集引擎 | AutoCLI(Rust, 55+ 平台) | OpenCLI(Node.js, 162+ 站点适配器) | OpenCLI 覆盖更广,且有浏览器扩展加持 |
| 处理引擎 | Hermes Agent | Hermes Agent | 相同 |
| 存储后端 | Obsidian | Obsidian | 相同 |
| 调度方式 | task.toml + loop | Hermes cron | Hermes 原生 cron 更稳定 |
OpenCLI 的优势在于它不需要写爬虫,直接用 Chrome 的登录态就能抓取 162 个平台的页面——微信文章、知乎、B站、小红书、X 等。特别是微信公众号文章提取,目前 OpenCLI 是唯一稳定的开源方案。
实现:三样东西
整个系统只有三件东西:
1. 采集脚本
一个 shell 脚本,每天定时用 OpenCLI 从三个渠道收割素材:
- 知乎热榜 — 了解今天中文互联网在讨论什么
- 微信文章搜索 — 聚焦 AI + 知识管理方向的最新文章
- GitHub 热门 — 追踪开源社区的技术趋势
脚本的输出是结构化的文本,包含标题、摘要、热度、链接。
2. 编译智能体(Hermes cron)
这是最关键的一步。脚本产出原始数据后,Hermes 的 cron 任务接手,做三件事:
- 去重与筛选 — 扔掉低质量内容
- 语义编译 — 不是简单罗列链接,而是按主题归纳:技术趋势、好文章、实用工具、个人思考
- 写入 Obsidian — 每天一篇结构化的知识简报,存入 Obsidian 知识库
3. 知识沉淀(Obsidian)
每天编译完成的笔记长这样:
📡 技术趋势
→ AI 知识管理方向的 3 个新动向
📚 好文章
→ 推荐 2 篇值得精读的文章,附为什么
🔧 实用工具
→ 今日 GitHub 上的有用项目
💡 我的思考
→ 从今日内容中触发的个人联想和判断全部存在 Obsidian 里,支持全文搜索、双向链接、知识图谱。
完整流水线
每天 9:00
│
▼
OpenCLI 采集脚本
│ 知乎热榜
│ 微信文章精选
│ GitHub 热门
▼
Hermes cron 启动
│ 清洗原始数据
│ 筛选与去重
│ 分类与摘要
│ 编写个人思考
▼
写入 Obsidian
│ 知识简报/2026/07/2026-07-03-知识简报.md
▼
Telegram 推送摘要整个过程从触发到完成,不需要任何人工干预。每天早上花 1 分钟看推送的知识简报,就够了。
相比原始方案的改进
- OpenCLI 替代 AutoCLI — 覆盖更多平台,且我们已有现成环境
- Hermes 原生 cron — 比 task.toml + loop 更健壮,有重试机制和故障通知
- Obsidian 双向链接 — 不同于纯文件存储,编译后的笔记可以与其他笔记建立关联
- Telegram 推送 — 每天自动推送到手机,连电脑都不用开
后续方向
这只是第一版,后续可以加的:
- 按兴趣源定制 — 不只是知乎和微信,还能订阅特定博客、ArXiv 论文、行业报告
- 知识关联 — Hermes 在写入时自动创建 [[双向链接]],把新知识和旧知识连起来
- 定期复盘 — 每周自动生成一份知识消耗统计,哪些领域收集太多,哪些领域空白
- 问答接口 — 直接用自然语言问 Hermes “上个月关于 RAG 的文章有哪些”,它在 Obsidian 里搜索后回复
写在最后
这套系统的核心逻辑就一句话:从"人伺候知识库"变成"知识库主动服务"。
不是每天逼自己打开 Obsidian 记笔记,而是让系统自动把值得看的东西整理好,等你来看。区别就像"每天自己去菜市场买菜做饭"和"有个私厨每天把菜送到桌上"。
要搭这样的系统,你需要的就是三样东西:
- Hermes Agent(处理引擎)
- OpenCLI(采集引擎)
- Obsidian(存储引擎)
巧的是,这三样都是开源的,而且免费。