WorkBuddy 深度评测:会「看」你屏幕的 AI 工作伴侣,到底有多聪明?
开篇钩子
我们都有过这样的时刻:正在浏览器里看一篇英文文档,遇到一段看不懂的技术描述,你的第一反应是什么?我猜是——选中文字、Ctrl+C、切到 ChatGPT、粘贴、输入「翻译并解释这段」、等回复、再切回来。这个流程大概 30 秒。但如果有一个工具能直接看到你的屏幕,你只需要选中文字、按个快捷键,它就自动理解上下文并给出解释呢?
这就是 WorkBuddy 的核心理念——一个驻留在你操作系统里的 AI 伴侣,能「看见」你当前在看什么,通过全局快捷键随时唤醒,跨应用提供智能辅助。
我在 Mac 上用 WorkBuddy 三周了,它既解决了一些我没想到的痛点,也让我对「AI 看着我的屏幕」这件事产生了新的焦虑。
核心体验
唤醒方式:真正的全局可用
WorkBuddy 安装后在后台运行,占用约 300-500MB 内存(对于 Electron 应用来说正常)。默认全局快捷键是 Cmd+Shift+Space(可自定义),按下去会弹出一个小悬浮窗——类似 Spotlight 或 Alfred 的 UI,但背后是完整的 AI 上下文理解能力。
关键区别:当你按下快捷键时,WorkBuddy 会自动截取当前活动窗口的内容(或使用系统级的 Accessibility API 获取文本),所以你不需要手动描述「我在看什么」。AI 已经知道你在看一份 Excel 表格、一段 VS Code 代码、或者一篇 Notion 文档。
这种体验的改变是微妙的但影响深远。以前我问 AI 一个问题,需要先花 10 秒构建 Prompt 的上下文:「我在做一个 React 项目,用了 Next.js 15,现在遇到了一个问题……」现在 WorkBuddy 自己看到我在 VS Code 里打开了一个 Next.js 文件、文件里有一个报红的 import 语句,我只需要说「帮我修这个报错」。
代码编辑场景
WorkBuddy 可以读取 VS Code 当前打开文件的内容和光标位置。如果你选中了一段代码再唤醒它,它会理解你需要的是「针对这段代码的帮助」而不是泛泛的问题。
我测试了以下场景:
- 选中一个复杂正则表达式 → 让它「解释这个正则的作用」
- 选中一个 TypeScript 类型定义 → 让它「写出这个类型的 JSON Schema」
- 看一个 500 行的函数 → 让它「重构这个函数,拆分成更小的单元」
代码相关的回答质量取决于你配置的模型后端(支持 OpenAI、Anthropic、以及兼容 OpenAI API 的任何服务)。WorkBuddy 本身只是一个「界面+上下文采集」层,AI 推理全靠后端模型。
有一个让我意外惊喜的功能:WorkBuddy 可以跨应用提取上下文。我在浏览器里看到一段 API 文档,选中,按快捷键,问「根据这个 API 文档写一个 TypeScript 类型定义」——它同时理解了浏览器里的文档内容和 VS Code 里的项目代码风格,生成的定义完美适配。
非编程场景的应用
WorkBuddy 的定位不是一个编程工具,而是「工作伴侣」。它在非编程场景下的表现同样值得关注:
文档撰写辅助:在 Google Docs 里写周报,选中上一周的 JIRA 截图,让它「根据这些 JIRA ticket 生成工作总结」。它调用 Claude Vision 识别截图内容,然后生成结构化的总结。
邮件处理:选中一封客户邮件,让它「提炼关键需求并给出回复草稿」。它理解邮件的语气(正式/非正式),生成的回复保持了对方的沟通风格。
数据整理:选中 Excel 表格里的一片数据,让它「分析销售趋势并生成文字总结」。它自动识别行列结构,给出带数据支撑的分析。
网页信息提取:浏览技术文章时选中大段内容,让它「用 100 字概括核心观点」。
这些场景的共同点是:WorkBuddy 让你省去了「复制→粘贴→描述上下文」这个机械流程。这个节省看起来很小(每次 10-30 秒),但一天执行 20-30 次,累计下来是一个可感知的效率提升。
功能深挖
上下文感知:不只是截图
WorkBuddy 的上下文感知不是简单的 OCR 文字识别,它利用了多种技术来理解当前内容:
- Accessibility API:读取应用程序的 UI 树,获取结构化信息(标题、按钮、文本域)
- 窗口识别:知道当前活跃应用是 VS Code、Chrome、还是 Excel
- 选中内容:如果用户选中了文字,选中的内容会被作为高优先级上下文
- 可选的屏幕截图:对于不支持 Accessibility API 的应用(如 Figma、视频播放器),可配置为截图模式
这种分层上下文采集相当于在对话之前,自动帮你写好了一段「我当前在 XXX 应用中,正在看 XXX 内容」。相比 ChatGPT 或 Claude Code 需要手动描述上下文的体验,WorkBuddy 的自动化带来了质的改变。
快捷键与操作集成
WorkBuddy 提供了一套丰富的快捷键体系:
Cmd+Shift+Space:通用唤醒Cmd+Shift+E:解释选中的内容Cmd+Shift+T:翻译选中内容Cmd+Shift+S:总结当前页面Cmd+Shift+R:重写/润色选中文本Cmd+Shift+G:生成代码(根据选中上下文)
每个快捷键可以绑定自定义 Prompt,这让 WorkBuddy 可以深度融入你的工作流。
跨应用操作
WorkBuddy 可以执行一些跨应用的自动化操作:
- 从浏览器提取数据 → 填充到 Excel 表格
- 从飞书对话提取需求 → 在 VS Code 里生成代码框架
- 从邮件提取会议信息 → 添加到系统日历
但说实话,这个功能的可靠性参差不齐。在 Chrome + Google Sheets 的组合下工作良好,但在 Safari + Excel 的组合下经常失败。跨应用操作的兼容性高度依赖于应用对系统 Accessibility API 的支持程度,而很多应用在这方面做得不好。
真实评测
优点
- 全局快捷键 + 自动上下文采集,大幅减少了「描述问题」的时间成本。
- 跨应用操作,统一了 AI 交互体验,不需要在每个应用里单独配置。
- 非编程场景出色:写文档、回邮件、整理数据、阅读技术文章——这些场景下 WorkBuddy 比编程专用 IDE 更有优势。
- 支持自定义后端模型,可以用自己的 API Key,成本可控。
- 选中内容自动感知,省去复制粘贴。
缺点
- 隐私顾虑是真实存在的:一个能随时看到你屏幕内容的 AI 工具,如果你处理敏感数据(工资单、医疗记录、内部机密文档),你可能需要考虑是否要信任它。
- 内存占用 300-500MB,对于老款机器是个负担。
- 跨应用兼容性受系统限制:某些应用(特别是不遵守 Accessibility 标准的旧软件)的上下文采集不准。
- 深度编码能力不如专用 IDE:WorkBuddy 没有项目级代码索引,复杂的跨文件重构还是得回到 Cursor 或 Claude Code。
- 快捷键有时会和应用自身的快捷键冲突,需要手动调整。
隐私是 WorkBuddy 被讨论最多的话题。官方声明「所有数据处理在本地完成,不上传到云端(除了调用模型 API 的部分)」——但这意味着你选中并处理的内容确实会发送到你配置的 AI 服务商的服务器。如果你用的是 OpenAI API,你的代码片段会经过 OpenAI 的服务器。如果你用的是本地 Ollama 模型,那数据完全留在本地。
社区反馈
V2EX 有一个获得高赞的讨论:「WorkBuddy 最好用的场景是它不写代码的时候——帮你读邮件、总结文档、分析数据。如果你主要用它写代码,你可能需要一个真正的 AI IDE。」
这条评论一针见血。WorkBuddy 的优势不在编码深度,而在广度——它覆盖了编程之外的整个工作流。
横向对比
| 特性 | WorkBuddy | Cursor | Claude Code | Apple Intelligence |
|---|---|---|---|---|
| 定位 | 通用工作伴侣 | AI IDE | Agent CLI | 系统级 AI |
| 代码编辑 | 基本 | 深度 | 深度 | 基本 |
| 跨应用 | 核心能力 | 有限 | 终端 only | 系统级 |
| 上下文采集 | 自动 | 手动(@) | 手动(CLAUDE.md) | 自动 |
| 非编程场景 | 优秀 | 无 | 无 | 良好 |
| 文档写作 | 优秀 | 无 | 无 | 良好 |
| 隐私控制 | 需配置 | 可配置 | 可配置 | 系统级 |
WorkBuddy 和 Cursor/Claude Code 不是竞争关系——它们解决不同的问题。WorkBuddy 是你的「全场景 AI 伴侣」,Cursor 是你的「编码工作台」。如果你的工作内容 80% 是编码,选 Cursor。如果你 50% 编码 + 50% 文档/沟通/整理,WorkBuddy + Cursor 的组合是最佳配置。
适用人群
推荐给: 知识工作者(产品经理、技术写作者、项目经理)、全栈开发者(编程 + 文档都在做)、需要频繁跨应用操作的用户、追求统一 AI 交互体验的人。
不建议: 处理高度敏感数据的合规团队、纯编码角色(AI IDE 更合适)、资源紧张的老机器、对 AI 隐私极度敏感的用户。
上手建议
- 先明确你的模型后端和数据传输策略:用本地 Ollama 模型最大化隐私,或用云端 API 获得最佳体验。没有对错,取决于你的需求。
- 快捷键会冲突,早点自定义:
Cmd+Shift+Space可能和你的 Spotlight 或其他工具冲突,安装后第一件事就是检查快捷键冲突。 - 为不同场景创建自定义快捷键:写邮件用
Cmd+Shift+M(唤醒+「帮我写一封礼貌的回复邮件」),解释代码用Cmd+Shift+E,总结文档用Cmd+Shift+S。 - 敏感场景用「临时关闭」模式:在查看薪资、健康记录等私密信息时,可以暂时 Disable 自动上下文采集(系统托盘菜单里一键切换)。
- 不要替代你的 IDE,作为补充:编码时 IDE 里的 AI 补全更快,但写完代码后写 PR 描述、更新 CHANGELOG、回复 Code Review 评论时切换回 WorkBuddy。
- 非编程场景才是它的主战场:如果你 80% 的工作是写代码,WorkBuddy 可能不是你的必需工具。但如果你经常需要写文档、回邮件、整理数据,它的价值会被放大。