未变段落
网络上有很多 AI 相关的教学,但这些教学要么讲得太复杂,要么引入了许多并不长久的概念。如果你在读计算机专业,这样的内容或许会有用。但对于大部分人来说,需要的是另一种教学。
未变段落
我认为,使用 AI 是一件非常简单而又符合直觉的事情,我只需要将一些简单的概念引入给读者,就足以帮助大家打开 AI 世界的大门。为此我编写这篇指南,将那些我认为基础的、长期有效的概念和使用方式传达给各位。
未变段落
如果你对于如何在今后的工作和学习中使用AI缺乏了解,例如仅使用过 AI 对话的功能,这篇指南很适合你。这篇指南尤其适合刚刚毕业、即将踏入大学的高考生们,时代正在迎来剧变,在大学期间更有效地利用 AI 将是关键。
未变段落
本文中以“概念补充”方式引入的内容均为选读。
未变引用
概念补充:AI 是一种极其高效的工具,我们应了解两类事情:如何使用工具以及如何避免过度依赖工具。这篇指南主要着眼于如何使用工具,但读者也需对 AI 的双刃剑效应有所了解。让 AI 成为你臂膀和大脑的延伸,而非替代大脑本身的存在。我的做法是确保自己在思考比AI更高一个层级的事情,而非全盘交给 AI。以软件开发为例,假如让 AI 去编写具体的模块,人类就要去想架构;假如让 AI 去设计架构,人类就要去想用户需求和功能设计。
未变无序列表
AI 能做什么事情?
如何确认自己的需求?
如何让 AI 完成需求?
未变段落
AI 的能力边界正在不断扩张,我们自然无法预料 AI 智能在未来的发展。但我们可以将 AI 的能力看作由两个方面组成,一方面是智能能力,另一方面是工具能力。智能能力即大模型本身所具备的智能,是一种不断发展的能力。而工具能力则建立在智能能力的基础上,代表着 AI 现在能够被我们当作哪些形态的工具。
未变段落
AI 的工具能力也在发展,但基本可以归为以下三种:
未变无序列表
对话式内容生成
任务执行
构建可复用流程
未变段落
前两者的区别是 AI 能够使用的能力不同,后两者的区别是直接执行的对象不同,下面会解释这两点。
未变段落
这是最常见的类型,在网页中使用的 AI 就是这样。你提出一个问题或一个需求,AI 给你一段回答或一份内容。
未变无序列表
思维链:进行多轮思考,在思考轮次之间插入工具调用,工具即以下两项。
网页搜索:搜索关键词以获取网络信息。
通过已连接的应用获取信息:例如将受支持的笔记软件连接到 AI,AI 将在有需要时从中获取信息。
未变段落
由于网页中的 AI 并未运行在本地,无法读取、修改本地文件,所以其能力基本表现为“一问一答”式。
未变段落
本地 Agent 是 AI 模型的外壳,它就像给AI装上了更加健全的四肢。Agent 可以为你执行任务,跳出“一问一答”式的限制。它具备网页AI的全部能力,同时还可以使用以下能力:
未变无序列表
读取本地文件内容
创建新文件或修改现有文件
启动应用、通过模拟点击等方式操作应用
截图并理解其中内容
通过已连接的应用执行操作
未变段落
现在,Agent 基本上可以在电脑上做人类可做的一切事情。不管是整理课件、从许多文档中提取重点、按要求在表格内填写内容、帮你操作某个软件然后写一份测试报告,都在它的能力范围内。
未变引用
概念补充:连接,一般指的是通过特定协议,让 AI 可以像人类一样更顺畅地使用某些应用,而非通过“模拟点击”这种并不契合AI运行逻辑的方式。发起连接的AI可以是运行在本地的 Agent、也可以是网页中的 AI;被连接的应用可以是网络应用、也可以是本地应用。许多常见应用都支持 AI 连接,例如笔记应用 Notion、建模应用 blender、设计应用 figma、代码托管应用 GitHub,AI 可以读取、修改其中的内容,使用应用的许多功能。
一般而言,网页中的 AI 能够连接的应用是有限的,只有被官方支持的那些应用才能够连接,而本地 Agent 则能够连接所有开放了连接功能的网络应用和本地应用。所以网页 AI 执行任务的限制要大得多。
“连接”这一概念并非统一术语,在 ChatGPT 中被称作“应用”,在 Claude 中被称作“连接”,但其功能基本是一致的。
未变段落
假设上文所说的任务都是单次执行的,现在我们不仅要 Agent 完成单次任务,还需要 Agent 提供一个反复多次触发该任务的方式。可以是每周每日定时触发,也可以是一键触发,这便是在构建可复用流程。
未变段落
看似都是在执行任务,但这里发生了执行主体的变化。单次任务是由 Agent 直接执行的,可复用流程则是由 Agent 构建的程序执行。
未变无序列表
读取我的笔记库,每周根据我的学习方向推荐一些优质文章。
每周在 arxiv 上寻找我可能感兴趣的论文并推送给我。
每天将我的备忘录和笔记整理成更加结构化的总览。
未变段落
这类需求比较难设计,它们有些来自于你的平时习惯,有些则是你以前不会去做但有了 AI 提升效率以后可以做的事。搭建这样的流程对于提升使用 AI 的能力很有帮助,推荐大家找一些方向尝试着搭一下。
未变段落
了解 AI 的能力边界很重要,通过上文你已经知道 AI 可以做什么样的事情(工具能力),但你可能还不清楚 AI 可以把这些事情做到什么程度(智能能力),这需要一段时间的使用。
未变段落
不过抛开对其智能的具体评估,我们不妨先用这样的思维来看待 AI:AI 是一个坐在你电脑前随时待命的硕士研究生,他基本能像你一样使用电脑,他的效率很高、知识面很广,并且完全听从你的命令。
未变段落
由于你可能尚不习惯在自己的流程中使用 AI,你需要在前期多刻意去想一想:当前有没有什么事情可以交给 AI 去做?
未变段落
接下来,你需要向他提出需求,这时你需要确认以下几件事。
未变段落
假设你的需求是基于一定信息量的,例如涉及到“我的喜好”、“我的研究方向”、“我的笔记”,首先需要确保 AI 能够获取这些信息。
未变段落
尽量不要依赖隐式的 AI 记忆,而是把信息放在你和 AI 都能够看得到的地方。在电脑上集中存放信息是个好办法,使用知识库可能为时过早,但可以先尝试将笔记、文档、学习材料分类存放在一个主文件夹下的子文件夹内,并将其作为 Agent 的工作目录。如果文件位置比较分散,可以写一个位置文档来索引这些内容,在使用 Agent 时让其读取。
未变段落
笔记应用往往是重要的信息源,能够让 AI 读取会方便很多。所以尽量选择支持连接功能(MCP)的应用,例如 Notion。
修改标题 · 位置 41→41
2. AI 需要反馈
未变段落
AI 在执行任务的过程中,需要能拿到执行情况的反馈,才能判断自己做得对不对、应该往什么方向调整。如果缺少反馈,这件事就很难真正做好。
未变段落
在一些专业任务中,反馈尤为重要,例如用 AI 调试机器人 PID、开发应用时实际 build 或跑测试、完成设计任务时用视觉验证效果。
未变段落
如果你确保 AI 在完成你的需求时能够拿到信息源与反馈,就可以正式开始向 AI 提出需求了。
未变段落
好消息是,今天的 AI 已经非常善解人意,你不需要像背咒语一样写固定的句式,也不必专门去了解提示词工程。
未变段落
把 AI 当作人沟通是很好的技巧,你需要考虑:如果对面是一个真人,我应该把事情交代成怎样才能让他做好?我可以给他哪些信息?
未变段落
沟通技巧可能有所差别,但语句内包含的信息量是一定的,某件事情说了就是说了、没说就是没说。如果我对于 AI 的工作有某个方面的期望,却没将这种期望告诉它,就不能指望AI的工作结果会如我所愿。
未变段落
尽可能精准地传达信息、自然地组织语句,基本就够用了。不过有时我们会遇到一种情况。
未变段落
我只知道需要 AI 做到什么效果,但不清楚中间过程如何实现。那就可以大方地把决策权交给 AI,但要给它方向性的要求。比如:
未变无序列表
“我希望这个流程每天凌晨自动运行,且开机也会自启”
“我希望最终的结果能方便分享给朋友”
“我希望能用电子邮件将结果推送给我”
未变段落
AI 可能会提供一些方案让你选择,从中挑它推荐的或者看着合适的就可以,尽管你不了解实现过程,但你可以追问“某方案能够达到什么效果”,与自己的预期相对照。
未变段落
如果你在熟悉的领域有已知好用的方案,告诉 AI 会有更好的效果。这在结合型场景下尤其重要,比如化学、法律、设计领域,你可能比 AI 更清楚一些细节。
未变段落
通过上文,大家应该发现了本地 Agent 具备许多网页AI无法实现的强大能力,配置一个 Agent 几乎是有用且必要的。
未变段落
基于当前情况,我非常建议大学生们想办法开通 ChatGPT Plus 会员,并且安装 codex 作为 Agent 使用。这是当前最综合、完善的方案,并且应该始终会具备前沿智能。codex 桌面端的完善程度在 GUI Agent 中是最高的,适合不熟悉命令行的新手使用。
未变段落
并且尽量使用自己的账号开通,而非购买的账号。因为大家使用一段时间就会发现,账号数据是宝贵的。购买的账号比较容易被封。相关教程网络上有很多,这里就不再赘述了。尽管前期开通有些折腾,却是一劳永逸的方案。
未变段落
这个方案的成本约为¥140/月,的确不太便宜,但十分有用。
未变段落
祝大家都能顺利利用 AI 改进自己的学习和工作,也欢迎大家通过协作方式共同改进这篇文章。笔者在此文章中的见解多为个人经验,愿大家不吝批评。