Agent 4周学习计划

学习天数

56h

总学时

GitHub 项目

八股题库

P0 必读

知识领域

学习进度

10/28 天已完成 · 最新: 5月13日 AutoGen Multi-Agent

4周路线图

周	日期	主题	核心产出	学时
第1周	5/4 - 5/10	Agent 基础认知 + 手写 ReAct Agent	★ 小项目1: ReAct Agent (150-300行)	13.5h
第2周	5/11 - 5/17	LangGraph / AutoGen / CrewAI + RAG 记忆	★ 小项目2: 长期记忆研究助手	13.5h
第3周	5/18 - 5/24	Reflexion / Plan-Execute / Multi-Agent + 评估	★ 小项目3: Multi-Agent 协作写作	13.5h
第4周	5/25 - 5/31	性能成本精讲 + 八股冲刺 + 模拟面试	★ 简历定稿 + 面试 Ready	16.5h

快速导航

第1周 (5/4 - 5/10)
Agent 基础认知 + 手写 ReAct Agent
查看详细计划 →

第2周 (5/11 - 5/17)
LangGraph / AutoGen / CrewAI + RAG 记忆
查看详细计划 →

第3周 (5/18 - 5/24)
Reflexion / Plan-Execute / Multi-Agent + 评估
查看详细计划 →

第4周 (5/25 - 5/31)
性能成本精讲 + 八股冲刺 + 模拟面试
查看详细计划 →

第1周 · Agent 基础认知 + 手写 ReAct Agent

5/4 - 5/10 · 总学时 13.5h

周一 2026-05-04 · 1.5h 简单 ✅ 已完成

学: Anthropic《Building Effective Agents》全文 + 笔记

练: 无(纯阅读)

背: ★ 题 1, 2, 9(Agent 概念 + 5 种 workflow 模式)— 当天读完即背,趁热打铁

产出: 笔记 200-400 字

[anthropic.com/research/building-effective-agents]

周二 2026-05-05 · 1.5h 简单 ✅ 已完成

学: ReAct 论文 + Lilian Weng《LLM Powered Autonomous Agents》前半

练: 无

背: ★ 题 3, 4, 6(ReAct + Plan-Execute + 核心组件)

产出: 笔记 + 自画 agent 架构图

[lilianweng.github.io/posts/2023-06-23-agent/]

周三 2026-05-06 · 1.5h 中等 ✅ 已完成

学: OpenAI/Anthropic function calling 文档

练: 用 Anthropic API 写一个 2 工具(查天气+算数)的 agent,纯手写不用框架

背: ★ 题 10, 11(Function Calling 底层 + Tool schema 设计)— 配合实战记最深

产出: ✓

Anthropic Tool Use 文档

周四 2026-05-07 · 1.5h 中等 ✅ 已完成

学: MCP 协议规范文档

练: 把昨天的 agent 改造成 MCP server

背: ★ 题 12, 13(MCP 协议 + 与 Function Calling 关系)

产出: MCP server 代码

[modelcontextprotocol.io]

周五 2026-05-08 · 1.5h 中等 ✅ 已完成

学: Tool schema 设计 + 错误处理最佳实践

练: 给 agent 加错误重试 + 工具结果验证

背: ★ 题 15, 16(工具失败处理 + 工具 vs prompt 取舍)

产出: 更新后代码

Anthropic《Writing Effective Tools》

周六 2026-05-09 · 3h 困难 ✅ 已完成

学: ★ 小项目 1:手写 ReAct agent(150-300 行)

练: 完成真实任务(GitHub repo 分析报告)

背: ★ 题 5, 7, 8(Reflexion + Multi-agent + 死循环处理)+ 复习题 1-9 一遍

产出: GitHub repo 雏形

Anthropic Tool Use Cookbook

周日 2026-05-10 · 3h 困难 ✅ 已完成

学: 完善小项目 1 + 写 README + 推 GitHub;读 Lilian Weng 后半

练: 完成项目;写一段简历版描述

背: ★ 题 14(大数据返回处理)+ 全周 Agent 概念题 + Tool/MCP 题(1-16)总复习

产出: GitHub 项目 v1.0 + 简历段落 + 周复盘

Lilian Weng blog

第2周 · LangGraph / AutoGen / CrewAI + RAG 记忆

5/11 - 5/17 · 总学时 13.5h

周一 2026-05-11 · 1.5h 中等 ✅ 已完成

学: LangGraph 教程前半:State / Node / Edge / Conditional Edge

练: 用 LangGraph 重写第 1 周的 ReAct agent

背: ★ 题 24, 27(LangGraph 与 LangChain 关系 + State/Node/Edge)

产出: LangGraph 版 agent

[langchain-ai.github.io/langgraph]

周二 2026-05-12 · 1.5h 中等 ✅ 已完成

学: LangGraph 教程后半:Subgraph / HITL / Checkpointing

练: 给 agent 加 checkpoint 和断点恢复

背: ★ 题 26(为什么手写不用框架)— 反向思考,加深理解

产出: 支持断点恢复的 agent

LangGraph 文档

周三 2026-05-13 · 1.5h 中等 ✅ 已完成

学: AutoGen 文档(focus: multi-agent conversation)

练: 跑通 AutoGen 官方 quickstart

背: ★ 题 25(三框架选择)— 上完课立刻背

产出: AutoGen demo 代码

[microsoft.github.io/autogen]

周四 2026-05-14 · 1.5h 中等

学: CrewAI 文档(focus: role-based agent)

练: 跑通 CrewAI quickstart;整理三框架对比表

背: 复习题 24-27(框架对比 4 题完整过一遍)

产出: ★ 三框架对比表

[docs.crewai.com]

周五 2026-05-15 · 1.5h 中等

学: RAG 基础:embedding / chunking / 混合检索

练: 用 Chroma 搭最小 RAG 接入 LangGraph agent

背: ★ 题 18, 19, 20(RAG pipeline + chunking + 混合检索)

产出: RAG agent 雏形

Chroma 官方 quickstart

周六 2026-05-16 · 3h 困难

学: ★ 小项目 2:LangGraph + 长期记忆研究助手

练: 能搜网页、读 PDF、存向量库、跨会话记忆

背: ★ 题 17, 21(短期/长期记忆 + Reranker)

产出: GitHub 项目 v2.0 雏形

LangGraph + Chroma 文档

周日 2026-05-17 · 3h 困难

学: 完善小项目 2;读《Lost in the Middle》+ Anthropic context engineering

练: 完成项目 + 周复盘

背: ★ 题 22, 23(Lost in the Middle + context 爆炸)+ RAG/记忆题(17-23)总复习

产出: 项目 v2.0

[anthropic.com/engineering/effective-context-engineering-for-ai-agents]

第3周 · Reflexion / Plan-Execute / Multi-Agent + 评估

5/18 - 5/24 · 总学时 13.5h

周一 2026-05-18 · 1.5h 中等

学: Reflexion 论文 + Self-Refine

练: 给第 2 周 agent 加 reflection,失败后自我修正

背: ★ 复习题 5(Reflexion 机制)+ 题 7(multi-agent)— 加深理解

产出: 带 reflection 的 agent

[arxiv.org/abs/2303.11366]

周二 2026-05-19 · 1.5h 中等

学: Plan-and-Execute / LLMCompiler 思路

练: 理解 plan 与并行化

背: ★ 复习题 4(Plan-Execute vs ReAct)— 此时应能讲透

产出: 笔记 + 代码片段

LangGraph plan-and-execute 教程

周三 2026-05-20 · 1.5h 中等

学: Multi-agent 模式 + AutoGen 论文

练: 在 LangGraph 尝试 supervisor 模式

背: ★ 复习题 7(Multi-agent 模式)+ 整理一周回顾

产出: supervisor demo

AutoGen 论文

周四 2026-05-21 · 1.5h 困难

学: Agent 评估:成功率 / 轨迹评估 / LLM-as-judge / 各类 benchmark

练: 为已有项目写简单评估脚本 + 接入 Langfuse/Braintrust 记录一次完整 agent trace(含截图)

背: ★ 题 28, 29, 30(评估方法 + benchmark + LLM-as-judge)

产出: 评估脚本 v1

τ-bench 论文 Langfuse quickstart

周五 2026-05-22 · 1.5h 中等

学: SWE-agent 论文(ACI 思想)+ Devin 技术博客; Agent 安全:OWASP Top 10 for LLM Apps 速览(30min)

练: 理解 coding agent 设计;思考自己 SGLang 项目怎么讲

背: ★ 题 31(调试 agent)+ 题 41 SGLang 故事大纲(招牌题,反复练)

产出: SGLang 项目面试故事大纲

[arxiv.org/abs/2405.15793] [genai.owasp.org]

周六 2026-05-23 · 3h 困难

学: ★ 小项目 3:Multi-agent 系统(Researcher + Writer + Critic)

练: 用 LangGraph supervisor 模式做协作写作

背: ★ 题 32, 33(系统设计:Code Review + 知识助手)

产出: GitHub 项目 v3.0

LangGraph multi-agent 教程

周日 2026-05-24 · 3h 困难

学: 完善小项目 3;为三项目补评估脚本

练: 周复盘 + 整理 3 个项目 STAR 故事(情境/任务/行动/结果各 2-3 句)+ 准备冲刺周

背: ★ 题 34(长任务 agent)+ 评估题(28-31)总复习

产出: 三个项目全部完成

第4周 · 性能成本精讲 + 八股冲刺 + 模拟面试

5/25 - 5/31 · 总学时 16.5h

周一 2026-05-25 · 1.5h 困难

学: 性能成本主题深度梳理(你的优势区); 选读:DSPy 论文(理解 prompt 即参数优化思想,30min)

练: 把 SGLang/vLLM/PD 分离/量化经验整理成可讲的故事

背: ★ 题 37, 38(延迟优化 + KV cache)— 优势区,务必讲到细节

产出: 性能优化故事大纲

回顾 SGLang/vLLM 文档 [arxiv.org/abs/2310.03714(DSPy)]

周二 2026-05-26 · 1.5h 中等

学: Agent 八股密集复习第一轮

练: 每题口头回答一遍(对镜子或录音),卡壳的标记

背: ★ 系统过 Agent 概念(1-9) + Tool/MCP(10-16)

产出: 卡壳清单 v1

回顾自己第 1-2 周笔记

周三 2026-05-27 · 1.5h 中等

学: Agent 八股密集复习第二轮

练: 每题口头回答一遍,卡壳的标记

背: ★ 系统过 RAG/记忆(17-23) + 框架对比(24-27)

产出: 卡壳清单 v2

回顾自己第 2 周笔记

周四 2026-05-28 · 1.5h 困难

学: Agent 八股密集复习第三轮 + 简历定稿 + 行为面试故事准备

练: 重写简历工作经历部分(agent 视角); 准备 3-5 个行为面试 STAR 故事(最自豪项目/最大失败/跨团队冲突/快速学习)

背: ★ 系统过评估(28-31) + 系统设计(32-36)+ 性能成本(37-41,优势区精讲)

产出: ★ 简历定稿 + 行为面试故事卡 + 卡壳清单 v3

之前 agent 视角简历版本

周五 2026-05-29 · 3h 中等

学: 投简历(目标 ≥ 10 家)+ 项目 STAR 讲解练习 + 行为面试故事对镜演练

练: 对镜子讲每个项目(技术面 2min + 行为面 2min),录音自评

背: ★ 重点突击卡壳题(从前三天清单挑出);题 41(招牌题)反复练

产出: 投递记录 + 项目讲解录音 + 行为面试录音

周六 2026-05-30 · 3h 困难

学: ★ 模拟面试

练: 找 ChatGPT/Claude 模拟 1 轮 agent 技术面 + 1 轮项目深挖

背: ★ 模拟中暴露的弱点题专项突击

产出: 模拟面试反馈表

周日 2026-05-31 · 3h 困难

学: 针对模拟面试发现的弱点补强;准备反向提问;最终复盘

练: —

背: ★ 41 题完整最后一轮 review,每题能在 90 秒内讲清答案要点

产出: 进入面试 ready 状态

必读清单

共 19 篇 · P0=10篇 P1=5篇 P2=4篇

P0 必读 (核心)

Anthropic《Building Effective Agents》

https://www.anthropic.com/research/building-effective-agents

第1周周一

Anthropic《Effective Context Engineering》

https://www.anthropic.com/engineering/effective-context-engineering-for-ai-agents

第2周周日

Anthropic《Writing Effective Tools for Agents》

https://www.anthropic.com/engineering/writing-tools-for-agents

第1周周五

Lilian Weng《LLM Powered Autonomous Agents》

https://lilianweng.github.io/posts/2023-06-23-agent/

第1周周二+周日

Anthropic《Effective Harnesses for Long-Running Agents》

https://www.anthropic.com/engineering/effective-harnesses-for-long-running-agents

第2周周日(选)

Anthropic《Building Effective AI Agents》白皮书

https://resources.anthropic.com/building-effective-ai-agents

第3周周日

ReAct 论文

https://arxiv.org/abs/2210.03629

第1周周二

Reflexion 论文

https://arxiv.org/abs/2303.11366

第3周周一

SWE-agent 论文

https://arxiv.org/abs/2405.15793

第3周周五

MCP 协议规范

https://modelcontextprotocol.io

第1周周四

P1 推荐

LangGraph 官方教程

https://langchain-ai.github.io/langgraph/tutorials/

第2周周一+周二

AutoGen 官方文档

https://microsoft.github.io/autogen/

第2周周三

CrewAI 官方文档

https://docs.crewai.com/

第2周周四

《Lost in the Middle》

https://arxiv.org/abs/2307.03172

第2周周日

Toolformer 论文

https://arxiv.org/abs/2302.04761

第3周选读

P2 选读

Generative Agents 论文

https://arxiv.org/abs/2304.03442

时间充裕

Voyager 论文

https://arxiv.org/abs/2305.16291

时间充裕

AutoGen 论文

https://arxiv.org/abs/2308.08155

第3周周三

τ-bench 论文

https://arxiv.org/abs/2406.12045

第3周周四

项目追踪

3个 GitHub 项目 + 八股准备 + 投递记录

小项目1:手写 ReAct Agent

Python + Anthropic API + MCP未开始

核心特性: ReAct 循环、工具调用、错误重试、MCP server

STAR 讲稿:
S:独立开发手写ReAct agent,实现LLM自主工具调用<br>T:完成GitHub repo分析报告<br>A:手写ReAct循环(MCP+错误重试),不依赖框架<br>R:可运行Python项目+GitHub开源

小项目2:长期记忆研究助手

LangGraph + Chroma + RAG未开始

核心特性: 网页搜索、PDF 阅读、向量记忆、断点恢复、跨会话调用

STAR 讲稿:
S:构建长期记忆研究助手,解决LLM跨会话遗忘<br>T:支持网页搜索+PDF阅读+向量记忆+断点恢复<br>A:用LangGraph+Chroma搭RAG pipeline,实现跨会话记忆<br>R:GitHub v2.0+多轮对话演示

小项目3:Multi-Agent 协作写作

LangGraph supervisor + Reflexion未开始

核心特性: Researcher/Writer/Critic 三角色、反思修正、评估脚本

STAR 讲稿:
S:设计Multi-Agent协作写作系统<br>T:Researcher+Writer+Critic三角色协作产出文章<br>A:LangGraph supervisor模式+Reflexion反思修正+评估脚本<br>R:GitHub v3.0+协作效果对比数据

八股准备状态

类别	题目数量	准备状态
Agent 概念基础(workflow vs agent / ReAct / Plan-Execute)	8-10 题	☐
Tool Use & Function Calling(底层机制 / schema 设计 / MCP)	5-8 题	☐
RAG & 记忆系统(chunking / 混合检索 / 长文本)	5-8 题	☐
框架对比(LangGraph / AutoGen / CrewAI)	3-5 题	☐
Agent 评估(成功率 / 轨迹 / LLM-as-judge)	3-5 题	☐
系统设计(给场景设计 agent 架构)	3-5 题	☐
性能与成本(KV cache / 长上下文 / 推理优化)— 你的优势区	3-5 题	☐

八股题库 (共41题)

按类别分组 · 点击展开完整答案 · 含基础分 + 加分维度 + 90秒面试版

全部 Agent概念 Tool/MCP RAG/记忆框架对比评估系统设计性能成本

①Prompt Chaining:任务拆串行步骤,适合翻译润色/文档摘要 ②Routing:分类输入分发专用处理器,适合客服意图分类 ③Parallelization:并行LLM调用聚合(Sectioning各自处理+Voting多次投票),适合内容审查 ④Orchestrator-Workers:主LLM动态分解子任务,适合代码修改(Claude Code模式) ⑤Evaluator-Optimizer:生成+评估循环,适合有清晰评价标准的迭代 ⑥核心思想:先用最简单方案,很多时候单次LLM call就够了

①准确性:数学/日期/查数据库必须100%准确→工具 ②实时性:需要最新数据→工具 ③副作用:写数据库/发邮件→工具(方便权限控制) ④成本:简单计算用工具(便宜),复杂推理用LLM(必要) ⑤可验证性:工具调用可审计/可重放 ⑥简单标准:LLM自己做有5%+失败率且有用户可见后果→用工具 ⑦反模式:为"稳"把所有能力做成工具,工具列表膨胀反而难选对

①Sliding window:只保留最近N轮 → 短对话 ②Summarization:旧对话压缩成摘要 → 长但结构清晰 ③外部记忆:向量库按需检索 → 需精确召回历史 ④Compaction:定期压缩context(Claude Code方法)→ 长任务agent ⑤Sub-agent隔离:子任务派给独立sub-agent只返回结果 → 最有效 ⑥Just-in-time retrieval:工具按需获取 → context是稀缺资源 ⑦Anthropic长任务方案:双agent+文件系统白板,Initializer准备+文件持久化,Coding agent每次读文件恢复

框架对比

#24 LangGraph 和 LangChain 的关系是什么?为什么有了 LangChain 还要做 LangGraph? 面试频率: 中

#28 怎么评估一个 Agent 好不好? 面试频率: 高

①Prompt injection(最大头痛,无完美方案):纵深防御—指令数据分离(message role区分,system≠user/tool);危险工具加额外校验;输出用独立"安全LLM"审查;HITL checkpoint放在不可逆操作前 ②工具权限:按scope隔离(只读vs写);敏感操作HITL ③多租户隔离:每个agent实例memory/cache/retrieval独立,防止跨用户泄漏 ④输出过滤:PII检测/敏感词/citation校验 ⑤沙箱:代码执行(Docker/Firecracker microVM/gVisor) ⑥监控审计:工具调用日志;异常模式(高频敏感工具/重复危险动作/可疑参数) ⑦指令数据分离核心:不要把用户内容和系统指令拼同一message

①工作流5阶段:prompt spec设计(写清晰task spec:目标/约束/参考)→代码探索(让agent用grep/glob理解代码库)→逐步review实现(每步review非最后一次)→测试生成→跨场景泛化(复用代码) ②优势:复杂代码库探索效率高;跨场景方案抽象;测试生成减少漏测;文档同步生成 ③失败模式:过度抽象(引导"用最简单方式");边界case漏测(MXFP4的W4A4和W4A8 scale处理不同);性能直觉缺失(用profiling工具定位后告诉agent) ④经验:agent在well-defined工程任务效率提升5-10倍;架构决策/跨模块协调/新方法探索仍需人主导 ⑤定位:当非常聪明勤奋但需明确指令的初级工程师——给清楚就快又好,含糊就"看起来对实际不对"

模拟面试反馈

5月30-31日模拟面试 · 提前暴露弱点

2026-05-30Agent技术面(模拟)

Agent技术面(模拟)

考察范围: Agent概念/ReAct/Tool Use/MCP

目标: 暴露弱点→针对性补强

2026-05-30项目深挖(模拟)

项目深挖(模拟)

考察范围: SGLang MXFP4适配/三小项目/STAR故事

目标: 故事讲顺→能吸引面试官追问

2026-05-30系统设计(模拟)

系统设计(模拟)

考察范围: Code Review助手/知识助手/长任务Agent

目标: 架构表达清晰→体现设计思维

2026-05-31行为面试(模拟)

行为面试(模拟)

考察范围: 最自豪项目/最大失败/冲突处理/快速学习

目标: STAR完整→有细节有反思

评分标准

5分:流利自信,要点全覆盖,能主动延伸加分维度,面试官追问能深入

4分:要点基本覆盖,偶有卡壳但能自行修正,加分维度能提1-2个

3分:核心要点答出,但展开不够深,加分维度没提到,卡壳需提示

2分:只答出部分要点,有明显遗漏,卡壳严重,需要面试官引导