立即注册找回密码

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

手机动态码快速登录

手机号快速注册登录

搜索

图文播报

查看: 95|回复: 0

[分享] 2025 年 AI 工程师必读清单

[复制链接]
发表于 2025-5-10 11:27 | 显示全部楼层 |阅读模式

登陆有奖并可浏览互动!

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录 手机动态码快速登录

×
原文来自 Latent Space:The 2025 AI Engineer Reading List
我们精选了 AI 工程领域 10 大方向的 50 篇论文/模型/博客,涵盖:LLMs(大语言模型)、基准测试、提示工程、RAG(检索增强生成)、智能体、代码生成、视觉、语音、扩散模型、微调。零基础入门 AI 学习者建议从本清单开始。
虽然我们的 2024 年度精选系列已涵盖当年精华内容,但自从发布《如何运营论文研读社》后,我们频繁被问及适合新人或学习小组的系统性学习路线。本清单以 2023 年 a16z 经典书单为蓝本,针对 2025 年进行更新,重点关注工程实践方向。
本清单以 AI 工程师量身定制「必修读物」为标准,遵循以下原则:

  • 精选约 50 篇文献(相当于全年每周 1 篇[1]),可选扩展阅读。
  • 侧重阐释论文价值而非仅罗列名称,提供有效背景说明
  • 立足 AI 工程师实践需求,例如跳过《Attention is All You Need》等基础理论(原因:1. 已被广泛覆盖 2. 实际工作较少直接应用)
我们为以下每个技术方向精选了 5 篇「文献」:

  • 第一章:前沿大语言模型(LLMs)
  • 第二章:基准测试与评估
  • 第三章:提示工程、上下文学习(ICL)与思维链(Chain of Thought)
  • 第四章:检索增强生成(RAG)
  • 第五章:智能体(Agents)
  • 第六章:代码生成(CodeGen)
  • 第七章:计算机视觉(Vision)
  • 第八章:语音技术(Voice)
  • 第九章:图像/视频扩散模型(Diffusion)
  • 第十章:模型微调(Finetuning)
<hr/>第一章:前沿大语言模型(LLMs)
延伸学习建议:除上述模型外,还可以使用并学习其他 LLMs,范围很广泛:
第二章:基准测试与评估

延伸阅读:我们已在《基准测试 101》《基准测试 201》中详解上述内容,CarliniLMArenaBraintrust 专题则涵盖私有/竞技场/产品化评估(推荐阅读 LLM-as-Judge应用型 LLM 论文)。基准测试与数据集紧密关联。
第三章:提示工程、上下文学习与思维链

注:GPT-3论文《Language Models are Few-Shot Learners》已系统阐述上下文学习(ICL)原理,该技术与提示工程紧密相关。提示注入攻击作为必修知识点,推荐参考 Lilian WengSimon Willison 的研究成果。
特别提示:本章节实践价值高于理论研读,推荐结合Lilian Weng 博客Eugene Yan 教程Anthropic 官方《提示工程指南》+ AI 工程师研讨等进行学习。
第四章:检索增强生成(RAG)

特别说明:RAG 是 2024 年 AI 工程落地核心场景,需积累大量行业实践知识。推荐 LlamaIndex 课程LangChain 视频教程作为学习渠道,同时需持续关注「RAG vs 长上下文」技术路线之争。
第五章:智能体(Agents)

前沿动态:NeurIPS 2024收录多篇 SOTA 智能体设计论文UC Berkeley《LLM 智能体》慕课提供系统学习路径。注:本章未涉及智能体定义争议,但建议参考作者提出的定义框架
第六章:代码生成

行业观察:代码生成领域前沿已转向产业实践,实用工程建议以及 Devin 等代码智能体的核心技术仅见于行业博客/技术演讲而非学术论文。
第七章:计算机视觉(Vision)

行业现状:前沿视觉语言模型(VLM)研究趋于闭源(最后公开资料为 GPT-4V 系统卡衍生论文)。建议重点掌握 GPT-4o 视觉调优、Claude 3.5 Sonnet/Haiku、Gemini 2.0 Flash、o1 等商用模型,同步关注 PixtralLlama 3.2MoondreamQVQ 等技术动向。
第八章:语音技术(Voice)

行业建议:建议关注 Daily、Livekit、Vapi、Assembly、Deepgram、Fireworks、Cartesia、Elevenlabs 等创新企业(详见《2024 语音技术发展报告》)。NotebookLM 语音模型虽未开源,其我们尽可能描述了其建模过程作为技术参考。随着 Gemini 2.0 原生支持语音-视觉多模态,预计 2025 年后语音与视觉技术路线将深度整合。
第九章:图像/视频扩散模型(Diffusion)

拓展建议:推荐掌握 ComfyUI 工作流(专访),文本扩散音乐扩散自回归图像生成目前虽然小众但发展迅速。
第十章:模型微调(Finetuning)

学习路径:推荐通过 Unsloth 实践教程HuggingFace《开源大模型微调指南》掌握全流程。注:该领域是无穷深的兔子洞,其技术深度与 AI 研究科学家方向存在交叉。
<hr/>学习路径指引

本清单看似繁重,学习过程中难免出现倦怠期。请保持韧性,我们将持续更新至 2025 年。学习方法可自主设计,推荐参考《一小时高效阅读论文指南》。许多人会在评论区提出互助建议。
阅读愉快!
致谢:特别感谢 Eugene YanVibhu Sapra 对清单提供的宝贵建议。
参考


  • ^学习单元按&quot;论文家族&quot;划分(非严格单篇制),早期论文(如GPT-1/2/3)因技术代差可快速概览
  • ^https://www.latent.space/p/o1-skill-issue
  • ^历史意义论文(Vicuna/Alpaca等)相关性降低,仅作脚注保留
  • ^推理验证研究最新进展:关注 PRIME 技术解析与 DeepSeek R1 对 PRM 的批判性研究

原文地址:https://zhuanlan.zhihu.com/p/21156780803
楼主热帖
回复

使用道具 举报

发表回复

您需要登录后才可以回帖 登录 | 立即注册 微信登录 手机动态码快速登录

本版积分规则

关闭

官方推荐 上一条 /3 下一条

快速回复 返回列表 客服中心 搜索 官方QQ群 洽谈合作
快速回复返回顶部 返回列表