All Pages Edit on GitHub

AI Application Foundations

这一页用来补齐学习 AI 应用开发前最容易缺失的基础知识。你不需要先把所有底层原理学完,但需要建立一套稳定的“工程地基”:知道一次请求怎么流动、模型在系统里扮演什么角色、数据怎么进入上下文、结果怎么被校验。

如果你已经熟悉后端开发,可以快速浏览;如果你是刚开始转向 AI 应用开发,建议先读完这一页,再进入 LLM Basics。

先理解 AI 应用不是只有模型

一个 AI 应用通常不是“用户直接问模型”这么简单,而是一条完整链路:

用户输入
  -> 前端收集问题
  -> 后端校验权限和参数
  -> 组织 Prompt 和上下文
  -> 调用模型或工具
  -> 解析和校验输出
  -> 返回结果并记录日志

模型只是链路中的一个能力节点。真正的应用还需要处理数据、权限、错误、延迟、成本、评测和用户反馈。

最小前置知识地图

基础知识 你需要理解什么 为什么重要
HTTP API 请求、响应、状态码、Header、Body 大多数模型能力通过 API 调用
JSON 结构化数据、字段、数组、对象 Prompt 输入、模型输出和工具参数常用 JSON
环境变量 把 API Key、数据库地址等配置放在代码外 避免泄露密钥,方便部署
后端服务 路由、参数校验、错误处理、日志 AI 应用通常需要服务端包一层
数据库 保存用户、文档、对话、反馈和评测结果 让应用从 demo 变成可持续系统
异步任务 文档解析、批量评测、长任务处理 避免用户一直等待
文件处理 读取 PDF、Markdown、网页和 Office 文档 RAG 和知识库系统的入口
权限控制 用户能访问哪些数据、能调用哪些工具 防止数据泄露和危险操作

这些知识不要求一开始很深入,但至少要知道它们在系统里出现在哪里。

HTTP API 基础

大多数模型调用都是一次 HTTP 请求。你至少要理解:

调用模型 API 时,常见结构是:

{
  "model": "model-name",
  "messages": [
    {
      "role": "user",
      "content": "请总结这段文本"
    }
  ]
}

如果请求失败,不要只看“报错了”,要先看状态码、错误信息、请求参数和鉴权配置。

JSON 和 Schema

JSON 是 AI 应用里最常见的数据格式。你会在这些地方用到它:

Schema 是对 JSON 结构的约束,例如字段名、类型、是否必填、枚举值范围。模型输出 JSON 后,代码应该用 schema 校验,而不是直接相信它。

环境变量和密钥

API Key、数据库连接串、第三方服务 token 不应该写在代码里。它们应该通过环境变量或密钥管理系统注入。

基本原则:

密钥泄露是 AI 应用很常见的安全事故,尤其是在让模型读代码、日志或配置文件时。

后端服务为什么重要

很多新手会直接在前端调用模型 API,这通常不适合生产。后端服务至少负责:

前端负责交互,后端负责边界。这个分工能让系统更安全,也更容易维护。

一次模型调用发生了什么

当你调用一个大模型 API 时,通常会经历这些步骤:

新手最容易忽略的是第 5 步和第 6 步:模型输出不是天然可靠数据,必须经过解析、校验和兜底。

数据流比模型名字更重要

学习 AI 应用时,不要只问“用哪个模型更强”,还要问:

能画清楚数据流,就已经理解了一半工程问题。

状态、记忆和数据库

AI 应用里的“记忆”通常不是模型自己记住,而是系统保存状态,再在需要时取出来。

常见需要保存的数据:

保存不等于每次都塞给模型。正确做法是根据当前任务选择相关部分,放入上下文。

同步任务和异步任务

有些任务可以实时完成,例如一次普通问答。有些任务应该异步处理,例如:

异步任务通常需要队列、任务状态、失败重试和通知机制。否则用户会一直等待,系统也容易超时。

Prompt、上下文和工具的关系

可以把三者这样理解:

名称 作用 例子
Prompt 告诉模型要做什么、按什么规则做 “你是客服质检助手,请按 JSON 输出问题类型”
Context 给模型当前任务所需的信息 用户问题、历史对话、检索到的文档片段
Tool 让模型获取信息或执行动作 搜索文件、查询数据库、创建工单

Prompt 是任务说明,Context 是当前证据,Tool 是外部能力。一个稳定的 AI 应用通常不是靠更长的 Prompt 解决所有问题,而是把三者合理分工。

RAG 需要哪些基础

进入 RAG 之前,先理解下面几个概念会更顺:

RAG 的本质不是“把资料都塞给模型”,而是“先找到相关资料,再让模型基于资料回答”。

Agent 需要哪些基础

进入 Agent 和 Tool Calling 之前,先理解:

Agent 的难点不只是“让模型会调用工具”,而是让工具调用可控、可追踪、可回滚。

日志和可观测性

AI 应用的日志不仅要记录“请求成功或失败”,还要能复现一次回答。

建议记录:

注意:日志要脱敏,不要保存完整密钥、身份证号、银行卡号等敏感信息。

评测和上线的基础思维

AI 应用上线前至少要回答这些问题:

没有评测,优化就会变成凭感觉调 Prompt。没有日志,线上问题就很难复现。

建议先做的 5 个小实验

做完这些实验,再学习 Prompt、RAG、Agent 和评测,会明显更平滑。

推荐补充的通用工程知识

如果你想走得更稳,可以补这些基础:

知识 推荐掌握程度
Git 会分支、提交、查看 diff、回滚自己的改动
SQL 会基本查询、过滤、排序、聚合
Web 后端 会写路由、校验参数、返回 JSON
Docker 会运行服务和管理环境变量
测试 会写单元测试和简单集成测试
日志 会记录请求、错误、耗时和关键业务字段

这些不是 AI 专属知识,但会直接决定你能不能把 AI 应用做成稳定产品。

学习检查点

下一步建议阅读:LLM Basics