AI技术核心概念

LLM

基本概念

“LLM ”指的是大语言模型，是一种利用海量文本数据进行训练、拥有巨大参数规模（通常是数十亿甚至数万亿）的深度学习模型。它的核心能力是理解和生成人类语言

比如我们常用的 GPT、Gemini、Claude 等都是大模型。

工作原理基础：

1、基于 Transformer 架构（特别是其中的注意力机制），这是处理序列数据（如文本）的强大神经网络架构。

2、采用自监督学习方式训练。模型通过预测文本序列中缺失的部分（例如，预测句子中被遮盖的下一个词）来学习语言模式和世界知识。

3、训练目标是让模型掌握语言的统计规律和语义关联。

MCP

基本概念

MCP（Model Context Protocol，模型上下文协议）是一套标准化协议，基本概念了AI模型如何安全、高效地与外部系统交互，可以将其比作"AI应用的USB-C接口"，提供了一种标准化的方式让大模型（LLM）获取和使用外部上下文信息。

从测试工程师的角度来说：它让AI模型变成你的“数字助手”，可以直接操作测试工具、读取数据库、分析日志，甚至自动修复问题。

类比：就像给测试工具箱装了一个“智能插座”——无论你需要连接JMeter、Selenium还是内部数据库，插上MCP就能让AI帮你干活。

关键能力

即插即用：预集成数千种工具（如Postman、Jira、Kafka），无需重复开发接口。
上下文感知：AI能理解当前测试场景（如“正在执行支付接口性能测试”），动态调整操作。
安全管控：限制AI只能访问授权的测试环境和数据，避免敏感信息泄露。

MCP工作原理：

MCP Host：比如：Cursor、trae等AI应用工具

MCP Client：内嵌在MCP Host里，通过标准的 MCP 协议与 MCP Server 进行交互，负责把AI的请求翻译成标准协议语言

MCP Server：由各种三方开发者提供的（如高德地图的Amap Maps），负责实现各种和三方资源交互的逻辑比如一个能读取本地文件的插件，或者连接公司数据库的程序，负责对接具体工具

Prompt

基本概念

即提示词/提示语，是指用户输入给AI模型的指令、问题或上下文信息，其目的是引导模型生成特定类型、特定内容或特定风格的输出。你可以把它理解为“给AI的指示说明”或“启动AI任务的开关”

关键要素：

指令：想要模型执行的特定任务或指令

上下文：包含外部信息或额外的上下文信息，引导语言模型更好地响应。

输入数据：用户输入的内容或问题。

输出指示：指定输出的类型或格式。

Agent

基本概念

Agent（智能体）是指能够感知环境、自主决策并执行行动以实现特定目标的智能系统。它不再是单纯响应指令的工具，而是具备主动性、推理能力和工具调用能力的“虚拟执行者”

核心架构：

RAG

基本概念

RAG（检索增强生成）是一种让AI变得更聪明的技术，简单来说，它就像给AI配了一个“实时更新的知识库”和“搜索引擎”，当 AI需要回答问题时，不是仅依赖其内部参数化的知识，而是主动去“查阅资料”（检索外部知识库），然后结合“查阅到的资料”（检索结果）和自身强大的语言理解与生成能力，最终给出更准确、更可靠的答案；

传统AI：像一个“闭卷考试”的学霸，回答问题全靠脑子里的知识储备，但知识可能过时，遇到没学过的问题容易瞎编（比如不知道2025年的新闻）
RAG：则像“开卷考试”的学霸，遇到问题先翻书查资料（比如公司内部文档、最新新闻），再结合自己的知识生成答案。这样答案更准、更新鲜，还能引用具体资料

RAG怎么工作？

核心流程：

用户查询 -> 向量化 -> 检索相关上下文 -> 组装上下文+查询 -> 构造提示 -> 大模型生成答案 -> 输出给用户

案例：

查资料：比如你问“公司最新的报销政策”，RAG会去企业内部文档库搜索相关文件
整理重点：把查到的资料挑出有用的部分，比如报销金额、流程等
生成答案：AI结合查到的资料和自己的语言能力，写出一段人话，比如：“根据2025年最新政策，差旅报销需在3个工作日内提交……”

AGI

基本概念

AGI（Artificial General Intelligence）即通用人工智能，指的是能够像人类一样全面理解、学习和执行任何智力任务的 AI 系统。它与当前主流 AI（如 ChatGPT）有本质区别；现状还尚无真正 AGI

AGI 的核心特征

幻觉 (Hallucination)

基本概念：AI编造虚假信息、无依据内容、错误事实。-问题：不准确、不可靠、误导、无法验证。

-解决：RAG、检索增强、事实核查、安全对齐。

-类比：AI “说谎”。

多模态模型 (Multimodal Model)

基本概念：能同时处理文本、图像、音频、视频等多种信息的 AI 模型。

核心能力：跨模态理解与生成（看图说话、语音转文字、文生图）。
代表：Gemini、GPT-4V、文心一言多模态版。
类比：五感俱全的 AI，不只会 “读字”，还能 “看图、听音、看视频”。

氛围编程 (Vibe Coding)

基本概念：用自然语言描述意图，AI 自动生成代码、调试、部署。

-核心能力：零语法、自然语言编程、自动调试、一键部署。

-代表：GitHub Copilot、Cursor、GPT-4 Code。-类比：用中文说需求，AI 自动写代码。