大模型 on Coder_Studio

Windows 环境下 OpenClaw 的安装与千问大模型配置

Fri, 20 Feb 2026 16:53:53 +0000

为了不占用 C 盘空间，重装系统也不丢失配置，本文详细记录了如何将 OpenClaw 安装在非系统盘，比如D 盘，并对接阿里云通义千问大模型的全过程。

主要是利用 NVM 和 npm 进行安装，方便后续一键升级，配置具有免费额度的Qwen API，这个只需要在阿里云百炼注册一个账号就能获得免费额度。

准备工作

1.在安装之前，在D盘创建以下目录：

1
2

D:\SOFT_WARE\OpenClaw\data：用于存放配置文件、日志和数据库。
D:\SOFT_WARE\OpenClaw\workspace：用于存放 AI 生成的代码和项目。

2.配置环境变量
新建系统环境变量：OPENCLAW_HOME = D:\SOFT_WARE\OpenClaw\data
这个操作的目的是将原本在 C:\Users\用户名.openclaw 的配置转移到 D 盘。

3.安装 NVM和npm

下载地址：https://github.com/coreybutler/nvm-windows/releases

安装后配置 NVM 路径：

`1`	`nvm root D:\SOFT_WARE\NVM`

安装满足要求的 Node 版本：

nvm install 22.12.0  
nvm use 22.12.0      # 切换到该版本
node -v  # 验证 Node 版本（显示 v22.12.0 则表示成功）
npm -v   # 验证 npm 可用

安装步骤

以管理员权限打开 PowerShell，执行：

`1`	`npm install -g openclaw`

验证安装的版本：

`1`	`openclaw -v`

配置 Qwen 大模型

以管理员权限打开 PowerShell，执行：

`1`	`[Environment]::SetEnvironmentVariable("DASHSCOPE_API_KEY", "你的sk-xxx密钥", "User")`

修改 D:\SOFT_WARE\OpenClaw\data.openclaw\openclaw.json 文件。

{
  "meta": {
    "lastTouchedVersion": "2026.2.19-2",
    "lastTouchedAt": "2026-02-20T04:31:04.294Z"
  },
  "wizard": {
    "lastRunAt": "2026-02-20T03:22:24.306Z",
    "lastRunVersion": "2026.2.19-2",
    "lastRunCommand": "configure",
    "lastRunMode": "local"
  },
  "agents": {
    "defaults": {
      "model": {
        "primary": "bailian/qwen3.5-plus-2026-02-15"
      },
      "models": {
        "bailian/qwen3.5-plus-2026-02-15": {
          "alias": "通义千问3.5 Plus"
        },
        "bailian/qwen3.5-plus": {
          "alias": "通义千问 Plus"
        }
      },
      "workspace": "D:\\SOFT_WARE\\OpenClaw\\workspace",
      "compaction": {
        "mode": "safeguard"
      },
      "maxConcurrent": 4,
      "subagents": {
        "maxConcurrent": 8
      }
    }
  },
  "models": {
    "mode": "merge",
    "providers": {
      "bailian": {
        "baseUrl": "https://dashscope.aliyuncs.com/compatible-mode/v1",
        "apiKey": "${DASHSCOPE_API_KEY}",
        "api": "openai-completions",
        "models": [
          {
            "id": "qwen3.5-plus-2026-02-15",
            "name": "通义千问3.5 Plus",
            "reasoning": false,
            "input": ["text"],
            "cost": {
              "input": 0.0025,
              "output": 0.01
            },
            "contextWindow": 262144,
            "maxTokens": 65536
          },
          {
            "id": "qwen3.5-plus",
            "name": "通义千问3.5 Plus",
            "reasoning": false,
            "input": ["text"],
            "cost": {
              "input": 0.008,
              "output": 0.008
            },
            "contextWindow": 1029000,
            "maxTokens": 32000
          }
        ]
      }
    }
  },
  "tools": {
    "web": {
      "search": { "enabled": true },
      "fetch": { "enabled": true }
    }
  },
  "gateway": {
    "port": 12345,
    "mode": "local",
    "bind": "loopback",
    "auth": {
      "mode": "token",
      "token": "你的自定义Token"
    }
  },
  "commands": {
    "native": "auto",
    "nativeSkills": "auto",
    "restart": true
  }
}

启动网关服务

OpenClaw 依靠网关（Gateway）提供网页交互界面。以管理员权限打开 PowerShell，执行：

1
2

openclaw gateway install --force  # 加 --force 避免残留配置冲突
openclaw gateway start

网页端使用与登录

在命令行输入

`1`	`openclaw config get gateway.auth.token`

获取登录 Token或者直接从 JSON 中复制。

打开浏览器访问 http://127.0.0.1:你的端口号

小贴士

1.Windows 路径在 JSON 中必须使用双反斜杠 \。
2.浏览器的无痕模式会丢失本地缓存，可能会导致每次刷新页面都要重新输入 Token。
http://127.0.0.1:你的端口号/?token=你的TOKEN

修改 openclaw.json 后需重启网关（openclaw gateway restart）才能生效；
升级 OpenClaw：npm update -g openclaw;

5.卸载网关：openclaw gateway uninstall --force。

6."port": 你的端口号 ➡️ 填写纯数字（如 12345）；

7."token": "你的自定义Token" ➡️ 填写任意字符串（如 openclaw_123456）

AI 浪潮下，工具的配置是第一步。希望这篇笔记能帮大家在 Windows 平台上少走弯路！

说说MCP的工作流程

Wed, 21 Jan 2026 17:29:21 +0000

1.首先主机应用程序启动并初始化MCP客户端，每个客户端与一个MCP服务器建立专属连接，确保通信链路的稳定性与安全性。

2.在系统初始化阶段，MCP Client首先从MCP Server获取可用的工具清单和能力描述，让模型知道有哪些可以调用的外部技能。

3.当用户输入一个问题后，MCP Client会将这些工具描述采用Function Calling格式传给LLM，让模型具备调用外部工具的能力。

4.LLM根据当前对话的上下文、用户问题意图以及工具能力描述，判断是否需要使用外部工具，并决定调用哪一个工具、传入什么参数。

5.如果模型发起调用请求，MCP Client会根据模型的选择，通过MCP Server发起标准化的工具调用请求，由MCP Server执行实际工具逻辑后，将结果返回给MCP Client。

6.当工具的执行结果被传回LLM后，由模型将这个结果与原始用户问题以及已有的上下文等信息进行整合，生成符合用户需求的自然语言回应。

7.最后，MCP Client将模型生成的回答展示给用户。

MCP协议的安全性设计包含哪些层面？

Tue, 20 Jan 2026 15:43:02 +0000

MCP协议的安全性设计主要是为了确保大模型系统在与外部工具和资源进行交互时的安全性和可靠性。

主要包含用户同意和控制、隔离与沙箱机制、加密传输与来源验证这3个层面。

1.所有模型对工具、资源和提示的访问请求都必须经过用户的授权，用户必须知道哪些数据是需要提供给大模型的，在授权之前应该了解每个工具的功能。

2.MCP将实际工具调用封装在MCP Server内部，模型本身无法直接访问敏感数据；沙箱机制对工具调用的执行环境进行限制，防止恶意操作对系统的破坏。

3.MCP内置的安全机制确保只有经过了验证的请求才能访问特定的资源，另外MCP协议还支持多种加密算法。

怎么将已有的应用转换成MCP服务

Mon, 19 Jan 2026 16:38:18 +0000

将已有的应用转换为MCP（Model Context Protocol）服务需要将该应用的功能封装为标准化的MCP工具、资源或者提示，再通过MCP Server对外暴露。

主要步骤如下：

1.首先需要识别应用中要提供给外部调用的功能，比如说API接口、数据查询、业务计算、资源检索这类能力。

2.再创建一个新的MCP服务，将其与已有的业务服务隔离开，通过标准化的内部API或SDK和业务服务进行解耦通信。

3.对MCP服务需要包含的工具功能描述、方法入参字段、类型、描述，以及方法返回值的字段、类型、描述进行标准化定义。

4.根据MCP协议规范，构建一个用于接收MCP 客户端请求、做标准化协议解析与参数校验、调用相应业务功能并返回标准化结果的MCP Server。

大模型的微调和预训练区别是什么

Mon, 19 Jan 2026 16:12:13 +0000

大模型微调（Fine-tuning of Large Models）是指在预训练（Pre-training）模型的基础上，使用特定任务的数据对模型进行再训练，使模型适应特定应用场景的需求，本质上就是迁移学习在大模型中的落地方式。

微调和预训练的区别主要在于目标、数据来源和训练方式。

1.预训练通常是在大规模通用数据集上进行训练，让模型学习通用的语言规律或者知识；而微调通常是在特定任务的数据集上进行训练，让模型适应特定的任务。

2.预训练通常采用的是无监督或者自监督学习的方式，而微调通常采用的是监督学习的方式。

微调在自然语言处理中的文本分类、命名实体识别以及计算机视觉中的图像分类、目标检测都有广泛的应用。

说说大模型中的PEFT

Sun, 18 Jan 2026 16:51:50 +0000

PEFT（Parameter Efficient Fine Tuning）参数高效微调是一种在微调预训练大模型时，只对适配器模块、低秩增量矩阵和提示嵌入这些少量的新增参数进行训练，并对原始模型的大部分权重进行冻结的策略。

PEFT能够在计算和存储成本大幅度降低的前提下，仍然能够保持与全量微调相近的性能。

那什么要有这样一种微调方法呢？

主要是全量微调对显存、算力以及存储的要求都非常高，并且迭代速度很慢，不利于多任务和在线更新；

如果是在小样本场景下还容易出现过拟合问题。

而我们的PEFT可以通过只更新数百万级别或者更少的参数，就能好实现高效微调和快速迭代。

PEFT的主要优势是：

1.PEFT方法能够将可训练参数比例控制在0.1%~5%之间，能够显著地节省计算资源和存储空间。

2.少量的可训练参数往往意味着反向传播与梯度更新的计算量大幅度下降，训练时间也能够缩短数倍，这样就能加快训练的收敛速度。

3.由于PEFT保留了预训练阶段学习到的通用知识，因此在数据稀缺或者小样本环境下，还能够降低过拟合的风险。

4.PEFT生成的Adapter、LoRA和Prefix这些增量模块可以和基础模型分离存储，这样不同的任务只需要加载对应的模块。

大模型中常见的微调方法

Sun, 18 Jan 2026 16:26:29 +0000

Fine-tuning大模型微调指的是在预训练模型的基础上，使用特定的数据对模型进行再训练，以适应特定应用场景的需求。

常见的微调方法分为全量微调、参数高效微调以及量化与混合微调这三类。

全量微调

全量微调是直接对预训练模型中的所有参数进行再训练，使模型适应特定任务或者领域的需求，这种方式可以获得最佳的任务性能，不过缺点也很明显，因为是对所有参数再次训练，所以计算和存储的开销极大。

参数高效微调（Parameter-Efficient Fine-tuning，PEFT）

参数高效微调只更新少量的参数，从而大幅度降低训练和存储的成本。

有以下6种方法：

Adapter Tuning 是在Transformer`每层中插入小模块，只训练Adapter。
LoRA（Low Rank Adaptation）为每层添加低秩分解矩阵，然后只对这些矩阵进行训练，是目前最流行的一种PEFT方法。
Prefix Tuning在输入前加入可训练的prefix tokens，模型本体权重完全冻结。
Prompt Tuning只训练用于任务提示的嵌入向量，不改变模型的内部结构，以提示的形式引导模型的行为。
P-Tuning通过可学习的伪提示目标来优化。
BitFit只更新bias参数，训练参数占比通常小于0.1%。

量化与混合微调

QLoRA结合了4-bit量化、LoRA、双量化和分页优化器，利用低精度存储与低秩适配，单卡就能对百亿级模型进行微调。

IR -QLoRA在量化阶段引入信息保留机制与弹性联结，进一步减少了量化带来的性能损耗。

常见的微调任务

Sat, 17 Jan 2026 18:16:33 +0000

大模型微调（Fine-tuning）是指在预训练模型的基础上，使用特定任务的数据对模型进行再训练，以适应特定应用场景的需求。

在实际的应用中，可以采取全模型微调、部分微调、参数高效微调等不同的策略，以适应不同的场景。

常见的微调任务主要🈶️以下几类：

1.将文本分为不同的类别

2.识别文本中的人名、地名等实体

3.根据指定的问题，从文本总寻找答案

4.生成摘要、段落总结等于输入相关的文本

5.将某种语言的文本翻译成另外一种语言

6.处理图文匹配、生成图像描述等多种类型的数据

MCP协议在大模型中的作用

Sat, 17 Jan 2026 18:15:49 +0000

MCP（Model Context Protocol）模型上下文协议，主要是为大语言模型和AI助手提供一个统一的标准化接口，突破了模型对静态知识库的依赖，使其具备了更强的动态交互能力。

像数据库、API等其他服务，只要是通过MCP接入，大语言模型都能理解并利用这些资源，从而扩展其功能和应用范围。

MCP主要由以下3个方面的作用：

1.MCP提供了统一的协议接口，可以实现一次集成，随处连接，简化了模型与外部系统的集成过程。

2.MCP能够使模型实时地访问最新的数据和工具。

3.MCP使得系统的各个组件可以更加模块化地协作，从而降低了系统的维护成本和出错概率。

MCP架构包含哪些核心组件

Fri, 16 Jan 2026 16:28:50 +0000

包含MCP主机、MCP客户端、MCP服务器、本地数据源和远程服务五大核心组件。

MCP 主机是希望通过MCP访问数据的程序。

MCP Server主要负责向 LLM 提供结构化上下文和可调用的操作能力。

MCP Server定义了资源、工具、提示三大类基础功能，这三类能力为语言模型提供了更强的上下文输入和交互能力。

MCP服务器可以安全地访问用户的计算机文件、数据库和服务这些本地数据源。

MCP服务器可以通过API连接到外部的系统。

MCP客户端是连接大语言模型与MCP服务器的桥梁，负责在模型与外部工具之间传递信息和协调操作。

说说你了解的向量数据库

Fri, 16 Jan 2026 16:27:12 +0000

主流的向量数据库有Milvus、Pinecone、Weaviate、Qdrant、Chroma等。

1. Milvus

支持TB级向量的增删改操作，以及近实时查询；

适合推荐系统、图像检索、NLP等场景。

2.Pinecone

开箱即用，高并发性能好；

适合实时搜索、快速原型开发等场景；

缺点是按使用量计费，使用成本较高；

3.Weaviate

支持文本和图像等多模态数据；

适合知识图谱和智能问答场景；

缺点是复杂查询时的延迟较高；

4.Qdrant

支持向量与元数据联合搜索；

适合推荐系统中元数据与向量结合的复杂查询；

5.Chroma

专注嵌入式向量存储，支持本地化部署；

适合中小规模数据；

解释一下向量数据库中的HNSW、LSH和PQ

Thu, 15 Jan 2026 17:53:06 +0000

HNSW、LSH和PQ是向量数据库中的3种核心索引与压缩技术，用于加速高维向量的相似性搜索。

HNSW

Hierarchical Navigable Small World（HNSW），在高维空间中，构建多层图结构，每一层都是一个小世界网络。

上层的节点比较稀疏，能快速跳跃式定位大致的范围；

下层的节点比较密集，用于精细搜索。

HNSW技术查询速度和精度的平衡比较优秀。

LSH

Locality-Sensitive Hashing（LSH），是由经过特殊设计的哈希函数，能够使相似向量以较高的概率映射到同一个哈希桶，不相似的向量尽量分散到不同的哈希桶。

在查询的时候，只需要搜索查询向量所在的哈希桶以及相邻的哈希桶，极大地缩小了检索范围。

LSH技术在推荐系统、图像检索等海量数据的近似查询场景中应用广泛。

PQ

Product Quantization（PQ）将高维的向量拆分成多个低维的子向量，对每个子向量集合进行聚类，生成聚类中心。

在存储的时候，用聚类中心的编号表示向量，从而大幅减少存储空间。

PQ技术常用于工业级的向量检索系统。

说说Copilot模式和Agent模式的区别

Thu, 15 Jan 2026 17:32:27 +0000

Copilot模式（副驾驶协助模式）是大模型作为“助手”提供实时的建议，比如代码补全、文案的润色等等，最终的决策权保留在用户手中

Agent模式（代理智能体模式）是可以自主驱动，大模型可以独立的拆解任务、调用工具完成端到端的操作。

除了这两个模式之外，还有一个Embedding模式（嵌入模式），这个模式主要是在后台进行辅助，将大模型作为一个隐藏的组件集成到现有的系统中，这种模式用户是无法感知的。

Embedding模式有很多的实际应用的例子，比如在推荐系统中，电商平台用Embedding理解商品和用户的兴趣，但是用户往往只能看到“猜你喜欢”。

说说Computer-Use的原理

Thu, 15 Jan 2026 16:54:17 +0000

Computer Use是让Claude能够操作计算机。

实际工作原理：

Claude通过截图观察屏幕的内容，基于视觉理解，Claude计算出需要点击或者输入的像素坐标，通过API发送鼠标移动、点击和键盘输入等指令，执行操作后再次截图，观察结果并决定下一步。

Computer Use场景：

在网页表单中填写信息并提交
执行需要多个软件协同的复杂工作流
操作如PS、PPT、Excel等桌面应用程序

说说你对Manus的了解

Thu, 15 Jan 2026 15:50:33 +0000

Manus是由Monica.im团队于2025年3月推出的全球首款通用型AI智能体，它的重大突破在于能够独立思考、规划并执行复杂的任务，可以直接交付诸如股票分析结果、简历筛选结果这些完整的成果。

Manus主要是通过一个中央模块，将用户的指令拆解为多个子任务，再通过不同的内部智能体或者工具执行，形成端到端的自动化执行流程。

Manus的底层还是调用了诸如Claude、ChatGPT这些大模型来实现规划和决策。

Manus的执行过程可以分为4个主要阶段：

1.规划器

基于LLM生成总体执行计划，并拆分子任务。

2.智能体/工具

每个子任务可以由不同的模型或者外部的API完成。

3.状态驱动和条件分支

执行过程中根据中间结果动态地决定是否需要重试、是否需要切换方案或者是否需要提前结束。

4.可回溯和异步执行

可记录全过程的执行“Trace”，可在Web控制台进行Debug，也支持后台的长期运行。

LangChain和LangGraph两者有什么区别

Wed, 14 Jan 2026 15:52:28 +0000

LangChain是基于链式结构的，像一个用于拼接模型、工具和记忆等组件的模块化AI应用框架，通过预定义步骤顺序执行，适合处理文档问答、简单客服这类线性任务。

LangGraph是基于图结构的，像一个专注于流程控制和任务编排的有状态执行图框架，支持循环、分支和动态决策，适合临床试验审批、多智能体投资分析这类需要多角色协作、状态跟踪的复杂任务。

在实际的开发过程中，一般简单任务用LangChain，复杂任务用LangGraph，对于特别复杂的任务则会考虑对这两者进行结合使用。

提示词的优化需要考虑哪些维度

Wed, 14 Jan 2026 15:06:27 +0000

提示词的优化需要考虑以下5个维度：

1.让模型清楚地知道要解决的是什么问题（目标明确）

2.用分点、markdown/JSON/分隔符拆解任务，使提示词的结构更清晰（结构清晰）

3.通过少量的输入输出样例告诉模型用户实际期望的结果到底长什么样，避免理解上的偏差（少量样本）

4.给模型定义一个身份，让模型的输出风格更加符合实际的场景（角色）

5.限制模型的输出范围，对字数、格式以及禁止的内容进行限定，避免模型出现幻觉（增加约束条件）

提示词模板中的常见字段：

角色定义	指定模型的身份
任务描述	用具体的指令多目标进行拆解
输入内容	提供原始数据或者问题案例
输出格式	规定结果的格式，比如输出markdown格式
约束规则	说明限制条件，比如回答不超过多少个字
评估标准	引导模型自检

怎么优化RAG的检索效果

Tue, 13 Jan 2026 16:06:35 +0000

主要可以从以下几个方面考虑：

1.保证知识库中的原始文档内容准确、结构清晰、格式规范，尽量减少水印、不相关图片等噪音。

2.由于过小的切片可能会导致语义不完整，过大的切片又可能会引入过多的无关信息，因此，需要采用合适的文档切片策略，避免固定的长度切分导致语义断裂。

3.为了后续进行更精准地过滤和检索，可以考虑对文档切片添加来源、日期、类别、标签等元数据。

4.使用大模型把用户的原始查询改写得更清晰、详细和规范一些，这样可以提高后续检索的准确性。

5.像关键词检索和向量检索都有不同的优势，可以将两者进行结合，比如先用向量检索召回语义相关的文档，然后再使用关键词检索进行精确匹配。

怎么实现AI的多轮对话功能

Tue, 13 Jan 2026 15:49:02 +0000

要实现AI的多轮对话功能，关键在于让AI能够记住与用户之前的对话内容并保持上下文的连贯。

可以使用Spring AI框架提供的对话记忆和Advisor特性来实现这个功能。

主要是通过构造ChatClient来实现功能更丰富、更灵活的AI对话。

ChatClient可以看成是一系列可插拔的拦截器，在调用AI前后执行一些额外的操作。

MessageChatMemoryAdvisor是实现多轮对话的关键Advisor，其主要作用就是从对话记忆中检索历史对话，然后将对话历史作为消息集合添加到当前的提示词中，这样的话，AI模型就可以记住之前进行过的交流。

ChatMemory接口中定义了保存消息、查询消息和清空历史的方法，MessageChatMemoryAdvisor也依赖于这个接口的实现来存取对话历史。

为了解决对话记忆仅存在于内存中，在服务重启之后会造成记忆丢失的问题，需要考虑将对话记忆进行持久化。

由于spring-ai-starter-model-chat-memory-jdbc的依赖版本较少，可以考虑自定义ChatMemory接口的方式实现：

开发一个实现了ChatMemory接口的FileBasedChatMemory类，再使用高性能的Kryo序列化库将对话消息序列化后保存到本地文件中，读取的时候再进行反序列化。

怎么分析LLM在并发访问时的性能瓶颈

Tue, 13 Jan 2026 15:28:15 +0000

试想一下这样一种场景：

如果一个GPU集群的LLM处理能力为1000 tokens/s，那么1000个用户同时并发访问的话，响应给每个用户的性能只有 1 token/s吗？

肯定不是。

因为LLM并不是简单的线性分配资源，而是通过批处理与并发调度的方式来提升吞吐量的。

LLM的核心计算是矩阵乘法，GPU的并行计算特性让“批量处理多个用户的tokens”耗时几乎不会增加，能充分地利用硬件资源。

如果每一次批处理包含100个用户请求，每个用户10个tokens，那么1000个用户可以分10批处理完，当用户的性能是10 tokens/s。

实际响应的速度取决于以下关键因素：

Token的长度：输入Token影响批处理耗时，输出Token影响总响应时间，流式输出可以优化体感延迟；
批处理策略：静态批处理简单并且易实现，动态批处理资源的利用率更高，连续批处理可以支撑超高并发；
资源排队机制：FIFO、优先级队列等等策略决定请求的等待时间，不影响最终的处理速度。

Spring-AI怎么实现结构化输出

Mon, 12 Jan 2026 16:12:09 +0000

结构化输出是将大语言模型返回的自由文本输出转换为预定义的数据格式。

Spring AI是通过StructuredOutputConverter机制来实现结构化输出的：

1.StructuredOutputConverter实现了FormatProvider接口，这个接口提供特定的格式指令给AI模型，这些指令附加到用户的提示词后面，明确地告诉模型应该生成何种结构的输出。

2.StructuredOutputConverter 实现了Spring的Converter<String, T>接口，这个接口负责将大模型返回的文本输出转换为开发者指定的目标类型。

Spring AI提供了多种内置的转换器实现：

BeanOutputConverter：转换为自定义Java实体类，在开发中最常用；

MapOutputConverter：转换为松散的Map键值对结构；

ListOutputConverter：转换为指定类型的集合结构。

解释一下Re-Reading

Mon, 12 Jan 2026 15:32:15 +0000

Re-Reading（重读），是一种通过让大语言模型重新阅读问题来提高其推理能力的技术。

有文献研究证明：

对于复杂的问题，重复阅读和审视问题有助于模型更好地理解题意和约束，从而能够生成更准确、更深入的回答。

在Spring AI中，可以通过自定义Advisor来实现Re-Reading功能：

1.创建自定义Advisor类，同时实现用于同步请求的CallAroundAdvisor接口和用于流式请求的StreamAroundAdvisor接口，实现后可以兼容所有大模型调用场景。

2.在Advisor的前置处理逻辑中，对用户的原始输入文本进行重读式Prompt增强改写。

3.将改写后的提示词传递给大语言模型进行处理。

介绍一下Spring-AI框架

Sun, 11 Jan 2026 15:43:59 +0000

Spring AI是一个基于Spring生态的AI应用开发框架。

通过提供统一的API和抽象，让Java开发者可以不用考虑底层实现的差异，更便捷地接入和使用各种AI大模型及其相关技术。

Spring AI框架的核心特性：

1.为聊天、文本转图像和嵌入模型提供统一的API，支持流式调用和同步，支持访问特定模型的功能。

2.支持OpenAI、微软Azure、Google、Ollama在内的主流AI模型供应商。

3.可以实现将AI模型的输出自动映射到POJO，方便在Java应用中处理。

4.支持与多种主流向量数据库的集成，通过跨向量存储的可移植API。

5.支持模型请求执行客户端定义的函数和工具。

6.提供文档抽取、转换和加载的组件，可用于数据工程和RAG知识库的构建。

7.为AI模型和向量存储提供了自动配置和Starter依赖。

8.提供类似于WebClient和RestClient的流式API，便于与AI模型交互。

9.提供标准化的Prompt模板引擎，支持动态参数填充和模板复用。

LangGraph的编排原理

Sun, 11 Jan 2026 14:57:27 +0000

LangGraph的编排原理是通过图结构将一个复杂的AI任务分解为可编排的节点，通过状态流转和条件边实现动态流程控制。

有节点、边、状态三个核心要素：

1.节点代表独立处理单元，每个节点负责接收状态并返回更新后的状态。

2.边定义节点间的流转路径，支持条件分支和循环。

3.状态贯穿整个流程的上下文数据，驱动节点间的动态交互。

通过画图描述逻辑任务，框架自动根据状态流转执行节点，支持复杂的多Agent协作和动态决策。

说说LangChain的核心架构

Sat, 10 Jan 2026 15:22:25 +0000

LangChain的核心架构主要由LangChain Libraries、LangChain Templates、LangServe和LangSmith四个模块组成。

LangChain Libraries

整个LangChain框架的基础，包含langchain-core、langchain以及langchain-community三个子模块。

其中，langchain-core提供了构建应用所需的核心功能；

langchain是构建链和代理的主要模块；

langchain-community整合了多个第三方库和集成。

LangChain Templates

提供了一系列适用于各种任务的参考架构模板，像问答系统、文档解析和对话管理等常见的任务。

LangServe

用于将LangChain构建的链部署为REST API的库，支持高并发请求和流式操作，适用于构建生产环境中的API服务。

LangSmith

这是一个开发者平台，提供调试、测试、评估和监控的功能。

LangChain有哪些核心组件

Sat, 10 Jan 2026 14:45:10 +0000

LangChain是一个专为大语言模型应用开发而设计的框架。

主要有以下6个核心组件：

1.模型集成。支持OpenAI、Anthropic、Llama等多种语言模型，提供了统一的接口，可以在不同模型之间切换。

2.提示词模板。通过模板化的方式，根据不同的输入生成相应的提示词，引导模型生成更加准确的输出。

3.记忆机制。通过存储对话的上下文信息，使得LangChain能够在多轮对话中保持上下文的一致性，提升模型的响应质量。

4.链式调用。将多个处理步骤串联起来，形成一个处理流程，使复杂任务的处理更加模块化和可复用。

5.智能体。Agent可以根据用户的输入动态地选择合适的工具来完成任务，实现更加灵活的任务处理。

6.工具集成。集成各种外部工具，提供访问外部资源的能力，扩展了模型的功能，使其能够处理更复杂的任务。

解释一下Selector、Channel

Fri, 09 Jan 2026 14:15:00 +0000

Selector

Selector是Java Non-blocking I/O中用于实现I/O多路复用的组件。

Selector有4种事件类型，分别是：

OP_READ	表示通道中有数据可读
OP_WRITE	表示可以向通道中写入数据
OP_CONNECT	表示通道完成连接操作
OP_ACCEPT	表示通道可以接受新的连接

Selector的作用有两个：

一个是通过一个Selector实例，程序可以同时监听多个通道的I/O事件。

另一个是Selector通常与非阻塞通道配合使用，可以实现高效地非阻塞I/O操作。

Channel

Channel是Java Non-blocking I/O中的一个核心概念，主要用于数据的读写操作。

Channel有四种类型：

SocketChannel	用于基于TCP的网络通信，可以与服务器或者客户端进行连接
ServerSocketChannel	仅用于TCP服务端，用于监听TCP连接
DatagramChannel	用于基于UDP的网络通信
FileChannel	用于从文件中读取或者向文件中写入数据

Channel是双向的，可以同时支持读取和写入。

传统的流要么是输入流，要么是输出流，只能是单向的。

因此，Channel比传统的I/O流更灵活和高效。

Channel可以结合Selector实现多路复用，从而处理多个并发连接。

大模型的结构化输出是什么

Fri, 09 Jan 2026 13:00:00 +0000

结构化输出是让大模型生成符合特定格式的数据，而不是自由文本。

其中，特定的格式可以是JSON、XML、表格等等。

这样的输出可以被计算机程序直接解析和处理。

常见的数据格式有：JSON、YAML、CSV、XML

常见的结构化文本有：表格、键值对

还有某些领域的特定格式，比如：SQL语句、HTML、LaTeX

要实现这样的结构化输出，需要在输入提示中明确要求输出格式，并用代码解析模型生成的文本，转换为标准结构，然后使用库或者框架自动验证和解析输出格式。

在RAG应用中-有哪些提示工程设计技巧

Thu, 08 Jan 2026 15:12:58 +0000

提示工程的设计技巧主要有：

1.提示中需要清楚地说明AI的身份、能力边界和目标任务。

2.需要用明确的格式指导AI输出。

3.明确告知AI只能基于检索到的资料进行回答，以免出现“幻觉”。

4.可以将提示设计成模板，预留动态的填充位，方便大规模复用和动态地填充检索内容。

5.如果没有检索到相关的内容，不要使用模型自身的知识储备进行推断，直接让AI显示地回复“未找到相关的资料”。

6.可以给1到2个优质的问答范例，让模型模仿输出风格和逻辑。

在RAG中选择Embedding-Model需要考虑哪些因素

Wed, 07 Jan 2026 14:43:53 +0000

在RAG中选择Embedding Model时，主要考虑的是以下7大因素：

1.模型能否精准地捕捉文本语义，准确性直接影响到向量相似度计算的可靠性。（语义准确性）

2.模型的推理速度能否满足业务的实时性要求，显存和内存的占用能否适配当下的硬件资源。（模型的效率）

3.是否专门针对某个垂直领域做过预训练或者微调，原生支持特定术语和逻辑。（领域适配）

4.是否支持业务所需的语言，以及具备跨语言对齐能力。（多语言支持）

5.模型的参数量和训练数据规模是否匹配语料的复杂度。（数据规模匹配）

6.是否开源、是否有活跃的社区在维护，API的调用是否灵活。（开放性与生态）

7.训练和推理的硬件投入成本以及使用成本。（成本）

说说RAG中的Embedding嵌入

Tue, 06 Jan 2026 15:43:40 +0000

把文本内容、图像、音频、视频等形式的信息映射为高维空间中的密集向量的过程就是“嵌入”。

向量是语义空间中的坐标，主要用于捕捉对象之间的语义关系和隐含的意义。

每个向量相当于文本的数字指纹，里面包含了文本的语义信息。

一般来说，语义相近的对象在向量空间中彼此接近，语义相异的对象则彼此远离。

在向量空间中进行数学计算可以判断两段话是否相关。

分块后的文本块需要先生成Embedding，存入到向量数据库中，在用户提问时，系统通过计算提问的Embedding 与文本块的Embeding之间的相似度，找到和用户的提问最相关的内容，再交给大模型生成回答。

那为什么需要Embedding呢？

主要是因为传统的检索比较依赖关键词匹配，难以应对同义词、上下文和多样化表达的问题。

Embedding是将文本映射到高维的向量空间，如果用户问“怎么泡咖啡”，经过Embedding之后可以将“咖啡的制作步骤”等语义相关的概念通过向量距离自动匹配。

为什么在RAG中需要提示压缩

Mon, 05 Jan 2026 14:11:44 +0000

在RAG（检索增强生成）中，提示压缩主要是对检索出的文档内容通过提取核心信息、过滤无关文本、压缩冗长内容的方式进行精简处理，使得最终输入给大模型的内容既能够保留关键的信息，又符合模型输入长度的限制。

那为什么要这么做呢？

因为RAG的生成效果十分依赖“输入给模型的文档质量”。

1.如果直接将大量拼接的检索内容输入给大模型，很可能会超出大模型的输入长度限制，而通过压缩可以将关键的信息浓缩进有限的token内。

2.检索出的文档中很有可能包含大量的无关内容，这些内容往往会稀释关键信息，最终导致大模型聚焦困难，抓不住重点，如果不经过压缩生成的回答可能出现偏差，甚至出现“幻觉”。

3.如果输入的文档存在较多的非必要内容，不经过压缩将增加模型处理和推理的计算负担，像商业的大模型都是通过token来计费的，因此还可能增加成本。

解释一下什么是查询拓展

Sun, 04 Jan 2026 15:03:51 +0000

查询拓展是指对用户的原始查询通过添加同义词、相关术语、隐含意图等信息的方式进行优化和补充，使得查询更加精准、覆盖范围更广，从而提升信息检索的效果。

接下来说说为什么在RAG中需要进行查询扩展？

如果原始查询不够准确或者覆盖范围不足，就会导致检索到的文档不相关或者信息不全，最终导致生成的回答质量会受到影响。

如果增加了查询扩展，当用户的用词和知识库中的术语不一致时，可以在扩展后匹配更多的相关内容；

还有就是用户的查询中的描述可能会比较简短或者模糊不清，这样在扩展后能够更加明确需求，使得检索更加精准。

说说混合检索

Sat, 03 Jan 2026 14:31:43 +0000

混合检索主要是为了提升大模型的上下文理解和回答的准确性，

因为向量检索更擅长语义的理解，但是对于一些专有名词就难以做到精准匹配。

而关键词检索的特性和向量检索相反，二者正好形成了互补优势，将两者结合能够大幅的提升检索结果的全面性和准确性。

在大模型RAG应用中，混合检索主要通过向量检索将文本转化为高维向量，计算语义的相似度，同时并行基于倒排索引算法等关键词检索来精准地匹配关键词，最后将两种结果通过权重的融合或者重排序模型进行合并，最终输出最优的答案。

说说A2A协议的5大设计原则

Fri, 02 Jan 2026 14:25:49 +0000

A2A（Agent2Agent）协议是为了打破现阶段各个Agent框架之间的隔离，让它们可以实现无障碍地交流而提出的一种AI智能体界的普通话标准。

A2A协议遵循5大设计原则：

1.传统的API是我调用你一下，你就响应一下。但A2A是把Agent当人看，而不是当工具来用。它允许Agent之间像同事一样进行协作，它们可以自己商量怎么完成任务。（自主性）

2.A2A协议是建立在现有标准之上的，底层用的是HTTP、SSE、JSON-RPC这些成熟的技术，所以企业现有的IT系统可以直接接入。（标准化）

3.A2A集成了企业级的身份验证和授权，和OpenAPI的安全标准看齐，可以确保Agent之间的交互是可控和安全的。（安全性）

4.有些AI任务，像写代码或者做研究这种，可能要跑好几个小时甚至好几天才能出结果，为了让用户不用傻等，能够随时查看状态，A2A设计了异步机制，通过SSE可以实时反馈进度。（异步性）

5.如果Agent只能发文字，而不能发语音和视频，就显得有些单调了。因此，A2A原生支持音频和视频流传输，为未来的语音助手和视频分析Agent预留了接口。（多模态）

解释一下RAG中的Rerank

Thu, 01 Jan 2026 16:44:33 +0000

Rerank其实一个是对初步检索返回的候选文档列表再次进行排序的过程。

如果把RAG的检索过程类比成公司的招聘过程，则有如下对应关系：

1.初步检索（Retrieval）这一步就类似于HR筛选简历，找工作的人往往很多，HR每天都可能收到上万份甚至几万份简历。

假设有1万份简历，1个HR每天工作8小时，那么1小时之内就得看完1250份，平均到1分钟以内就得看完20多份，这几乎是不可能的。

所以，不可能每份简历HR都会细看。

那她会怎么看呢，主要就是看关键词，比如Java、大模型等等，看到简历上有这些匹配的关键词字眼，就筛选出来。

这样做就会导致看似简历已经匹配上关键词了，但是候选人的能力可能还不太符合要求，只能选出前100个看似还行的候选人。

我们把这个场景对应到RAG的检索过程里面就是，向量检索，它虽然算得快，但是对语义的理解还差点意思。

2.重排序（Rerank）

这个过程就类似于企业招聘过程的业务面试，也就是主管把这100人的简历打印出来仔细阅读，如果觉得候选人的过往经历和工作经验很符合要求，就会约下一步的一对一业务面试。

这个过程花费的时间比较长，消耗的精力也更多，但是筛选出来的候选人也更符合要求。

这也就是RAG检索过程的Rerank，可以精准地判断初步检索返回的文档是不是真正能够回答用户的问题，最后再喂给大模型去生成一个答案。

解释一下RAG

Wed, 31 Dec 2025 15:12:08 +0000

我们可以把大模型想象成一个学霸，这个学霸有两个缺点，一个是他的知识存在滞后性，还有一个就是他不懂一些内部的机密。

RAG（Retrieval Augmented Generation）检索增强生成，其实就是为了解决这两个问题而出现的。

RAG的流程就是检索➡️增强➡️生成：

1.当用户提问时，先不急着去问大模型，而是先去向量数据库中，把和这个问题相关的资料片段全部给找出来；（检索）

2.接下来，把用户提的问题和第1步找到的资料片段缝合在一起，变成一个新的、信息量也更大的提示词；（增强）

3.把第2步生成的提示词喂给大模型，这个时候大模型再根据我们提供的资料，可以生成一个更为准确的答案。（生成）