大模型应用迈向深水区： AI Agent工程实践与商业价值破局

2026年06月15日

朱并队

华为金融数据与AI军团总裁

当下的 AI 技术正加速与各个传统行业深度融合。尤其在金融领域，‘AI+’不再是选择题，而是必答题。AI 正在重塑业务流程、客户体验与运营模式，大模型场景落地需考虑成本最优、安全合规、业务价值显性、快速落地四个要素，这也为我们带来了前所未有的发展机遇。

AI Agent工程实践与商业价值破局

大语言模型（LLM）在银行业的应用正经历一场深刻的范式转移。从早期的边缘辅助、知识库问答，到如今全面渗透进前台客户交互、企业风控、后台自动化复杂流转，AI Agent（智能体）已不再是实验性的技术玩具，而是全面深入金融核心业务的全栈生产力引擎，正在从技术智能走向生产智能，也就是要结合企业私有数据与流程，基于开源大模型训练成覆盖核心业务的领域大模型。

然而，将开源大模型成功部署在银行私有基础设施上，不仅是一场严苛的系统工程，更是一场围绕业务结果（Business Outcomes）、算力成本（Cost Efficiency）与安全合规（Security & Compliance）的核心战役。大模型的规模化落地必须依托于算力工程、数据工程、模型工程、智能体开发工程、安全工程等核心支柱，并以此精准赋能银行前台、中台及后台三大核心业务场景。

AI Agent工程实践与商业价值破局

基于业务范围（Domain）与执行路径（Method），将 AI Agent 分为三类，作为技术支撑商业诉求的顶层设计：

1. Task Agents（Certain Domain / Certain Method）
• 定位：边界清晰、规则固化的自动化场景；
• 场景：行内财务对账、合同非结构化要素提取；
• 核心价值：替代高重复机械劳动，追求零错误与极低成本。

2. Domain Agents（Certain Domain / Uncertain Method）
• 定位：业务域确定，但操作路径和工具编排需依赖大模型动态规划；
• 场景：前台智能呼叫、中台对公贷款审批；
• 核心价值：攻克特定业务深水区，实现专家级专业能力复制与业务增长。

3. Super Agents（Uncertain Domain / Uncertain Method）
• 定位：面向完全开放、跨系统跨部门的复杂未知环境；
• 场景：一体化协同超级应用，对客户、对内超级智能体；
• 核心价值：打破业务与数据壁垒，成为全行普惠的泛在超级生产力。

AI Agent工程实践与商业价值破局

四大核心工程：技术如何回应商业诉求

银行的本质是风险管理与精细化运营，任何技术创新都必须同时回应：能否带来业务增长？成本是否可控？是否绝对合规？我们的四大工程正是为此构筑的底层护城河。

• 算力工程——攻克“毫秒级延迟”并突破“Token 成本陷阱”：

在高并发语音客服面客场景中，延迟超过1.5秒会导致高达23% 的客户流失。算力工程通过四步优化（任务精简、Prefix Caching、Redis 缓存状态拦截、管道异步化），将端到端延迟压减至500毫秒左右，保障了业务结果。在后台超级智能体应用场景中，实施动态分场景化 Token 压缩策略设置，使基础设施运营成本降低 40% 以上，突破了成本壁垒。

• 模型工程——通过闭环数据积累金融硬核资产：

通用大模型因缺乏领域业务知识深度，例如在金融风控场景，构建了端到端闭环数据流水线（Closed-Loop Data Pipeline），通过数据特征工程、质量校验、数据合成以及专家在线标注（Expert-in-the-Loop），将资深专家的隐性经验沉淀为显性的思维链（CoT）数据集。这种定向微调让大模型具备了专家级推理能力，并让银行牢牢掌握核心资产，确保了数据主权与合规。

• 智能体工程——用 MoA 架构实现复杂业务流的“刚柔并济”：

智能体工程推出了混合智能体（MoA）模式下的多智能体应用架构，通过两层意图识别（全局路由与领域路由）进行多级路由识别。当客户突然打断或偏离当前工作流时，通过全局参数设定实现灵活调度。这种动态多任务切换既保证了对话体验的“柔性”（业务结果），又通过状态机确保了会话流转路径在业务合规边界内的“刚性”。

• 安全工程——零信任架构下的5层安全防护机制：

当 Agent 具备了跨系统调度与自主规划能力，它必须受到严格的约束。银行在 Agent 运行期内嵌了5 层安全工程框架：从底层的进程隔离，到基于零信任的工作空间切片、配置锁定以及拦截恶意注入的护栏引擎。这套机制架构确保了Agent在追求业务指标时，持续安全运行。

场景一：面客场景——前台智能交互与动态意图流转

传统智能化客户服务系统存在理解不深、不灵活等瓶颈，客户一旦打断流程便无法闭环。

智能体工程与算力工程的协同打破了这一僵局。系统采用MoA 模式下的两层意图识别。第一层（全局路由识别）对原始输入进行毫秒级的粗粒度语义分流；第二层（领域路由识别）将上下文推送到对应的领域路由智能体进行复杂意图识别，精准捕捉短句背后的真实诉求。当客户在探讨理财申购中途突然跳转去查询信用卡账单时，多场景智能体流程可控跳转能力在 500ms 内启动多任务切换，在线热挂载对应的账单智能体并无缝同步记忆。

场景二：风控场景——中台对公贷后评估与专家能力复制

金融风控场景要求极高的专业度与合规可解释性，不容许任何大模型幻觉。在对公放款审批智能化改造过程中发现，直接使用通用大模型进行风险评估，由于缺乏特定领域的推理路径，风控团队的最终业务接受度很低。

通过模型工程的介入，团队将资深风控专家评估企业风险的“多个特定维度加1个通用框架”深度显性化，利用闭环数据流水线完成数据特征工程、质量校验与数据合成，将专家的隐性经验转化为显性的Chain-of-Thought（CoT，思维链）数据集。经过微调后，模型的推理逻辑高度契合资深核保师的思维模式，使得风控团队对 Agent 的最终业务接受度可以达到85%以上。

场景三：后台场景——BankClaw Super App 泛在生产力助手

面向银行后台跨部门、跨系统的开放不确定环境，银行将长周期任务执行框架演进为企业级一体化协同超级应用——BankClaw Super App，扮演全能 Super Agent 的角色。

Claw类的应用消耗大量的Tokens, 为了突破成本壁垒，算力工程在此处实施了动态场景化 Token 压缩。为了完美平衡不同业务流对上下文时效性的高精度要求，我们内嵌了TTL（Time-To-Live，生存时间）分级生命周期管理，针对不同场景实施精准的压缩梯度与缓存留存控制：

• 核心业务（如风险合规与贷款审批）：强制执行85% 压缩率以保持上下文极度精炼。由于此类业务的多轮跨系统深度推理需要极高的上下文稳定性，系统为其匹配了TTL 30分钟的长效留存策略，确保深度复杂任务在长周期执行中，绝对不因缓存提前失效而引发重新预填充（Prefill）的二次算力开销。

• 专业业务（如日常运营与多维数据分析）：执行75% 适度压缩率。该场景下的市场与运营数据变动频繁，系统为其量身配置了TTL 10分钟的动态中周期策略，在保障高频连续分析能高效复用 KV Cache 的前提下，定时释放过期资源，防止内存空间因长上下文常驻而导致置换雪崩。

• 通用服务（如内部员工泛通用 Q&A 问答）：维持65% 基准压缩率，保留更多语义冗余以维持交互的自然流畅。对此类临时性强、多单次会话的查询，系统应用TTL 3分钟的极短瞬时机制（或即用即灭模式），在会话快速结束后迅速回收 Token 占用的全部硬件系统资源。

另外，针对自主 Agent 在跨系统调度多系统 API 时易诱发的越权和死循环风险，安全工程通过次级调用控制（Secondary-Call Control）对死循环调用进行实时熔断，配合零信任的工作空间切片，彻底杜绝了数据跨部门越权泄漏的合规隐患，实现了极限成本控制与绝对安全合规的完美平衡。

大模型在金融核心业务的规模化落地，绝非单纯追求参数量和技术能力的堆砌，而是算力工程、数据工程、模型工程、智能体工程与安全工程相互融合、达到极致优化后的客户体验。

免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。

其他文章

朱并队

华为金融数据与AI军团总裁

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

大模型应用迈向深水区： AI Agent工程实践与商业价值破局

四大核心工程：技术如何回应商业诉求

场景一：面客场景——前台智能交互与动态意图流转

场景二：风控场景——中台对公贷后评估与专家能力复制

场景三：后台场景——BankClaw Super App 泛在生产力助手