本站点使用Cookies,继续浏览表示您同意我们使用Cookies。 Cookies和隐私政策>

搜索

大模型应用迈向深水区: AI Agent工程实践与商业价值破局

2026年06月15日

当下的 AI 技术正加速与各个传统行业深度融合。尤其在金融领域,‘AI+’不再是选择题,而是必答题。AI 正在通过重塑业务流程、客户体验与运营模式,大模型场景落地需考虑成本最优、安全合规、业务价值显性、快速落地四个要素,这也为我们带来了前所未有的发展机遇。

AI Agent工程实践与商业价值破局

大语言模型(LLM)在银行业的应用正经历一场深刻的范式转移。从早期的边缘辅助、知识库问答,到如今全面渗透进前台客户交互、企业风控、后台自动化复杂流转,AI Agent(智能体)已不再是实验性的技术玩具,而是全面深入金融核心业务的全栈生产力引擎,正在从技术智能走向生产智能,也就是要结合企业私有数据与流程,基于开源大模型训练成覆盖核心业务的领域大模型。

然而,将开源大模型成功部署在银行私有基础设施上,不仅是一场严苛的系统工程,更是一场围绕业务结果(Business Outcomes)、算力成本(Cost Efficiency)与安全合规(Security & Compliance)的核心战役。大模型的规模化落地必须依托于算力工程、数据工程、模型工程、智能体开发工程、安全工程等核心支柱,并以此精准赋能银行前台、中台及后台三大核心业务场景。

AI Agent工程实践与商业价值破局

基于业务范围(Domain)执行路径(Method),将 AI Agent 分为三类,作为技术支撑商业诉求的顶层设计:

1. Task Agents(Certain Domain / Certain Method)
• 定位:边界清晰、规则固化的自动化场景;
• 场景:行内财务对账、合同非结构化要素提取;
• 核心价值:替代高重复机械劳动,追求零错误与极低成本。

2. Domain Agents(Certain Domain / Uncertain Method)
• 定位:业务域确定,但操作路径和工具编排需依赖大模型动态规划;
• 场景:前台智能呼叫、中台对公贷款审批;
• 核心价值:攻克特定业务深水区,实现专家级专业能力复制与业务增长。

3. Super Agents(Uncertain Domain / Uncertain Method)
• 定位:面向完全开放、跨系统跨部门的复杂未知环境;
• 场景:一体化协同超级应用,对客户、对内超级智能体;
• 核心价值:打破业务与数据壁垒,成为全行普惠的泛在超级生产力。

AI Agent工程实践与商业价值破局

四大核心工程:技术如何回应商业诉求

银行的本质是风险管理与精细化运营,任何技术创新都必须同时回应:能否带来业务增长?成本是否可控?是否绝对合规?我们的四大工程正是为此构筑的底层护城河。

• 算力工程——攻克“毫秒级延迟”并突破“Token 成本陷阱”:

在高并发语音客服面客场景中,延迟超过1.5秒会导致高达23% 的客户流失。算力工程通过四步优化(任务精简、Prefix Caching、Redis 缓存状态拦截、管道异步化),将端到端延迟压减至500毫秒左右,保障了业务结果。在后台超级智能体应用场景中,实施动态分场景化 Token 压缩策略设置,使基础设施运营成本降低 40% 以上,突破了成本壁垒。

• 模型工程——通过闭环数据积累金融硬核资产:

通用大模型因缺乏领域业务知识深度,例如在金融风控场景,构建了端到端闭环数据流水线(Closed-Loop Data Pipeline),通过数据特征工程、质量校验、数据合成以及专家在线标注(Expert-in-the-Loop),将资深专家的隐性经验沉淀为显性的思维链(CoT)数据集。这种定向微调让大模型具备了专家级推理能力,并让银行牢牢掌握核心资产,确保了数据主权与合规。

• 智能体工程——用 MoA 架构实现复杂业务流的“刚柔并济”:

智能体工程推出了混合智能体(MoA)模式下的多智能体应用架构,通过两层意图识别(全局路由与领域路由)进行多级路由识别。当客户突然打断或偏离当前工作流时,通过全局参数设定实现灵活调度。这种动态多任务切换既保证了对话体验的“柔性”(业务结果),又通过状态机确保了会话流转路径在业务合规边界内的“刚性”。

• 安全工程——零信任架构下的5层安全防护机制:

当 Agent 具备了跨系统调度与自主规划能力,它必须受到严格的约束。银行在 Agent 运行期内嵌了5 层安全工程框架:从底层的进程隔离,到基于零信任的工作空间切片、配置锁定以及拦截恶意注入的护栏引擎。这套机制架构确保了Agent在追求业务指标时,持续安全运行。

场景一:面客场景——前台智能交互与动态意图流转

传统智能化客户服务系统存在理解不深、不灵活等瓶颈,客户一旦打断流程便无法闭环。

智能体工程与算力工程的协同打破了这一僵局。系统采用MoA 模式下的两层意图识别。第一层(全局路由识别)对原始输入进行毫秒级的粗粒度语义分流;第二层(领域路由识别)将上下文推送到对应的领域路由智能体进行复杂意图识别,精准捕捉短句背后的真实诉求。当客户在探讨理财申购中途突然跳转去查询信用卡账单时,多场景智能体流程可控跳转能力在 500ms 内启动多任务切换,在线热挂载对应的账单智能体并无缝同步记忆。

场景二:风控场景——中台对公贷后评估与专家能力复制

金融风控场景要求极高的专业度与合规可解释性,不容许任何大模型幻觉。在对公放款审批智能化改造过程中发现,直接使用通用大模型进行风险评估,由于缺乏特定领域的推理路径,风控团队的最终业务接受度很低。

通过模型工程的介入,团队将资深风控专家评估企业风险的“多个特定维度加1个通用框架”深度显性化,利用闭环数据流水线完成数据特征工程、质量校验与数据合成,将专家的隐性经验转化为显性的Chain-of-Thought(CoT,思维链)数据集。经过微调后,模型的推理逻辑高度契合资深核保师的思维模式,使得风控团队对 Agent 的最终业务接受度可以达到85%以上。

场景三:后台场景——BankClaw Super App 泛在生产力助手

面向银行后台跨部门、跨系统的开放不确定环境,银行将长周期任务执行框架演进为企业级一体化协同超级应用——BankClaw Super App,扮演全能 Super Agent 的角色。

Claw类的应用消耗大量的Tokens, 为了突破成本壁垒,算力工程在此处实施了动态场景化 Token 压缩。为了完美平衡不同业务流对上下文时效性的高精度要求,我们内嵌了TTL(Time-To-Live,生存时间)分级生命周期管理,针对不同场景实施精准的压缩梯度与缓存留存控制:

• 核心业务(如风险合规与贷款审批):强制执行85% 压缩率以保持上下文极度精炼。由于此类业务的多轮跨系统深度推理需要极高的上下文稳定性,系统为其匹配了TTL 30分钟的长效留存策略,确保深度复杂任务在长周期执行中,绝对不因缓存提前失效而引发重新预填充(Prefill)的二次算力开销。

• 专业业务(如日常运营与多维数据分析):执行75% 适度压缩率。该场景下的市场与运营数据变动频繁,系统为其量身配置了TTL 10分钟的动态中周期策略,在保障高频连续分析能高效复用 KV Cache 的前提下,定时释放过期资源,防止内存空间因长上下文常驻而导致置换雪崩。

• 通用服务(如内部员工泛通用 Q&A 问答):维持65% 基准压缩率,保留更多语义冗余以维持交互的自然流畅。对此类临时性强、多单次会话的查询,系统应用TTL 3分钟的极短瞬时机制(或即用即灭模式),在会话快速结束后迅速回收 Token 占用的全部硬件系统资源。

另外,针对自主 Agent 在跨系统调度多系统 API 时易诱发的越权和死循环风险,安全工程通过次级调用控制(Secondary-Call Control)对死循环调用进行实时熔断,配合零信任的工作空间切片,彻底杜绝了数据跨部门越权泄漏的合规隐患,实现了极限成本控制与绝对安全合规的完美平衡。

大模型在金融核心业务的规模化落地,绝非单纯追求参数量和技术能力的堆砌,而是算力工程、数据工程、模型工程、智能体工程与安全工程相互融合、达到极致优化后的客户体验。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP