AIOps · AI智能运维

让信息化运维变得 便捷安全及时易控高效

不是监控大屏,也不是 AI 聊天壳子。峻网智维 AIOps 是面向真实运维现场的「AI 可执行运维控制台」——以资产为锚点,把发现、研判、确认、执行、验证、留痕串成一条可追溯运维闭环,让客户从「看见问题」走到「安全处理问题」。

6 AI 执行闭环
3 安全沙箱
5 访问控制
4 安全认证

让 AI 不止「懂运维」,更要「能干活」

市面上很多产品停在「告警聚合」或「AI 问答」,运维人员仍要打开终端、找脚本、手工执行。AIOps 把 AI 接到真实资产、真实指令和真实审计上——研判可信、执行可控、过程可查。

01告警太多
监控发现异常,但人工仍要判断原因、定位资产、做出处置。
02工具太散
监控、堡垒机、脚本、工单、知识库分散,处理路径反复切换。
03经验依赖人
不同运维排障路径不一致,新人难接手,经验留在个人脑子里。
04自动化不敢放开
脚本能跑,但缺少风险分级、确认、审批与可追溯审计。
05私有化难维护
客户环境多,交付后缺统一客户实例、凭据、版本与诊断管理。
市面常见产品能做到的客户仍然缺的我们的解决方案
传统监控告警指标采集 / 阈值告警 / 大屏看见异常不负责后续处置闭环AI 研判 + Agent 执行 + 审计
堡垒机 / 终端登录与命令审计留下操作痕迹不智能研判、不理解资产上下文资产上下文 + AI 计划 + 风险闸门
ITSM 工单流程审批 / 工单记录记录责任流转不直接连接真实指标与命令执行审批后自动执行 + 结果回写审计
通用 AI 聊天回答与脚本建议提建议不接现场资产,不能可靠执行Function Calling + 真实结果回流 + 审计
单点自动化脚本定时任务 / 批量任务执行命令没有研判、没有风险分级、没有售后体系AI 计划 + 风险确认 + 通知审计 + 售后运营

峻网智维AIOps 的定位不是替代某一个工具,而是把监控、AI、资产、执行和审计连接成统一运维闭环

峻网智维AIOps的亮点

峻网智维AIOps 在真实交付现场最强的两个支撑点,每一条都对应代码与文档可实证的工程能力。

差异化 01 · 闭环

AI 可执行闭环

从自然语言提问出发,AI 识别意图、定位资产、生成计划、评估风险,授权后通过 Agent 执行,最后把真实结果回流并形成可审计的结构化总结。

01
接入用户提问进入会话,生成可追溯的请求标识与上下文。
会话接入
02
理解识别运维意图,结合资产列表与画像定位目标资产。
意图 · 资产
03
规划AI 生成排障计划,引用知识库基线与本地实战剧本。
知识 · 计划
04
风险命令策略评估高危、特权、参数缺失等场景,触发确认或审批。
风险闸门
05
执行Agent 在客户侧执行命令,回传输出、耗时、退出码与状态。
Agent 回传
06
总结AI 根据真实结果生成结构化结论,进入会话与审计日志。
审计 · 复盘
系统支撑:云端 AI 服务(意图 / 规划 / 风险 / 总结)· 边端运维服务(资产 / 命令 / 审计)· 边端执行 Agent(客户侧采集与执行)
差异化 02 · 交付

商业级云边交付

AIOps 真正落到客户现场,难的从来不是功能,是跨网段接得进、私有化装得下、出问题查得到。网关 + 双 Key + 客户实例 + 诊断包,把交付链路串起来。

公司侧 · 运营管理
客户实例API Key / VPN Key发布 / 回滚标记诊断包归档知识库治理
云边接入网关
API + VPN 双 Key签名 + nonce 防重放IP 白名单能力配额事件转发
客户侧 · 运维执行
资产纳管命令执行OpenVPN Agent心跳与指标本地审计
系统支撑:云边接入网关(鉴权 / 签名 / 配额)· 运营管理后台(客户实例 / 凭据 / 发布 / 诊断)· OpenVPN 服务与 Agent(隧道与热应用)

AI运维对话+数据底座+安全闭环+云边交付

能力之间不是孤立的工具,而是按"入口 → 数据 → 安全 → 交付"四层组合成同一控制台。

分组 01

运维入口

一线运维日常工作集中入口,AI 对话与资产是核心。

AI 运维对话

自然语言发起排障,自动关联目标资产;对话与执行结果全程可回看。

信息化资产中心

统一查看主机配置、性能、进程、服务、容器与文件,作为对话与执行的上下文入口。

设备管理

设备纳管、凭据治理、SNMP / SSH / NETCONF 适配、配置备份与下发回滚。

分组 02

数据底座

让 AI 不再凭空回答,资产 / 指标 / 拓扑 / 知识共同参与判断。

资产画像与标签

系统画像 + AI 画像 + 标签治理,沉淀"是什么 / 干什么 / 谁负责 / 风险在哪"。

分层拓扑与发现

拓扑层级、链路确认、快照与差异对比,辅助影响面分析与故障定位。

观测中心

基础指标、链路质量、最近事件统一视图,覆盖 IT 基础设施 / 网络安全 / 应用性能三类视角。

分组 03

安全闭环

计划前 / 执行前 / 执行中三段式约束,配合审批通知形成可追溯链路。

风险确认与人机协同

对 sudo、特权读取、资产不确定、参数缺失等高风险场景自动触发人机确认或审批。

无人值守与故障自愈

自愈策略、告警规则、动作授权、白名单门禁,从低风险场景逐步沉淀可重复执行的剧本。

会话 · 命令 · 审计日志

会话、命令、执行结果与审批结果全留痕,可按会话 / 命令 ID 回看任一次执行链路。

分组 04

云边交付

面向私有化与售后场景,把客户实例、凭据、发布、诊断纳入统一管理。

云边接入网关

API + VPN 双 Key 鉴权,签名 + nonce 防重放,IP 白名单与能力配额。

OpenVPN 接入扩展

接入包导入、双 Key 校验、OpenVPN Agent 热应用、隧道状态与运行态路由。

运营管理后台

客户实例、网关凭据、发布任务、诊断包、知识库、用户角色统一管理。

一次「CPU资源利用高 → 排障 → 安全处置」的完整链路

下方为产品交互结构示意。真实控制台界面与数据将随产品 GA 同步发布,欢迎预约演示获取实时演示视频。

示意图 · 非真实截图

步骤 1-2 · 提问与意图识别

k8s-prod-01 这台机器 CPU 飙到 90%+,帮我看一下是什么原因。系统管理员 · 14:42
已锁定资产 k8s-prod-01(172.18.5.12 · Linux · 业务集群),将围绕 CPU 饱和度、TOP 进程、近 24h 指标趋势、关联容器进行排障。运维模型引擎 · 意图: 性能排障 · 风险: 普通

步骤 3 · 计划生成

排障计划(4 步,命中本地实战库剧本)中风险
1采集 CPU / Load / IO 最近 15 分钟趋势只读
2列出 TOP10 进程与 CPU 占比只读
3检查关联容器与重启次数只读
4必要时重启异常 systemd 服务需确认

步骤 4 · 风险确认

检测到潜在中高风险动作:systemctl restart <service> 第 4 步包含服务重启动作,需您确认后才会下发到 Agent。是否继续?
允许执行(保留审计)仅执行只读步骤

步骤 5 · Agent 执行回传

edge-agent · k8s-prod-01 · commandId 4f2c…exitCode 0 · 1.42s
uptime 14:42:06 up 31 days, 4:18, 2 users, load average: 6.21, 5.85, 5.40 ps -eo pid,pcpu,cmd --sort=-pcpu | head -5 PID %CPU CMD 8421 78.6 /usr/bin/java -Xmx2g order-svc.jar 1023 9.2 /usr/bin/dockerd 712 4.1 /usr/sbin/sshd docker ps --filter status=restarting CONTAINER ID IMAGE STATUS a91e2c8… order-svc Restarting (1) 2 minutes ago

步骤 6 · AI 总结

结论:CPU 高由 order-svc 容器频繁重启导致,单进程 CPU 78.6%。建议先查看 order-svc 最近 30 分钟错误日志,再决定是否回滚最近一次部署。已写入会话日志 · sessionId 9e1a… · 关联 commandId 4f2c…
请求 IDa3f2…
会话 ID9e1a…
命令 ID4f2c…
操作人admin
审计状态已记录
来一次真实演示? 按你的真实场景执行一次 AI 辅助排障 + 风险确认 + Agent 执行 + 审计回看。

让 AI 能做事,退得回、查得到

客户最担心的不是 AI 能不能做,而是事故之后能不能解释、能不能回退。我们把执行链路拆成"计划前 / 执行前 / 执行中"三段约束,每一段都留下可回看、可回退、可追溯的痕迹。

01 计划前 · 可识别

危险意图与知识来源先打标

模型生成计划前,先识别高危命令、敏感资产、破坏性动作;引用的知识也记录来源、版本与置信度,避免凭空建议。

  • 高危 / 特权动作先打风险标签
  • 知识引用可溯源:来源、版本、置信度
02 执行前 · 可拦截

命令策略再评估 + 人机协同

计划生成后做二次命令策略评估,对特权操作、资产不确定、参数缺失等场景强制进入人工确认或审批,AI 自己迈不过这道闸。

  • 高危场景必须人工授权
  • 资产不确定先消歧,参数缺失先澄清
03 执行中 · 可留痕

Agent 不黑盒,过程全回传

每条命令的输出、耗时、退出码、状态、失败诊断、取消与拒绝事件都实时回传,不存在"AI 一路跑到底再回来汇报"。

  • 命令输出 / 耗时 / 退出码 / 状态全字段落盘
  • 失败、取消、超时即时上报并入审计
04 执行后 · 可回退 · 可审计

链路全留痕,回退有依据

推理过程、决策链、执行日志、回滚依据构成一条可信链路;稳定且低风险的动作再逐步沉淀为可回退的标准化策略,扩大无人值守边界时也不脱手。

  • 会话 / 命令 / 风险 / 操作人逐项关联
  • 低风险动作沉淀为可回退剧本

面向私有化交付,按客户网络边界灵活接入

平台容器化交付,运维与执行 Agent 下沉到目标网络,资产/会话/审计数据优先在客户侧留存。模型可按客户环境接入本地推理或企业 AI 网关。

A

本地服务器部署

单节点快速上线,部署控制台、数据库、AI 接入、知识库与基础 Agent 执行链路。

B

私有云部署

对接现有虚拟化或云平台,按业务域拆分采集节点、凭据范围与权限边界。

C

离线隔离环境

支持离线镜像交付与内网更新,资产、会话、命令与审计日志优先在客户侧留存。

D

OpenVPN 跨网接入

接入包导入、双 Key 校验、OpenVPN Agent 热应用、隧道状态与运行态路由统一受控。

售后定位链路:从客户问题到诊断包归档

出现问题时,售后可按"客户实例 → 网关凭据校验 → 请求标识 → 会话标识 → 命令标识 → Agent 心跳 → 诊断包"逐层定位,避免现场翻日志。

客户侧客户实例实例 ID / 路由 / VPN 状态
网关凭据校验API / VPN 双 Key
请求requestId串联前后端 / 网关 / AI
归档诊断包工单 / 截图 / 日志

通知模板、策略与流水已具备,可对接客户现有短信 / 邮件 / IM 通道;Agent 命令白名单策略与审计字段已具备,按客户要求接入强拦截执行路径。