智能日志监控与分析平台建设方案案现状概述50个机房&700+台各类网络设备大数据平台·日志管理与分析应用思科阿朗H3C华为中兴……Log文件Log文件Log文件统一日志管理集中日志查询错误日志告警监控分析应用单点设备监控分析为主以故障告警为主,预测的效果较差仍以人为设定规则为主对人员要求较高,维护工作效率低端口UP/DOWN监控流量监控设备健康度预测总体方案·利用大数据与AI机器学习技术,通过对日志数据的深度挖掘,实现智能化的日志分析与故障运维智能日志监控与分析平台设备管理数据清洗应用分析告警管理诊断运维集中监控大数据能力AI能力非结构化数据处理数据建模/标注机器/深度学习规则模型统一化日志处理应用级日志分析自动化告警诊断智能化监控预警主动化故障修复可视化集中监控全面整合数据历史故障数据运维知识风险判断规则数据整合加载日志数据SysLog文件连接相关人员维护工程师业务人员运维主管多终端连接总体架构·技术AI与大数据能力建构系统平台数据层RDMSRedisLog文件能力层流程配置规则配置任务调度数据处理大数据分析AI·机器学习系统层用户管理权限管理认证管理参数配置日志管理消息管理服务层查询分析智能监控自动告警智能诊断自主运维规则学习应用层规则管理任务管理设备管理模型管理集中监控数据统计监控管理告警管理诊断管理运维管理故障管理智能分析采集层数据采集数据抓取数据导入数据过滤数据清洗数据标注接入层平台总体业务应用蓝图智能日志监控与分析平台IT互联网大数据云计算实时监控故障诊断自主运维数据清洗智能分析故障告警数据分析可视化展示信息推送报表管理数据清洗数据标注数据建模机器学习规则管理智能诊断发现故障标准数据自动修复查询分析任务调度大屏统一监控信息推送与告警文件导入维护工程师运维主管设备管理员业务人员Log文件Log文件Log文件Log文件运维知识历史故障数据总体流程·智能化日志/故障监控及告警与自主化故障运维日志数据采集日志数据清洗日志告警监控设备故障告警故障风险告警智能故障诊断故障原因确诊自动故障修复人工故障修复人工风险确认告警事件库故障库人工故障处理发现故障识别风险智能风险诊断故障原因疑诊人工执行修复任务派送自动执行任务派送任务派送确认故障按照给出的解决方案执行即可原因诊断,处理建议原因诊断,处理建议清洗规则监控模型诊断知识库平台具备智能化的日志(故障/风险)智能化监控,及自主化运维能力,不仅可以进行及时发现各类故障以及潜在的故障风险,还可以在确诊故障后进行主动的故障修复处理,实现网络设备维护工作的智能化与自主化。机器学习素材库自动生成监控等规则日志数据库诊断知识库大量数据资料经验技术累积故障数据外部资料日志数据规则体系·智能日志监控与分析应用的核心,构建一个规范并可自我优化与学习的业务规则体系日志清洗规则用以对日志文件进行数据清洗处理可基于基础数据进行自我学习人工培植为主,机器学习为辅监控模型库用以对日志进行故障/风险监控基于数据进行自我优化学习机器学习为主,人工设置为辅告警规则当发现故障/风险时的告警规则人工规则配置运维知识库用以实现系统进行自主故障的修复处理支持通过执行脚本、指令等方法修复故障人工规则配置诊断知识库用来对发现的故障/风险进行诊断,以发现具体的故障原因可基于外部知识学习人工配置为主,机器学习为辅逐步构建全面、清晰的用户画像,为平台精细化运营提供更有力的支撑;为平台进入智能化运营做好准备。数据训练&机器学习机器学习·创建规则机器学习·增添知识设备管理·对所有要监控的设备进行统一管理设备管理基本信息管理设备部署拓扑设备分组管理对平台要监控的所有设备进行管理为每台设备设定一个唯一的编号对设备的基本信息进行管理,包括:设备编号、设备名称、类型、品牌、型号、用途、购买时间、说明等对平台中对设备的部署拓扑关系进行维护与管理支持设备部署拓扑结构的调整维护根据设备的部署拓扑进行对应日志的分析与故障的监控对各设备之间的关联关系进行管理对设备进行分组管理,设定设备之间的(层级/路由)关联关系可基于功能、...