产品概述
Pluto是由西安交大美林数据挖掘研究中心开发的数据挖掘平台,平台设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准)。Pluto强大的数据挖掘功能将复杂的统计方法和机器学习技术应用到业务数据当中,帮助客户揭示隐藏在业务系统和企业资源计划、结构数据库和普通文件等信息中的模式和趋势,让客户始终站在行业发展的前端。
Pluto具有完备的数据准备、数据处理、模型构建、模型评估、模型管理和结果展现功能,具有系统性、开放性、流程性和服务性等特征。可以帮助企业从业务数据中挖掘规律,并对关键问题做出预测,并可以应用模型部署到业务流程中,提高决策效率和执行力。目前已经成功应用于智能电网、制造业、航空航天、政府及公共服务业、电信业务和证券金融等众多领域。
产品特点
Pluto为多种商业问题和研究问题提供了基本的分析功能,架构如下图示:
数据挖掘功能架构图
Pluto以数据挖掘过程为基础,提供对数据文件、数据库等数据源的支持。数据挖掘平台通过数据的清理准备工作,用科学的数据挖掘方法建立模型,最终以图形或者表格等可视化的方式将数据挖掘的结果展示给用户,并支持模型参数调优。业务模型可发布为多种服务,供外部系统集成调用。
平台框架
平台框架是Pluto数据挖掘平台的基础运行环境,主要包括:算法动态注册、消息通知、数据传输、数据存储、数据缓存等功能。
算法动态注册
算法动态注册基于OSGI机制,可以在软件不停止运行、不重新对源代码进行编译的状态下,将新增算法动态注册到平台中,具有良好的扩展性与开放性。
大数据支撑
一方面平台数据加载与处理采用内存映射文件机制,另一方面平台算法利用增量学习和优化内存结构的矩阵模型,不仅增强对大数据的处理规模,而且提高了数据挖掘算法的处理效率。
数据缓存
平台数据预处理节点和模型节点都实现了数据处理结果的缓存功能,从而可以根据需要指定流程从最后一个有缓存数据的节点开始运行,极大的提高了数据挖掘流程的运行效率。
数据源
Pluto数据源支持文件和数据库,文件支持文本文件(*.txt,*.csv)和Excel文件(*.xls,*.xlsx),数据库支持oracle(9i、10g、11g)、SqlServler(2005、2008)、DB2、MySql等常用类型,同时支持列式数据库的接入。
数据预处理
数据预处理主要实现数据的清理准备工作,包括样本处理和属性操作。样本处理包括条件抽样、简单抽样、平衡、汇总和样本排序等功能,属性操作包括指定因变量、属性选择、属性变换、离散化、数据集拆分、分箱和数据降维等功能。
领先的数据挖掘算法
Pluto包含经典算法20个和高效的自主算法10个,具体如下表所示:
其中国内独有的L1/2稀疏迭代算法、视觉聚类算法分别在长流程制造工艺分析和图形处理方面具有特殊优势。用户可以从多种算法中选择来进行预测、聚类、关联、分类等操作。Pluto算法支持主流云计算技术框架(Hadoop、Enomalism、Euclyptus等),实现海量数据的分析与挖掘。
模型构建与评估
模型构建是指训练并得到数据挖掘模型,模型评估帮助用户对数据挖掘模型的结果进行准确度分析,用户可根据模型评估结果的满意度对模型参数进行调优。
丰富的数据可视化
平台提供了10余种图形化技术和输出报告,帮助用户理解数据间的关键性信息,并指导用户以最便捷的途径找到问题的最终解决办法。
模型流程发布
模型流程发布是将数据挖掘模型流程发布为服务,包括Webservice服务和JMS服务,支撑外部系统的数据挖掘分析功能。同时,平台支持模型流程jar包导出,提供Java Jar API便于将模型流程直接集成到外部系统的开发环境。
模型流程服务管理
模型流程服务管理用于对平台发布的数据挖掘模型流程服务进行管理,包括服务的权限管理、版本管理和预测评估任务管理等功能。
服务访问接口
第三方(或外部)系统可以通过调用Webservice服务、JMS服务或直接调用Java Jar API进行数据挖掘分析功能的构建。
安装与使用环境要求
典型案例
电力行业
采集电力设备基本信息、电网调度、电网负荷、计划(非计划)停电等数据,采用数据挖掘的分类、主成分分析、回归、时间序列等算法,实现电力设备寿命预测、电网负荷预测、电力调度优化、 电窃电自动诊断、电网用户行为分析等。
● 国家电网公司运营监控平台
● 购售电量预测分析
● 电网设备故障预测分析
● 配电网故障预测和抢修效率分析
● 分时和阶梯电价模式下电网用户行为分析
● 居民和非居民用电的用户行为分析
● 电网物资库存精益化管理分析等
制造业
针对长流程、复杂工艺的情况,采用L1/2稀疏化算法理论及梯度Boosting算法思想,寻找产品质量“优区”和影响产品质量的关键因素,并基于分析结果提出工艺改进策略,提升产品质量。
成功案例:
● 某钢铁企业硅钢产品纵条纹产生关键因素分析
● 某钢铁企业板材产品抗拉强度分析
● 某刀具切削公司刀具数据库专家系统
● 某大功率半导体芯片制造商产品质量分析
● 某企业劳动定额预测分析
● 某企业精密铸造产品工艺质量分析与控制
航空航天
飞行参数记录系统实时记录飞机气动、操稳、发动机、飞控、通导等系统的重要参数,对于保障飞行安全、提高飞行训练水平和机务维护质量具有非常重要的作用。现有的飞参判读室在完成飞参数据的存储和判读的同时,可以对数据进行统计分析,并进一步深入挖掘飞参数据的知识。
● 规划设计飞参数据的分析系统
● 建立发动机健康评估体系
● 基于故障处理数据,实现故障诊断和预警分析
政府及公共服务业
根据不同政府职能部门或公共服务业的特征,从Pluto中剥离合适的算法或进行软件定制化开发,形成符合解决政府及公共服务业实际需求的数据分析系统。
● 某保密局网络检测平台
● 武警部队某警种综合统计分析平台
● 基于气象数据的风能发电量预测分析
电信业务
随着移动业务规模的增加,电信运营商逐渐积累大量移动上网用户的访问记录数据,为针对不同特点用户提供更有针对性的定制化服务,需要对不同用户的使用特点进行分析刻画。
● 某电信运营商基于客户分群特点的定制化服务分析
证券金融
在金融行业同质化竞争日益激烈,各证券公司需要进一步明确目标细分市场,希望通过提供个性化服务,实现差异化战略,最终在竞争中抢得先机。
● 某证券公司客户交易行为特征分析