江苏银行—智多星大数据分析云平台实践

2014年10月,江苏银行夏平董事长确立了利用大数据实现弯道超车的发展战略,将大数据应用提升到全行发展的战略层面。2015年上半年,江苏银行完成了大数据平台选型和建设,选择发布版hadoop进行底层数据存储加工。接着,进行内外部数据整合。

1

三个阶段的完成,意味着大数据基础设施建设工作已完成,如果把大数据建设工作看做一颗大树,前两个阶段完成意味着树干和树枝已长成,接下来的大数据应用像树枝上的树叶一样,热点频出,精彩纷呈。业务的创新带来大量新增的大数据分析需求,传统的数据库工具和报表工具遭遇瓶颈。

传统的取数模式是业务用业务语言提出需求,科技人员和业务部门就业务语言如何转换成科技语言进行口径确认,之后开发报表提供业务测试,测试中常常发现报表实现和业务需求有差距,还要反复沟通,从业务提出报表需求到最终投产,快则三五天,慢则个把月,而且做出的报表,到了分支行,还会有口径上的调整,分支行人员还要导出excel再自行加工。

传统方式的缺点显而易见,因此,我们希望对于业务口径一次性的加工成主题包,将定制好的主题包以可视化的方式、业务的语言提供给业务部门,业务人员根据自己的需要拖拉拽即可自由探索数据,不仅总行人员可以探索,分支行的人员都可以自由探索,这就是江苏银行智多星的由来。

周期/节奏

2015年9月到12月,针对业务自助分析进行需求探讨、厂商交流、测试,最终定下适合江苏银行当前形势的产品finebi,并且由江苏银行数据团队全权负责自助查询、分析的项目建设推广;

2015年12月到2016年3月,针对业务部门需求,提供出第一批主题分析包,面向计财进行试点,通过沟通、培训等方式完成了ERP多维盈利分析主题,针对ftp、成本分摊进行多维度自助分析,得到计财部领导认同,开始进入小步快跑阶段;

2016年3月到2016年6月,逐步完成了计财部理财、中收检测、资产负债等模块,同时针对营运部设计并完成了电话客服、在线客服、智能语义、集中作业等主题;

2016年6月到2016年底,逐步推广总行风险部、公司部、卡部、零售部、网金部、小企业金融部等部门,总行层次业务部门认可参与度不断提高,达到千人千创意的雏形;

2016年底至2017年4月份,针对帆软进行了升级处理,改变以往纯粹index模式,index+direct的方式,协同处理,优化了响应时间,提高业务满意度。同时平台用于辅助串串盈业务的推广分析,并及时发现了恶意刷豆行为,降低了行内的无效损失;

2017年4月至今,将智多星逐步推广至分行科技、计财、营运、公司部门,消除以往集中式响应的低效弊端,同时上线了计财部门微信推送及直销银行实时大屏监控。

客户名称/所属分类
江苏银行/大数据技术服务

目标及任务

银行定制一张报表分析某个业务数据的传统模式,主要通过业务部门提出需求,科技部门编写程序实现的。从提出需求到科技部最终开发完报表,中间存在反复的口径沟通、试验取数的过程。一张报表,从考虑排期问题,提出需求,到最终完成快则一两周,慢则几个月。

先进的数据方式主要是科技人员和业务人员共同定制好业务可理解的主题包,由业务人员自行设计报表。其先进性主要体现在平台、工具和理念三个方面。如果通过这种方式进行统计分析,在定制数据包的基础上由业务人员自主查询数据,所见即所得,在数据查询、统计的过程中分析,可以大大提高工作效率。

在推出系统之外,还需在各个业务条线培养具有数据分析挖掘能力的人才,才能发挥智多星平台的作用,真正解决日常工作中数据分析和报送的难题。
智多星平台的建设目标主要有以下三个方面:

1、降低数据挖掘分析的门槛
智多星平台提供各类智能化的分析工具,并且将技术的语言翻译成了业务语言,使得数据分析的门槛大为降低,数据分析工作可以下沉到最基层。不需要了解数据库,甚至不需要懂太多数理统计的专业知识,只要了解业务的人员,都可以根据自己的一个关注点自定义分析和挖掘,并可以分享给其他员工。

2、实现离散式管理
传统模式的报表开发维护和管理都集中在部分开发和管理人员身上,面对日益增长的数据分析需求,这种模式显露出响应能力的不足和资源的瓶颈。智多星平台打破原来总行定制固定报表,分支机构只能查询的集中式管理模式,变为了人人都可以是报表开发员的离散式管理模式,实现千人千创意,让数据发挥最大价值。

3、数据安全和便捷的平衡
提升数据分析便捷性的同时,数据安全问题也是银行关注的重点。智多星平台在权限管理中也需做到智能化。

首先,对敏感字段,如客户名称、地址、手机等,在定义报表的同时就可实现自动脱敏;

其次,数据权限有报表和机构两个维度,不同分支机构的用户,即使获得了同一张报表的权限,也仅能查看自己机构的数据,避免了数据的任意传播。

挑战

1、传统数据分析门槛高的挑战
需要将技术语言翻译成业务语言,降低数据分析门槛,将数据分析工作下沉到最基层。业务人员不需要了解数据库,甚至不需要懂太多数理统计的专业知识,只要了解业务的人员都可以自定义分析。

2、分支行日常报表、分析需求响应疲累的挑战
都可以根据自己的一个关注点自定义分析和挖掘,并可以分享给其他员工。将原来总行定制固定报表,分支机构只能查询的集中式管理模式,变为了人人都可以是报表开发员的离散式管理模式,实现千人千创意,让数据发挥最大价值。

3、数据安全和便捷的挑战
在权限管理中也需要做到智能化。对敏感字段,如客户名称、地址、手机等,在定义报表的同时就可实现自动脱敏;同时数据权限有报表和机构两个维度,不同分支机构的用户,即使获得了同一张报表的权限,也仅能查看自己机构的数据,避免了数据的任意传播。下载报表需要申请授权、并且有水印。

实施过程

平台架构
(一)技术先行,做好架构设计

2
1、大数据平台建设:
对于大体量内外部数据的高度自由的实时查询,需要有可靠的底层数据处理平台的支撑。从经济成本和未来数据的非线性增长趋势的角度分析。我们设计的架构时,传统的交易系统运用关系型数据库处理OLTP事务操作,产生的交易数据通过异构数据的批量复制方式或消息队列的准实时方式更新至Hadoop平台,Hadoop平台可以进行大体量数据的分析和挖掘,并提供基于大数据的应用系统实时检索的模式。

2、数据资源整合:
持续整合核心系统、信贷管理系统、信用卡系统、个贷系统等几十个业务的交易数据、账户数据和客户基础数据,建立数据标准和数据治理体系,开发风险数据集市、资产负债管理集市、监管报送集市等多个内部数据集市。行外引入包括监管部门的客户风险预警信息、人行客户征信报告数据、工商总局企业注册信息数据、企业纳税信息、海关进出口交易数据、法院客户涉诉信息、失信被执行人信息、环保不达标信息、欠税信息、工商处罚信息、公民身份证信息、个人学历学籍信息、公共媒体负面信息等19项外部数据源,几千项外部数据字段,并运用网络爬虫技术和命名实体识别技术,抓取公共网络媒体舆情信息,形成海量的外部数据集市;

通过在大数据平台上整合行内与行外数据,线上与线下数据,结构化与非结构化数据,有效解决了传统银行普遍面临的“信息孤岛”问题。在数据整合的基础上,利用智能化大数据分析工具进行各类数据的统计、分析、查询和建模成为可能。

3、工具选型:
调研了市场上各类数据挖掘和分析工具,针对不同需求不同数据分析能力的人集成了多种工具提供使用:
数据挖掘和建模人员:提供SAS和分布式R语言工具,可以使用专业的数据分析工具进行挖据和建模;
具有数据库操作能力的人员:提供类SQL方式的自定义快速报表开发工具,所有报表设计和菜单控件均通过浏览器可视化配置;
对于了解业务系统数据的业务人员:提供智能BI多维分析工具FineBI,通过拖拽方式即可实现各类复杂的统计和图表功能;
对于普通一线员工:可以方便的查询平台上已设计好的各类模板,并且可以使用客户关系图谱、互联网舆情分析等可视化查询工具。

3

(二)分步建设,快速发挥效用
智多星平台于2015年7月开始建设,为实现系统的快速上线,采用迭代开发模式,分冲刺阶段制定开发目标和投产功能,从同年10月起开始至次年2月,快速报表、固定报表集成、多维分析、关系图谱、互联网语义等主要功能模块陆续投产,在新一轮功能开发期间,同步对上一轮的功能进行培训和推广,在极短时间内完成应用的普及。

(三)以点带面,逐步推广应用
初期首先选取有需求、专业人员较充裕的分行和条线进行试点;
业务部门则选择计划财务部,因为其日常需要对全行经营、成本、业绩等数据进行多种维度的分析和挖掘;
分行选择苏州、南通、北京三家基层业务分析需求较多、科技实力较强的分行进行试点。
计财部首先在智多星平台上自主实现多维盈利分析,无锡、南通、北京三家分行分别开发了《公私理财到期明细》、《柜员客户信息未维护日报表》、《企业网银可拓展客户明细》等一系列贴近一线诉求的快速报表。
在试点过程中,我们听取用户使用意见,不断优化和完善系统功能,在单位取得一定成效后,开始从条线横向覆盖,从分行纵向延伸,逐步覆盖全行的各个层面。
主题设计:包括各个部门实际业务包及对应指标设计,以业务看得懂的方式提供数据,并用于业务自助取数、自助多维分析。

数据脱敏:
1)针对每一张报表,业务部门在一体化平台提出数据需求并指定一名业务数据管理员。如果需对该报表开放下载权限,需在数据需求中勾选:
□PDF下载权限:【如需分配请填写工号,并说明原因】
□EXCEL下载权限:【如需分配请填写工号,并说明原因】

2)数据需求经审批后,信息科技部门按照需求定制开发数据报表,将开发好的报表交付业务数据管理员,交付前报表需根据安全管理要求,对如下字段进行默认脱敏设置:
 后段脱敏-客户名称
 中段脱敏-证件号码、地址、联系方式电话、账号(卡号)等

3)业务数据管理员有权向其他普通用户下发相关数据的查询权限,并可针对部分使用人员解除脱敏。信息科技部门默认提供脱敏后的数据,如有解除脱敏的要求,请在需求中明确要求并说明理由。

4)报表的下载权限由信息科技部门报表开发员扎口管理,由需求人员提出书面申请并由其主管审批后提交信息科技部门,开发员根据需求进行分配。

5)信息科技部门需定期梳理相关业务部门数据下载的使用状况,控制数据泄露的风险。如辖内发生从智多星平台中下载数据对外泄漏的问题,各级信息科技部门需承担相应责任。

多终端推送:
为深入挖掘实时数据的价值,充分运用数据的实时性特点,我行在智多星平台上继续引入了FineReport,该工具可以对数据进行多维度的统计分析,并将分析结果以图表化、可定制化的方式呈现在用户的移动终端或大屏幕上,实时为使用者提供智慧化的决策依据,进一步体现智多星平台的建设初衷。

智多星实时数据分析工具的数据处理模块建立在hadoop平台的流处理引擎之上,利用StreamSQL处理kafka上的消息队列,实现实时统计的需求,并且支持分布式扩展。另外相对于编程方式的流处理应用,如Spark Streaming、Storm等,StreamSQL通过类SQL语句进行流计算,具有易用性高、迁移成本低等优势。

1) 微信推送:只需在智多星平台上简单配置,实时数据就可以通过手动或定时的方式以微信的方式推送至移动客户端,为用户提供更实时、便捷的交互方式。后续分析工具还将实现移动端移动缩放、钻取联动等功能。

2)数据大屏:利用智多星实时数据分析工具,用户可以构建强大、全面的“管理驾驶舱”,简单拖拽就可以将企业的数据管理信息完美地投放在任何屏幕,比如生产运维中心等地的LED大屏上,单块或拼接LED屏幕,不论大小,均可以自适应。同时大屏可视化组件可实时刷新,可以及时监控、及时预警。

效果总结:

平台上线至今,日均分析量在300左右,参与分析人员30人次。

(一)手工报表线上化,释放生产力
在使用智多星平台之前,总行信科部开发的固定报表针对的是全局性的统一数据查询,分行、网点的特色化需求只能依靠线下统计,或对固定报表结果手工再筛选加工。智多星在分行推广使用后,分行科技部运用其将大量手工统计迁移至线上,释放了基层的生产力。

(二)业务自主分析,让理解业务的人分析业务
业务部室通过多维分析工具,可以自由分析各类业务指标,目前有计财、营运、卡部、网金、公司等部门在使用,并自定义了总共约100张报表,内容涵盖对标上市银行分析、ERP多维盈利分析、重点客户利润分析、客服中心话务信息分析、集中作业分析、理财客户分析、网贷客户信息分析等。

计财部定制了几十张ERP多维分析模型,可以从产品、网点、部门、财务管理等不同维度挖掘分析数据,如多维盈利分析,可以分析拨备前利润超1亿的产品,可以利用各类图形形象展现某产品在各分行机构的分布情况及由哪些客户贡献及该客户的明细数据等。

业务人员积极利用该平台获取大量有价值的信息,提升了数据需求的响应速度,减少了手工报表工作量,增加了基层网点的精细化管理。

  • 最新活动

百城巡展

南京站 · 10月17日

查看更多

行业峰会

化工峰会 · 10月26日

查看更多
Copyright©2016 Fanruan Software Co.,Ltd All Rights Reserved. 帆软软件有限公司 | 苏ICP备14031611号-8

返回顶部