专题丨价值领航,数据掘金——招商银行沈阳分行数据分析与挖掘的优化实践之路
随着金融科技和数字化转型的逐步推进,数据已成为招商银行的战略性资产并呈现出爆发式增长,数据驱动业务发展已成为银行工作的重心。如何运用好大数据,发挥数据资产的商业价值,成为大数据时代的核心挑战。近三年来,为更好地赋能各业务条线,分行信息技术部在数据挖掘的深度和广度上持续优化探索,在客户获取、促活、提升和防流失等多种业务场景里开展大量而持续性的工作,构建二十余个预测模型,服务于业务一线的产品经理和客户经理,高效实现价值增值。
(资料图)
数据挖掘建模持续优化过程是重要且必要的,并且数据挖掘建模持续优化过程也是有规律可循的。本文结合分行信息技术部在数据挖掘上持续优化的探索实践,将数据挖掘建模优化分为从业务思路上优化和从技术思路上优化。
招商银行沈阳分行信息技术部 总经理 温更
从业务思路上优化
“以业务为核心,以思路为重点,以挖掘技术为辅佐”是数据挖掘实践成功的基础。从业务思路上优化模型是最重要的模型优化措施,对于模型效果的提升是根本性、源头上的突破。从业务思路上优化主要可以从以下几个方向进行考虑。
1.特征标签优化
在数据挖掘建模的工作中特征工程耗时最长,而特征标签的选取是特征工程中的重要环节。例如从海量数据中提取有意义的特征,需要和预测目标呈潜在的强关联关系才能对建模有益,而这些完全依赖于对业务的理解,需要业务专家根据多年的业务经验给出提取思路。
以沈阳分行的金卡客群流失预警模型为例,最初选取的特征标签都是资产类和转账类特征。通过调试模型AUC达到了0.85,准确率60%,从评价指标上看模型的效果优异。但从业务人员应用模型的视角出发,资产类和交易类都是大而全的宏观特征,无法直接通过这些特征总结出有效防止客户流失的策略。评价模型的优劣需要基于模型业务落地应用后的实际效果和业务反馈,进而意识到在原有标签的选取上缺少业务事件背后的真实原因。因此,需要结合业务专家对事件的分析,优化特征指标。
结合业务专家的分析,优化做法是在原有的资产类和转账类特征基础上,加入事件类、APP行为类和经营类等能够指导业务方向的特征,这样根据模型的特征重要性就可以清楚知道如何去挽回客户,会大幅提升模型的效果和模型落地的有效性和准确性。
2.特征标签重构
特征标签重构指在原始特征标签的基础上生成衍生变量,生成衍生变量的目的很直观,即通过对原始数据进行简单、适当的数学公式推导,产生更加有业务意义的新变量,从而来捕捉重要的业务关系。衍生变量允许数据挖掘模型把人类的见解融入到建模过程中,并允许模型利用客户、产品和市场等已知的重要特征。创建衍生变量是数据挖掘过程中最有创意的部分之一。精心重构的衍生变量可以增强模型预测的准确性和可解释性。
以沈阳分行的金卡客群流失预警模型为例,在原始的特征标签基础上通过组合和数学公式推导的方式加入了大量重构的衍生变量,例如将交易金额、交易笔数和交易摘要、交易方向等特征分别进行组合,得到更加细分的交易特征;运用数学公式推导的方式,通过标准差除以均值得到近30天支出笔数的波动系数,通过计算斜率得到近7天交易金额的变化率,还有将原始特征标签减去平均值的去中心化操作等。加入衍生变量后,AUC和准确率都有明显提升,AUC达到了0.87,准确率提升到65%。中心化处理等操作因将绝对值转换成为相对值,并且新加入的衍生变量的特征重要性排名也都非常靠前,进一步增强了模型的解释能力。
3.特征标签前移
数据挖掘利用高于人类的计算能力,帮助人类洞察隐性或潜在价值,甚至得出人类无法感知的结论。因此在做数据挖掘前,必须考虑处理同一业务场景时,业务专家的处理方式。参考业务专家的观点,认为金卡客群是一个庞大的群体,细分客群后再分析金卡客群流失问题效果会更好。
特征标签前移指在建模之前先根据特征标签进行细分客群,其建模思路和作用是对分析对象的一次筛选。细分后的各个群体相比之前的整体对象多了精细化的分割,群里多了共性特征。对精细化的群体分别建模,能显著提升模型的效果。
针对金卡客群流失预警模型,建模之前将金卡客群细分为代发客群、理财产品到期客群、信贷客群等分别进行建模,AUC平均提升4个百分点。
4.特征标签后移
建模结论的业务可解释性也是一个好的数据挖掘项目的重点要求。特征标签后移指在建模结束得到预测结果后,通过分析客户的特征标签来解释业务,制定下一步的营销策略,即将模型结果高效精准落地。数据挖掘的输出是预测的结果,而业务的期望是模型的精准落地。因此得到预测结果后对客户特征标签的分析必不可少。
以金卡客群流失预警模型为例,用XGBoost算法得到两个输出:一是潜力流失的客户;二是模型的特征重要性排名,排名靠前的特征标签即是筛选出的高价值的特征标签。为了实现模型的业务可解释性,下一步即可对这些特征标签进行传统统计学描述性分析,从而得出将模型落地的实施方案。
从技术思路上优化
从建模的技术思路上优化是指在建模的算法和建模技巧方向上进行比较、权衡。建模的算法优化是指不同建模算法的选择过程;建模技巧的优化是指在特定的建模算法基础上,模型特征标签不同抽样方法或不同预处理方法的选择过程。
1.建模算法的优化
大财富管理最核心的能力是在洞察客户、洞察市场基础上为客户创造价值的能力。而“洞察”对科技而言,就是基于数据和算法形成的判断。数据是燃料,算法是引擎。算法和数据都很重要,数据挖掘的研究与实践其实就是在这两个领域发挥能力。针对数据,我行数据的体量、种类、价值等多维度的丰富程度完全能够支撑算法充分的发挥。针对算法,要掌握多种不同的建模算法,同时还要善用集成学习技术。通常,在不同的随机数据集上学习多个分类器能够建立更强大的模型。在算法的选择上,推荐奥卡姆剃刀原则:用能够满足需求的最简单的算法,如非绝对地必要,不要增加复杂性。按照从简单到复杂排序,可以选择的算法包括逻辑回归、决策树、支持向量机、深度神经网络等。不同的建模算法针对不同的具体业务场景会有不同的表现,针对同一个业务需求,可以多尝试不同的建模算法,从中比较、权衡,择其优者而用之。
2.建模技巧的优化
该方向包括参数调整、不同的抽样方式、不同的特征标签预处理方式等,这部分优化在于多做实验,最后选取最优的方式。以抽样方式为例详细介绍,采取抽样措施,主要原因在于如果数据全集的规模太大,针对数据全集进行分析运算不但会消耗更多的运算资源,还会明显增加运算分析的时间。而采用抽样措施,可以显著降低这些负面的影响,在很多小概率事件、稀有事件的预测建模过程中,如果按照原始的数据全集、原始的稀有占比来进行分析挖掘,很难通过分析挖掘得到有意义的预测和结论的,所以对此类稀有事件的分析建模,通常会采取上抽样或者下抽样的措施,即人为的增加样本中的“稀有事件”的浓度和在样本中的占比。对抽样后得到的分析样本进行分析挖掘,可以比较容易地发现稀有事件与分析变量之间有价值、有意义的一些关联性和逻辑性。
建模优化的限度
数据化运营实践中的数据分析和数据挖掘非常强调时效性,在业务需求给出的有限时间里完成优化并投入应用。因此,时间因素是思考适度的主要维度。数据挖掘模型的每一次优化和提升都需要有资源的投入,且满足特定的业务需求。在模型优化和资源投入之间,在投入数据分析资源和满足特定业务需求之间,又有一个微妙的平衡点——性价比,其决定了模型的优化和完善既需要持续探索又是有限度的。
总结
大数据蕴含的潜在可能性和海量机会仍有待持续开发。本文结合银行数据分析工作,分析了数据挖掘建模持续优化过程的重要性,通过案例探讨了从业务思路上优化和从技术思路上优化的实践路径。在建模过程中,业务思路上的优化比建模算法上的优化更重要,而建模算法上的优化又比单纯的建模技巧的优化更重要。最后我们也要深刻地认识到,数据挖掘建模的优化绝不仅仅是技术问题,更多需要从业务视角去实现数据驱动和价值交付。
(栏目编辑:杨昆桦)
- 专题丨价值领航,数据掘金——招商银行沈阳分行数据分析与挖掘的优化实践之路(2023-01-31 08:42:13)
- 世界通讯!实战 | 商业银行多数据中心网络建设实践(2023-01-31 08:57:42)
- 中金公司:2023年钢铁基本面改善或超市场预期(2023-01-31 09:03:09)
- 全球动态:新西兰奥克兰暴雨成灾 保险企业面临大量理赔(2023-01-31 08:49:28)
- 国泰君安:ChatGPT获得广泛关注 人工智能板块酝酿主题投资大行情(2023-01-31 08:50:09)
- 中信证券:前瞻指标预示航发产业链有望保持稳健增长(2023-01-31 08:44:25)
- 贝因美陷入不利流年(2023-01-31 08:35:57)
- 嘉实中证疫苗与生物技术ETF(562860)将于2月6日首发(2023-01-31 08:53:40)
- 【全球热闻】金价攀升,投资者消费热情不降(2023-01-31 07:52:49)
- 天天报道:《流浪地球》手游要来了,一周预约仅六千余人,开发商散爆网络受玩家质疑(2023-01-31 07:44:45)
- 环球热门:兔年说投资:从狡兔三窟到守株待兔(2023-01-31 06:50:01)
- 世界播报:金融“巨贪”蔡国华,三年敛财超过百亿,一条皮带21万,被判死缓(2023-01-31 06:03:42)
- 消息!河北鸡泽农商行因涉4项违法违规行为,被人民银行石家庄中支罚款100万元(2023-01-31 05:52:00)
- 当前头条:海口农商银行因十三项违法违规事实被罚没710万元(2023-01-31 05:47:28)
- 涉房资产配置价值凸显,险资加大商业不动产投资力度(2023-01-31 05:54:23)
- 全球快看:支付惠民助消费(2023-01-31 05:50:35)
- 焦点资讯:业绩暴降七成,去年净利润不到2亿,太平鸟飞不动了?(2023-01-31 05:51:02)
- 每日热文:中国网民“云”拜年行为调研数据分析: 53.4%消费者支持“云拜年”,认为节省时间又沟通情感(2023-01-31 05:59:59)
- 全球观热点:升幂降幂是什么意思_降幂是什么意思(2023-01-31 03:04:38)
- 环球热议:20523件 去年三季度人身险投诉占比达62.71%(2023-01-30 23:03:28)
- 全球快看点丨别搞混:“信用修复”新政针对的是企业经营层面,并非个人征信,并非信贷层面 | 愉见财经(2023-01-30 22:42:29)
- 每日速看!2023年建设银行最新存款利率公布,手里有存款的朋友运气来了!(2023-01-30 22:52:21)
- 前沿资讯!存款没有注意这3点,存款很有可能不翼而飞,不懂的赶紧看看!(2023-01-30 23:01:44)
- 【世界新视野】邮政2023年存款利率公布,宣称2万存5年就有1万元利息,靠谱吗?(2023-01-30 22:56:22)
- 【世界时快讯】眼科“神药”雷珠单抗将迎国内首仿,原研药单价近4000元,年销售额超200亿(2023-01-30 22:52:45)
- 世界新动态:春节红包奖金如何理财?这份秘笈请收下(2023-01-30 22:00:30)
- 全球观点:上好闹钟!这些消费券发放时间安排来了!(2023-01-30 21:48:05)
- 今日热搜:银保监会这一发文,将推动财险业向风险减量服务转型(2023-01-30 22:00:30)
- 华尔街投行亚洲高管去年薪酬下降50% 为金融危机以来“最惨”(2023-01-30 22:03:11)
- 全球即时:每经热评|银行花式掩盖不良 信贷管理不能饮鸩止渴(2023-01-30 21:53:17)
-
消息!河北鸡泽农商行因涉4项违法违规行为
人民银行石家庄中心支行1月30日公布的行政处罚信息公示表显示,河北鸡泽农村商业银行股...
-
当前头条:海口农商银行因十三项违法违规事
本文转自【中国网】;转自:中国网财经中国网财经1月30日讯近日,银保监会官网发布行政...
-
涉房资产配置价值凸显,险资加大商业不动产
保险机构正加大对商业地产细分领域投资力度。1月以来,多家保险机构发布不动产投资信息...
-
全球快看:支付惠民助消费
本文转自:人民日报“没想到春节还能领到数字人民币大红包,跟女朋友一起去吃火锅,相...
-
焦点资讯:业绩暴降七成,去年净利润不到2
本文来源:时代周报作者:霍东阳1月29日,太平鸟(603877 SH)发布了2022年业绩预减公...
-
每日热文:中国网民“云”拜年行为调研数据
云拜年,指春节期间公众通过互联网采用线上方式拜年来相互表达美好祝愿的方式。其表...
-
全球观热点:升幂降幂是什么意思_降幂是什
1、降幂就是降指数。2、降幂排列就是把次数高的的放前面。3、比如2的3次方放在2的2次方...
-
环球热议:20523件 去年三季度人身险投诉占
每经记者:涂颖浩每经编辑:廖,丹近日,中国银保监会消费者权益保护局发布《关于2022年...
-
全球快看点丨别搞混:“信用修复”新政针对
作者|夏心愉出品|愉见财经如题。这两天我身边误会这事儿的人还挺多,还有公号做了错误...
-
每日速看!2023年建设银行最新存款利率公布
2023年建设银行最新存款利率公布,手里有存款的朋友运气来了,10万存款就有9000利息过...
- 滚动
- 理财
- 房产