complexityworld分享 http://blog.sciencenet.cn/u/pb00011127

博文

金融大数据创新 精选

已有 35124 次阅读 2014-8-21 01:11 |个人分类:生活点滴|系统分类:科普集锦

[为某期刊写的普及文章]

 

什么是大数据

大数据”是“数据化”趋势下的必然产物!数据化最核心的理念是:“一切都被记录,一切都被数字化”。在数据化浪潮的推动下,最近2年所产生的数据量等同于2010年以前整个人类文明产生的数据量总和。我们自己是数据化舞台上当仁不让的主角。艺术家哈桑.伊拉希因为不满安全局对他的监视,干脆在网站www.trackingtransience.net上面记录了他所有到过地方的位置和数万张他所到之处的照片和场景;微软研究院的戈登.贝尔十多年间一直随身携带一个能够自动拍下他眼前每个人照片的数码相机,以及一个能够随意捕捉身边大范围内的各种声响的录音机;麻省理工学院媒体实验室的德布.罗伊在家里安装了11个摄像头和14个麦克风,记录了数十万小时的音像资料。看起来这些只是极端的个例,实际上我们在主动贡献数据方面和他们没有多大的区别。我们上各种各样的网站,刷各种各样的卡、读取各种各样的证件、在线上写各种各样的东西、在线下填各种各样的表格,都是一次次主动向不同的系统提供数据。其次,在我们不知情或者意识不到的时候,很多数据已经被记录下来——我们也是数据被动的贡献者。你打开手机之后——如果你用的是智能手机——你的位置和运动,安装和激活的应用,展示和点击的广告都会被记录下来;在你驱动汽车之后——如果你开的是一部好车——你的所有操作,油门、刹车、方向盘、离合器、档位调整等等,都会被主控电脑记录下来。

大数据是基于多源异构、跨域关联的海量数据分析所产生的决策流程、商业模式、科学范式、生活方式和观念形态上的颠覆性变化的总和。大数据会给整个社会带来从生活到思维上革命性的变化:企业和政府的管理人员在进行决策的时候,会出现从“经验即决策”到“数据辅助决策”再到“数据即决策”的变化;人们所接受的服务,将以数字化和个性化的方式呈现,借助3D打印技术和生物基因工程,零售业和医疗业亦将实现数字化和个性化的服务;以小规模实验、定性或半定量分析为主要手段的科学分支,如社会学、心理学、管理学等,将会向大规模定量化数据分析转型;将会出现数据运营商和数据市场,以数据和数据产品为对象,通过加工和交易数据获取商业价值;人类将在哲学层面上重新思考诸如“物质和信息谁更基础”“生命的本质是什么”“生命存在的最终形态是什么”等本体论问题……综上,大数据不是数据量的简单刻画,也不是特定算法、技术或商业模式上的发展,而是从数据量、数据形态和数据分析处理方式,到理念和形态上重大变革的总和。

 

大数据推动产业创新升级

数据储备和数据分析能力将成为未来新型政府最重要的核心战略能力。大数据被认为是继信息化和互联网后整个信息革命的又一次高峰。云计算和大数据共同引领以数据为材料,计算为能源的又一次生产力的大解放,甚至可以和以蒸汽机的使用和电气的使用为代表的第一次工业革命和第二次工业革命相媲美。与提升国家竞争力及国民幸福程度密切相关的重大战略都与大数据的分析和利用息息相关,包括与国家安全社会稳定相关的尖端武器制造与性能模拟实验,群体事件和谣言的预警和干预;与国家科技能力相关的等离子即高能粒子实验分析,纳米材料及生物基因工程;与国民经济繁荣相关的经济金融态势感知与失稳预测,精准营销与智能物流仓储;与环境问题相关的全球气候及生态系统的分析,局部天气及空气质量预测;与医疗卫生相关的个性化健康监护及医疗方案,大规模流行病趋势预测和防控策略;与人民幸福生活相关的个性化保险理财方案,智能交通系统等等。

大数据带来一种横断性的理念和技术的革命,对产业整体都会产生很大的促进甚至引领作用。欧盟认为大数据是促进经济增长的重要力量。2011年12月欧盟报告指出,欧盟公共机构产生、收集或承担的地理信息、统计数据、气象数据、公共资金资助研究项目、数字图书馆等数据资源的全面开放,预计每年将会给欧盟带来400亿欧元的经济增长。日本《信息通讯白皮书》测算显示,通过分析顾客购物嗜好等数据提高销售针对性,有望给零售业带来115亿美元经济效益;通过减少设备故障率,有望给制造业带来479亿美元效益;导航等道路交通数据的利用有助于减少堵车和减轻能耗,从而将产生143亿美元经济效益;对土壤、农作物栽培信息的综合利用,则有望给农业新增4000万美元收益。我国包括北京、深圳、贵州、陕西、广东等地亦成立了大数据产业联盟、大数据产业发展领导小组、大数据局等机构,重点推动大数据在重要相关产业方向产生社会经济价值。

 

金融大数据前景远大

   金融产业在可见的未来,发展前景极佳,其增长势头甚至会超过过去十几二十年的房地产。首先是因为中国老百姓理财的观念和需求都大大提高了,其次是中小企业的发展,需要从债券融资、股权融资到信用评级、集合票据等等多渠道的金融服务。在个人和企业金融需求大幅上升的情境下,中国金融业的供需很不平衡——美国6000家银行服务3亿人口,中国600家银行却要服务13亿人口!随着最近国家对于金融业准入机制的放松以及相应的鼓励政策出台,金融业整体发展趋势非常喜人。

金融业在支付、存贷、汇兑、理财、股票期货等领域积累了海量数据,其数据具备四大特征:(1)数据量大;(2)数据质量高;(3)数据价值大;(4)数据可定位性好。然后,目前金融机构并没有充分利用大数据分析产生价值,原因是多方面的,除了体制的沉重镣铐,还缺乏一套严格的制度去量化各类数据的价值,缺乏大数据深度分析的能力和大数据创新应用的理念,缺乏收集建立有战略辅助价值的金融行业外大数据的理念。因此,大数据理念、方法和创新商业模式的引入,有望颠覆传统金融业,产生巨大的价值。

通过金融大数据的深入分析,可以解决当前金融机构服务中遇到的一些实际问题,甚至获得有价值的预测性结论。譬如我们下一小节就会介绍如何通过深入分析,自动识别POS交易中的欺诈问题。一些保险类的泛金融产品也能够从大数据分析中受益,例如可以通过对用户长期体检数据预测用户在一定时间内患上特定病种的概率,还可以通过对用户驾车行为(利用车辆主控电脑数据的输出)的分析预测驾驶员在一定时间内发生车祸的概率。这些预测不可能完全准确,但是已经能够产生可观的商业价值。进一步地,通过引入外部数据,可以提高金融服务的效率和准确度。比如说个人网络购物、互联网访问资讯甚至现金支票被退回的记录,经过分析处理后,都可以用来判断个人用户的信用,帮助快速发放在线信用卡和小额消费贷款申请。

 

金融大数据创新案例

商家使用POS机,并不是无偿的,要缴纳一定的费用。这个费用和收款额度的比例,针对不同行业区别很大。比如说“洗浴、按摩”和“歌舞厅、KTV”的费率是1.25%,“百货商店”的费率要低一些,是0.78%,“报亭、报摊”更低,只有0.38%。每一个POS机,都有一个编码,我们称作MCC码,这个码用来识别该POS的行业分类,例如“洗浴、按摩”的MCC码是7297,“百货商店”是5311。这个费率的差异是比较可观的。一个商家如果每天有10万元的POS机收款,如果费率相差0.5%,一年差额就接近20万元。

按照规定,商家在申请POS机的时候,其POS机的MCC码必须和其主营业务一致。但是商家并不是那么的规矩,实际上有一些商家通过一些灰色的关系申请到非主营业务的MCC代码,或者干脆借用邻近店铺的POS机,又或者业务方向已经变更,但是MCC代码却不做相应调整。这样挂羊头卖狗肉,明明是“洗浴、按摩”的业务,却使用“报亭、报摊”的POS机,每年都能从中赚取不少的非法利润。

电子科技大学刘震教授和国内某金融机构合作,负责一个MCC套用的项目——这个项目的宗旨就是利用大数据分析的办法,自动检测出非法MCC套用。如果统计每一个POS机每天的平均收入,就可以发现套用“报亭、报摊”这个MCC代码的“洗浴、按摩”中心,因为一个报亭每天的POS收款额相比“洗浴、按摩”中心的收入可以忽略不计。刘震告诉我,有非法MCC套用的商家并不傻,他们会选择一些费率比较低,但是营业额类似的行业,比如说“洗浴、按摩”中心可以套用“百货商店”的MCC代码,这样费率可以降低0.47%。

尽管每天的平均刷卡额度可以很接近,但如果观察商家POS机消费记录在一天24小时上的分布,很多MCC套用的行为就无所遁形了。譬如百货商店的消费主要出现在早上7点到晚上10点,并且在下午有一个峰值;而洗浴、按摩中心消费额度在一天24小时中的分布有两个峰值,其中下午的小峰值主要来自于节假日,而主要的峰值时从晚上十点以后持续到凌晨2点,这正是大家娱乐活动的高峰时间!刘震发现,有很多百货商店的POS消费记录和洗浴、按摩中心非常一致(这可以通过计算分布间距离并通过p-检验自动得到),这些POS机就是典型的MCC套用。

从刚才的例子可以看出,只要抓住了主要矛盾,简单的统计分析就可以带给我们很有价值的洞见。当然,真正操作的时候,比我们所讲述的复杂得多,因为需要处理的MCC代码很多,一个商家的消费记录在多大程度上可以算作明显偏离“最典型的分布”也是一个不平凡的统计学问题。不过,无论如何,这是一个简单的事情,实际上,一台普通的笔记本电脑,不到1分钟,就可以自动从几百万商家数年的POS机消费记录中自动把疑似MCC套用的商家名单,非法套用的可能性评估以及可能的真实主营业务代码集合给出来。

更困难的情况下,不同MCC号码的消费金额分布也比较类似,譬如百货商店和乡镇加油站。但是,仅仅是分布整体相似也不一定能够逃脱大数据分析的法眼,譬如所有的加油站在公布的油价上涨日前都会有一个消费高峰,数据中如果没有出现这些不同寻常的脉冲峰值,也几乎百分之百是套用。很多经营业务在假日、特定节庆日、寒暑假、特别的天气状况下会出现消费的高峰和低谷,要想模仿可不容易。而这些峰值和低估值也可以通过异常检测自动从数据中发现。

上面是一个典型地通过大数据分析带来重要价值的例子。通过聪明的算法设计,一台普通的台式电脑,不到1分钟,就可以自动从百万商家数年的POS机消费记录中自动把疑似MCC套用的商家名单,非法套用的可能性评估以及可能的真实主营业务代码集合给出来。

 

 




https://blog.sciencenet.cn/blog-3075-821002.html

上一篇:大数据挖掘研讨会(8月26日,成都)
下一篇:地理位置对饮食习惯的影响分析
收藏 IP: 122.225.224.*| 热度|

19 毛飞跃 武夷山 陈新泉 徐大彬 化柏林 郑新奇 章成志 惠小强 赵凤光 梁进 张海峰 陆泽橼 韩涛 李天成 钱磊 强涛 changtg FloatingRose rosejump

该博文允许注册用户评论 请点击登录 评论 (15 个评论)

数据加载中...
扫一扫,分享此博文

Archiver|手机版|科学网 ( 京ICP备07017567号-12 )

GMT+8, 2025-1-9 02:09

Powered by ScienceNet.cn

Copyright © 2007- 中国科学报社

返回顶部