您现在的位置:首页 >> IT >> 正文
发现数据的价值:时趣如何利用“图计算”完成实时分析
发表时间:2015年12月21日 15:21 来源:新科技 责任编辑:编 辑:麒麟

作为年度的技术盛会,2015中国软件开发者大会(SDCC)已在京落幕,近百名国内外业界领袖和知名技术专家共论技术热点与最佳实践,揭示下一代软件开发技术趋势与影响。

时趣首席科学家王绪刚作为本届SDCC大会的特邀嘉宾,从商业和应用场景角度讲解如何利用“图计算”完成实时分析,从而“发现”数据的价值。时趣是中国第一家开发SCRM在线软件的公司,并率先提出以大数据驱动营销。发展至今四年的时间中,时趣已服务了包括宝洁、腾讯、Airbnb、联想、沃尔玛等超过 100家大型企业和1000家中小企业。

以下为王绪刚先生的演讲记录编辑稿,与没能亲临现场的朋友们共享。

从IT到DT:数据如何帮助商业

从IT到DT,核心问题是当企业通过传统IT时代积累了大量消费者数据之后,决策便从“生产产品到消费者”转变为更加科学的“以消费者需求为中心”。无论线上、线下,企业的用户身份都可以被识别出来,从而使营销效率可量化、可追踪、可预测。因此,所谓的“TA”不是群体,而是海量的个体。

当企业的人群采样由旧有个体性曲线变成连续性曲线,利润逐渐增高。一个关键因素是,企业在执行过程中的决策流程,由人工规则或专家系统进化为更智能化和程序化的数据分析。

企业所需的真实分析场景,一般分为三种:事实性分析、预测性分析、行动性分析。

事实性分析,是监测实际发生或发展趋势的变化。例如,会员运营中的效果趋势(会员增长、流失、活跃)、异常点(巨大的流失事件点)以及重要的指向性信息(关键渠道、意见领袖)等,这些指标对运营人员非常有帮助。又如,自媒体运营中的粉丝效果趋势(粉丝增长、互动、关注)以及重要的指向性信息(关键互动、共同关注)等。

预测性分析,例如意见领袖发现、产品需求分析、潜在客户挖掘等。企业在传播中需要拥有意见领袖资源库,可根据不同主题筛选出不同的意见领袖;企业需要拥有消费者洞察部门,用于分析用户需求以便于提出营销或产品研发建议;企业也需要在广告投放中,将实际购买人群数据和点击数据相对应,所获取的用户兴趣标签将有助于发掘潜在消费者。

行动性分析,将在用户生命周期全程推荐。例如从访客到购买者的过程、从购买者到忠诚购买者的过程,会有向上销售、交叉销售推荐模型,会有流失用户预警分析模式和潜在客户挖掘模型等,企业也可以进行个性化推荐或个性化积分活动。

以上三个分析阶段在不同应用场景中的使用方式也不同。例如在品牌塑造方面,事实分析将代表广告监测、预测分析代表意见领袖和潜在TA挖掘、行动分析代表RTB投放;在产品设计方面,事实分析代表口碑聆听、预测分析代表需求点预测、行动分析代表个性化设计。

DT时代的到来,是又一次商业效率的变革,即在一定精准度情况下运营效率的大幅提升。而运营效率提升,企业收益会更大。

大数据营销的技术挑战

时趣作为一家数据驱动的移动营销解决方案提供商,所涉及的客户数据源以及数据应用类型呈现多样化特点,从实际业务出发总结出一些企业在大数据时代面临的挑战。

第一是数据量与多样性挑战。由于IT不断成熟、移动社交不断发展,消费者的行为性数据呈现海量化且增量较高;同时,用户数据还具有多样性特征,包括扫码数据、点击数据、线下交易数据等。如何利用不同的算法策略在同样的数据结构之上进行计算,而不是为了使用不同的算法需要修改和迁移海量的数据?这需要采取一致性的数据结构。

第二是实时性挑战。对于数据分析人员来说,往往许多分析的维度不是事先预定的,需求总是不断在变化。因此,企业需要一个交互式分析的引擎,可以将在线系统分析的维度进行抽象加工,并实时产生组合的数据产品。能够进行交互式的数据钻取,无疑有助于更好的发现营销“真相”。

第三是关联性挑战。企业数据分析,核心问题是用户画像。对于营销来说,“预测性”分析不仅仅是发现营销的好坏,更重要的是发现为何好,以便于进行优化。例如转化率等最基础的企业监测数据,关键需要分析出用户的来源渠道、购买产品或其他关联因素。

因此,B2B企业需要一套统一的架构来满足大数据量下的实时关联计算。

图计算引擎探索与实践

“图计算”是以“图论”为基础的对现实世界的一种“图”结构的抽象表达,以及在这种数据结构上的计算模式。图数据结构很好的表达了数据之间的关联性,而关联性计算是大数据计算的核心——通过获得数据的关联性,可以从噪音很多的海量数据中抽取有用的信息。

“图计算”需要从应用场景出发,构建用户画像。在实际应用场景中,关键是找到目标用户人群,通过广告投放等方式促进有价值人群进行二次转发,从而形成一个闭环。

用户与产品、媒介、内容的关系可以概括为一张抽象图,通过中间一系列标签相关联。例如社交媒体基础图的结构,右列是用户、明星、音乐、话题,可以通过一个节点用户相关联。网络用户行为的这种抽象图,无论是两个节点之间的距离权重还是从A节点到达B节点的概率值,都可以看出两个节点之间的关联性。

基本的图计算,例如单图中的函数,可以通过对应权重传播、加工,而传播的节点将会不断把信号传递下去。图计算的算法,包括亲密度算法、影响力算法、相似度算法、聚类算法等。

亲密度算法,是根据不同的路径和权重,计算从一个节点出发到达其他直接节点的概率,例如形成以节点A为中心的亲密度用户排序列表。影响力算法,是借鉴链接分析Rank算法,计算在关系中某个节点的影响力。例如,用户A发出的信息,到达其他节点的概率,找到图谱中有影响力的因素(意见领袖或权威人物),便可以发现信息传播的引爆点。

在探索历程层面,2007年的“图计算”是以产品推荐为核心,2010年尝试以社交关系数据为核心的推荐,2012年通过标签建立人与物、人与人的关联,2013年进行了复杂的查询与关联计算,如今我们仍然在坚持不断探索与实践。

在效果层面,图计算的灵活性和拓展性俱佳,可以实现百万消费者的查询数据在三秒钟之内提取;不需要事先设定,便可实现消费者行为和关系的数据抽象。例如,针对三亿用户节点,每天将会有4.2亿的新增数据以及80万的自动化提取标签;对个体用户画像实时分类,用时大约0.03秒;对消费者的挖掘,百万相似标签人群以及关联属性分析可在1秒钟内完成。

相关文章
关于我们 | 联系我们 | 友情链接 | 版权声明
新科技网络【京ICP备15027068号】
Copyright © 2015 Hnetn.com, All Right Reserved
版权所有 新科技网络
本站郑重声明:本站所载文章、数据仅供参考,使用前请核实,风险自负。