查看原文
其他

神策数据创始人兼CEO桑文锋:大数据分析的四个重要环节(内附视频&PPT)

桑文锋 数据猿 2023-03-30
数据猿导读
 

在“硅谷之声——大数据技术达人中国行专场”上,神策数据创始人兼CEO桑文锋表示,在百度工作这么多年,“要把数据的事情做好”是我非常重要的一个心得。数据源做好了,事情基本上就成功了一半。如果没有数据,后面即使有再牛的算法,也一样做不好。


作者 | 桑文锋


硅谷作为当今全球科技创新的前沿阵地,一直吸引着全世界人的目光,对于中国高科技人士来说也同样具有这样的魔力,是众多梦想家的理想去处。


为了让大数据领域创业者、数据工程师等技术人才更好的了解最前沿的硅谷技术和文化,由数据猿联合BitTiger、微软加速器共同举办的“硅谷之声——大数据技术达人中国行专场”在北京微软亚太研发中心总部圆满落幕。


 视频版  —


https://v.qq.com/txp/iframe/player.html?vid=z0388m0fqjb&width=500&height=375&auto=0


注:获取演讲嘉宾干货PPT请后台回复关键词“硅谷之声桑文锋”即可


 文字版  —


以下是由数据猿精编整理发布的 神策数据创始人兼CEO桑文锋 的精彩分享:


分享长度为3000字,建议阅读6分钟


这次我的分享主要是结合我在百度工作八年,以及创业两年来的经验。


百度的数据规模是非常庞大的,"用数据说话"就是百度的文化之一。很多时候的决策和改变,都要依赖于数据。很多人觉得,数据规模大才需要数据分析。小公司没有那么多数据,就不需要大数据分析。我认为这是不对的,所以这里就要解释一个概念,什么是大数据?有一种说法是:大数据是思维。但是我认为,要理解大数据,应该从两个层面来看。一是物理层面;二是抽象层面。


从物理层面来看,可以归结为四个字:大、全、细、时。



第一,大。这里指的不一定是物理上的大。举个例子,我们收集全国各个地级市今天的苹果价格,可能收集到的数据只有2兆,但我们用这个来做一个调动性,这就很显然是一个大数据的应用了。


第二,全。全指的是多种源,全量而并非抽样。以前做调研分析,许多时候都是抽样,这就很容易造成偏差。样本有一点问题,跟全局表现出来的都会有所差异。


第三,细。举例来说,如果我们提问全国各省份大家喜欢吃什么东西?大家并不会回答"我来自河南,喜欢吃烩面"这么细致。但是我们可以基于地理维度进行获取更细致的信息。


第四,时。即时效性。以前一个老板可能都不知道每个季度公司的收益到底是多少。而现在是实时的进行计算、反馈结果。


所以,对于许多小的创业公司来说,我们可以把数据收集的更细、维度更多、时效性更强,同样也可以进行更多的数据分析。我认为这些同样也叫大数据。


从抽象层面来看,最重要的一点是数据驱动的思维。这是大数据里非常关键的一点。虽然以前也有数据分析,但那个时候是采集样本,基于样本去分析、去做决策。现如今,无论是互联网还是传感器的发展,都让我们有机会采集到更多的数据,因此现在的数据分析和以前也是不一样的。


大数据的第一个环节是数据采集。因为数据规模大,当达到一定的水平之后,采集本身就成了一个很大的问题。我们现在需要各种各样的手段把这个数据记下来。每一个实际发生的信息,我们都要进行采集。


第二个环节就是数据建模。我们要在数据的基础上进行模型的搭建。数据建模最重要的是整理数据。把数据表做出来以后,我们才能更好的去分析。


第三个环节是数据分析。我们在拥有数据的基础上去做用户分析、用户分群。


最后就是指标。围绕一个产品,我们如何去获取新用户?每天增加了多少用户?通过哪个渠道?这些问题都是我们要关心的。



接下来就重点给大家讲讲每个环节的具体操作:


环节一:数据采集


大数据体现的是大,但时效性也是一个基本要求。现在我们进行数据采集、数据处理的时候,都在强调尽量去生成这个数据。归结起来,如何把这个数据做好?就两个字,一个是全、一个是细。"全"是用各种各样的数据源,无论是前端的、后端的数据,我们都要全量的采集到。"细"是强调多维度,无论什么样的维度信息,我们都可以采集过来。


在百度工作这么多年,"要把数据的事情做好"是我非常重要的一个心得。数据源做好了,事情基本上就成功了一半。如果没有数据,后面即使有再牛的算法,也一样做不好。所以,数据源是非常重要的,在这一块要花工作去把它做好。


数据采集有三类手段:


第一类是在产品里通过后台配置,去采集我们要采集的数据,或者是把这个采集的数据命名成什么样。这个方式的好处在于,不需要工程师干预太多,只需要业务人员、产品、运营,自己就可以看到要分析的数据结果。这种方式有利也有弊。自动采集手段目前还有很多局限性。许多时候,只能收集一些宏观的数据,比如说机器的版本。在采集一些复杂信息时,自动采集的方式就很难达到了。


第二类是通过代码去收集任何想要的信息,把要采集的地方埋入代码,记录下来。绝大多数的数据一般都会通过后端去采集。


第三类是通过工具去采集。


这三种是常见的数据采集的方式,无非是你从中去选择适合你的方式。


许多的公司在数据采集方面都存在非常大的问题。公司人员的流动很有可能造成数据采集的混乱。所以要对数据采集本身进行监控,在哪些点进行了采集,都采集了什么样的维度,通过的有多少,没有通过的有多少,要将这些监控起来。


另外,需要有分析师参与到数据管理。在我自己创业的过程中,我发现许多公司缺少一个真正的数据负责人。一方面我们要用各种各样的工具,去做好数据采集。另一方面,需要懂业务的人,真的把数据本身的采集管理起来。


环节二:数据建模


现在许多产品背后都有一个数据库,数据库里很多都是跟交易相关的。在数据库里会把我们生成的数据记下来,比如说用户的注册信息、交易订单信息,这种信息都会写到数据库里。那么我们在数据库里就可以解决问题,为什么要专门建一个数据平台呢?这里面有三个问题:


1、要把数据表用于数据中心。如果把数据库里的表交给业务员、产品经理,他们很难理解,更不可能后续在机房进行一些工作。


2、性能不行。业务数据库这种数据结构、数据表处理一般支持的是高频化、小批量的,而我们的数据分析跟这个模式是完全不一样的。数据分析的频次并不是很高,但是它的规模、吞吐量很大。在传统的数据库上去处理这个性能就会有很大的问题。


3、数据不全。业务数据库用于做数据中心,这个数据模型本身是不行的,或者说是只能解决一部分的问题。


做好数据分析,首先在数据建模的时候要易于理解。数据模型建好以后,无论是谁都可以理解,这样才能把数据更好的利用起来。另外还要性能好,我们在查询的时候,可以很快的得到响应。在数据分析,特别是互联网领域的分析过程中,最常用的模型是多维数据处理模型(OLAP),把数据拆成一个维度或指标。当然最好的分析方式还是建立一个好的数据模型。


环节三:数据分析


数据分析可以干什么?产品改进。数据分析可以帮助我们看到问题,然后改进。在有数据的情况下,即使一个初级的产品经理,也可以把这个产品迭代本身做得像模像样,因为有数据支撑,我知道哪些是客户喜欢的,这都是可以用数据表现出来的。



环节四:运营监控


运营监控是互联网产品中一个非常重要的事情。互联网产品有三件最重要的的事情:


第一件事情是拉新,就是如何去获取新用户;

第二件事情是怎么让这个用户不断的用你的产品;

第三件事情是变现,我用得挺好,来了就不走了,这三点是非常关键的。


一个科学的运营环节,应该分析哪些数据,可以从以下五个方面来看:


第一是触达,怎么让用户知道你;

第二是激活,要让用户进行购买行为;

第三是留存;

第四是引荐,一个用户能推荐给其他用户;

最后就是营收。



互联网产品常用的分析法:


多维分析:一个开元软件分析之后发现安卓的下载率比ios低很多,结果是因为屏幕布局问题,导致下载按钮没有显示,下载量低。这就是多维分析的方式。


漏斗分析:用户来到我们网站,这期间有一个转化的过程,这些环节我们都要跟进下来,才能知道是什么原因导致了用户流失。这就是漏斗分析法。


用户分群:对不同的人采取不同的策略。比如,一开始滴滴打车发13元红包,有些人发不发红包都会用这款软件,而一些人则不同。这就需要区别开来,使用不同的策略。


环节五:指标


我们到底应该关心什么样的指标?这里有两个方法:第一关键指标法;第二海盗指标法。


以上就是我分享的内容,谢谢大家!



数据猿《超声波》大型季度

主题策划活动已启动


【金融+大数据】征文、征案例正在进中......


(快戳图片查看活动详情)


推荐阅读:


Datatist CMO董飞:硅谷公司的大数据运营实践(内附视频&PPT)

BitTiger联合创始人Michael Kehoe:硅谷互联网公司的企业管理文化(内附PPT&视频)


来源:数据猿


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存