查看原文
其他

三分钟读懂大数据

崔哥看世界 崔博效率手册 2022-06-12
“大数据”(Big Data)可以理解为三个层次:
1. “大”。必须是海量的数据,才算大。
2. “数据”。不只是存贮(譬如保存在电脑中的大量文件),而是包含了数据的清理(“数据清洗”)、分析和解读。
3. 这是一整个系统,而不只是针对一堆数据,而是一个庞大的框架。就像一个餐厅,数据就像是原料,而关键在于厨师通过菜谱制作出的菜品,也就是通过分析这些数据所能给人们带来的价值。

首先,多大才算是“大”数据?

下面是常见的数据单位:
1 KB = 1024 B (KB - kilobyte) 
1 MB = 1024 KB (MB - megabyte) 
1 GB = 1024 MB (GB - gigabyte)
1 TB = 1024 GB (TB - terabyte) 
1 PB = 1024 TB (PB - petabyte) 
1 EB = 1024 PB (EB - exabyte) 

1TB,现在的话只需要一块硬盘就可以存够,大约几十倍4K电影。1PB的话,则需要大约2个机柜的存储设备。1EB,需要大约2000个机柜的存储设备。如果并排放这些机柜,可以连绵1.2公里那么长。如果摆放在机房里,需要21个标准篮球场那么大的机房,才能放得下。

EB还不是最大的。目前全人类的数据量,已经达到了ZB级。
1 ZB = 1024 EB (ZB - zettabyte) 

2011年,全球被创建和复制的数据总量是1.8ZB。而到2020年,全球电子设备存储的数据,将达到35ZB。如果建一个机房来存储这些数据,那么,这个机房的面积将比42个鸟巢体育场还大。

数据量不仅大,增长还很快——每年增长50%。也就是说,每两年就会增长一倍。
目前的大数据应用,还没有达到ZB级,主要集中在PB/EB级别。

哪里来这么多数据?一方面互联网的发展,促进了用户产生信息(UGC)的快速增长,即大家每天拍摄、分享的照片、视频。更重要的是,随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。

其次,什么叫做数据清理、挖掘和机器学习?

我们可以从一个小孩子从出生开始的学习过程来类比。孩子会接触到大量的人、事、物,它们具备各种形态、格式、类型,需要以不同的方式加以理解、消化,对于一个孩子来说,这些数据再大也不多。但是放大到几十个、上百个孩子,这些数据就会相当庞大,数据
处理、吸收的复杂性也会指数式增加,这就类似于“大数据”。

在接觖到这些信息以后,孩子要从中理解世界这行的机制,这就是“数据挖掘”。譬如:孩子看到天气冷了,叶子落了,得出了结论:“天气冷的时候,树叶会掉下来”。

这就是通过对数据的处理,挖掘出了一定的经验知识。

这个里面涉及到很多关键的点:怎么样确保天气冷的信息是准确的,这就需要“数据清理”,即要对原始数据进行严格的规整,避免嗓声信息。

最后,孩子学习到这些经验知识以后,现在孩子需要自己面对一个新的世界。天气冷的时候,树叶会掉。那么天气暖和的时候,会怎么样?

孩子也许还没有看过,但是根据对天冷时候的情况的分析,他/她推测,树叶可能会长出来。

这就是从已有的经验,推测出新的知
识,这就是“机器学习”的核心。“学习”的本质就是求解最逼近真相的经验,理论基础主要是统计学。

最后,大数据系统的价值是什么? 

研究大数据的主要目的,就是为了挖掘大数据里面的价值。大数据,究竟有什么价值?
早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明确提出:“数据就是财富”,并且,将大数据称为“第三次浪潮的华彩乐章”。
第一次浪潮:农业阶段,约1万年前开始
第二次浪潮:工业阶段,17世纪末开始
第三次浪潮:信息化阶段,20世纪50年代后期开始。

归纳来说,大数据的价值主要来自于两个方面:

1. 帮助企业了解用户

大数据通过相关性分析,将客户和产品、服务进行关系串联,对用户的偏好进行定位,从而提供更精准、更有导向性的产品和服务,提升销售业绩。

典型的例子就是电商。像阿里淘宝这样的电子商务平台,积累了大量的用户购买数据。在早期的时候,这些数据都是累赘和负担,存储它们需要大量的硬件成本。

但是,现在这些数据都是阿里最宝贵的财富。通过这些数据,可以分析用户行为,精准定位目标客群的消费特点、品牌偏好、地域分布,从而引导商家的运营管理、品牌定位、推广营销等。

2.帮助企业了解自己

企业生产经营需要大量的资源,大数据可以分析和锁定资源的具体情况,例如储量分布和需求趋势。这些资源的可视化,可以帮助企业管理者更直观地了解企业的运作状态,更快地发现问题,及时调整运营策略,降低经营风险。

大数据的产业链  

大数据的产业链,和大数据的处理流程是紧密相关的。简单来说,就是生产数据、聚合数据、分析数据、消费数据。每个环节,都有相应的角色、企业。

从目前的情况来看,国外厂商在大数据产业占据了较大的份额,尤其是上游领域,基本上都是国外企业。国内IT企业相比而言,存在较大的差距。

大数据面临的挑战

除了数据管理技术难度之外,大数据的最大挑战,就是安全。

数据是资产,也是隐私。没有人愿意自己的隐私被暴露,所以,人们对自己的隐私保护越来越重视。政府也在不断加强对公民隐私权的保护,出台了很多法律。欧盟在2018年出台了有史以来最严厉的GDPR(《一般数据保护法案》),把网络数据保护上升到前所未有的高度

在这种情况下,企业获取用户数据,就需要慎重考虑,是否符合伦理和法律。一旦违法,将付出极为沉重的代价。此外,即使企业合法获取数据,也要担心是否会被恶意攻击和窃取。这里面的风险也是不容忽视的。

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存