新书推荐

《品味大数据》 张玉宏著
-北京:北京大学出版社,
2016--405页
索取号:TP274/96
馆藏复本情况:2

内容简介
当下,大数据是一个热门的话题,很多领域的学者,从不同的角度进行了深入的讨论。本书从大数据的历史、内涵、哲学和技术四个角度,全面解析大数据,让读者对大数据有更深入的了解。
《品味大数据》共11章,大致分为4块:第1-3章主要漫谈了大数据的有趣的历史,包括数据的启蒙、信息载体的演变和数据管理的发展脉络。第4-6章主要聊聊大数据的内涵,包括大数据与哲学及第四科学范式的关联。第7-9张是大数据的杂谈,包括大数据的用途、可能面临的陷阱以及通过小故事对大数据进行一些烦死,第10-11章主要涉及大数据的技术,包括100余篇大数据论文的漫读及Hadoop的初级实战篇。
图书结构完整,行文幽默,并以图文并茂、通俗易懂的方式力图让读者心有余地品味大数据。图书援引了数以百计大家牛人的观点,或褒或贬,高手过招,精彩纷呈,是一本不容读者错过的大数据图书。
作者简介
张玉宏 留美博士,曾跟随导师Alok Choudhary教授参加了奥巴马总统办公室有关Big Data(大数据)研讨会。

在线试读部分章节
5.2 大、小数据的“质”不同 
大数据的实质是什么?在第四章中,我们已经讨论过这个议题。虽然当前学术界和实业界对此都还没有一个统一的定义或认知,但从狭义的字面来理解的话,它应该与小数据相对应,大数据是指数据量特别巨大,超出了常规的处理能力,需要引入新的科学工具和技术手段,方能够进行处理的数据集合。
于此对应的,所谓的小数据指的是,数据规模比较小,用传统的工具和方法就足以完成处理的数据集合。下面我们用一段天文学家第谷·布拉赫和约翰尼斯·开普勒的故事来举例说明小数据的应用。
在16 世纪,有位杰出的占星学家、天文学学家,名叫第谷·布拉赫(TychoBrahe,1546—1601)。第谷出生于丹麦的一个贵族家庭。早在1572 年,第谷凭借自己出色的观察能力,发现仙后座中的一颗新星,后来受惜才的普鲁士国王腓特烈二世(Friedrich Ⅱ)b 的邀请,他在汶岛建造天堡观象台,经过20 年的观测,发现了许多新的天文现象。第谷是天文史上的一位奇人。他对于星象所做的观测精度之高,是他同时代的人望尘莫及的,他编纂的星表的数据甚至接近了肉眼分辨率的极限。
1597 年, 有位才华横溢的年轻人约翰尼斯· 开普勒(JohannesKepler,1571—1630)渐露头角,年仅26 岁的他出版了自己对宇宙模型猜想的著作——《神秘的宇宙》(Mysterium Cosmographicum)。在这本书中,开普勒设计了一个非常有趣的、由许多有规则的几何形体构成的宇宙模型。
1599 年,第谷看到这本书,十分欣赏开普勒的智慧和才能,立即诚邀他做自己的助手。开普勒来到第谷身边以后,师徒二人“珠联璧合”,朝夕相处,对天文学领域共同的狂热,让他们结成忘年交。
但是,好景不长,开普勒受多疑的妻子的挑唆,突然和第谷决裂,不辞而别。开普勒的离去,使爱才如命的第谷非常伤心。他意识到这完全是一种误会,立即写信给开普勒解释,并胸怀宽广地请他回来继续合作。开普勒读了第谷的诚挚来信,感到十分愧疚。当两人重修旧时,第谷不记旧怨,不但把才华出众的开普勒推荐给国王腓特烈二世,还把自己20 多年辛勤工作积累下来的观测资料和手稿,全部交给开普勒使用。他对开普勒说:“除了火星所给予你的麻烦之外,其他一切麻烦都没有了。现在我把火星的研究也要交托于你,它够你一个人麻烦的了。”
开普勒在接手第谷观测的数据后,这批花费第谷20 多年时间得到的数据,很快就在开普勒手中“妙笔生花”,开普勒经过手工计算,从中发现了著名的“行星运动三大定律”,即轨道定律、面积定律和周期定律。这三大定律最终使开普勒赢得了“天空立法者”的美名。开普勒的成就,来自坚实的数据支撑。他凭借手工,就能处理完第谷20 多年收集而来的数据。这一案例反映的是他处在一个“小数据时代”。
随后,与开普勒同时代的牛顿,通过论证开普勒行星运动定律与他的引力理论间的一致性,证明了地面物体与天体的运动都遵循着相同的自然定律,从而发现了万有引力和三大运动定律,现在看来,这也是基于小数据的。这些经典理论的提出,奠定了此后三个世纪里物理学领域的科学观点,并成为了现代工程学的基础。再后来,随着科学的发展,数据量有了较大的增加,为了处理那些在当时看来的“大数据”,统计学家发明了抽样方法,其基本要求是,在确保所抽取样品具备“随机性”的基础上,来保证样本可以对全体具有充分的代表性,从而推断全体样品的特性,由此解决了“大”数据处理的难题。
而当前的大数据,不仅是所谓数据海量,而且各种数据的差别非常大,用抽样方法难以保证它的有效性。传统的统计方法,之所以不能适用于现在的大数据,大致源于如下三点原因。
(1)在第四章中,我们讨论了大数据的“4V”特征,其中最能反映大数据和小数据不同之处,就是它的“多样性”(Variety):由多种数据来源组成的一个全面的数据。在多种数据源的应用环境中,抽样很难保证它的“无偏性”(unbiasedness)。
(2)统计学家们设计的统计模型,其结论的准确性,强烈依赖于与结论有关的应用类型。目前大数据的主力军——网络数据呈现长尾分布(长尾理论将在后面的小节介绍),使得传统的标准方差等衡量标准失效,“长相依”和“不平稳”常常超过了经典时间序列的基本假设。
(3)传统的机器学习方法,通过先在较小的数据集样本中学习,然后调整参数,验证分类、判定等“假设”和“模型”的适用性,再推而广之到更大的数据集上。通常来说,一般的NlogN、N2 N2 等级别的算法复杂度,是可以容忍的,然而面对PB 级别(1PB=1 024TB=1 024×1 024GB=1 125 899 906 842 624 Bytes)的大数据处理,这种算法复杂度已经难以忍受,因此需要设计新的数据处理算法来适应这一新情况。江西财经大学科技哲学教授黄欣荣,对小数据和大数据“质”的区别也做了比较到位的描述。
(1)从采集手段上来说,小数据属于人工数据,是有意测量、采集的数据;而大数据大多数是由智能系统自动采集或人们无意留下的数据(比如,用户在搜索引擎中使用的搜索关键字、服务器运行的各种日志等),因为当时没有什么明显的用途,很多大数据一度被称为“垃圾数据”。目前,“数据排放”(data emission)——互联网用户留下的点点滴滴(如点击记录、浏览时间、评价内容等),都可以发掘出价值,目前正成为网络经济主流。在大数据时代,有个口号就是,记录一切数据,等待有趣的事发生。在特定的生态环境下,用适合的工具挖掘,大数据中的所谓“垃圾数据”就不再垃圾。
(2)从存储介质和处理平台来看,小数据因为容量较小,常存储于本地存储介质中,其处理平台仅需单机即可完成,数据的处理者清楚地知道数据“身处何地”,可以“亲力亲为”地编写对应的数据分析程序。而现在的大数据,往往因数量过大,而不得已存放于“云端”中,“云深不知处”,云计算利用自己的“虚拟化”技术,让用户不知道也不需要知道数据存在哪台“云计算”的服务器上。就如同用水、用电一样,用户无须知道自来水厂和发电厂在哪里一样,仅仅打开水龙头、按下开关就能得到水资源和电资源。所谓的云计算,就其本质而言,就是一种以互联网为连接中介,以租赁服务的方式,为用户提供动态可伸缩的虚拟化资源的计算模式。中国宽带资本基金董事长田溯宁先生曾总结说,大数据与云计算就好比一个问题的两面。如果说大数据是有待解决的问题,那么云计算就是问题的解决方法。通过云计算对大数据进行分析、预测,会使决策更加精准,释放出更多的隐藏价值。大数据,这个21 世纪人类探索的新边疆,正在被新的计算模式——云计算所发现和征服。
(3)从数据性质来说,小数据因“有意采集”来支持研究者的假设或观点,因此可归属于“主观数据”。相比较而言,大数据则因没有事先渗透主观意图,数据的生产者反而能“真情流露”,从而更显客观性,因此属于“客观数据”。此外,根据舍恩伯格教授的观点,大数据不再是随机样本,而是全体数据。全数据是由多维度数据构成的。一个事物的全息可见,自然比单维度的采集要来得客观。有些商家(特别是大型电商)就是利用顾客的多维度、多层面“用户画像”来更全面刻画客户特征,从而达到精准营销。舍恩伯格教授在其著作《大数据时代》一书中,开门见山地提出了大数据的哲学意义:“大数据开启了一次重大的时代转型。就像借助望远镜,让我们能够感知浩瀚的宇宙,借助显微镜,我们能够观测渺小的微生物一样,大数据正作为人类认知世界的新手段、新方法、新工具,改变我们的生活、工作以及理解世界的方式,成为新发明和新服务的源泉,而更多的改变正蓄意待发……”由此可见,大数据,除了在信息科学领域成为研究热点外,在哲学层面的认知,也应有所突破,这也是人类进一步认识世界的迫切需求。