云悦读

《长安十二时辰》与大数据

(来源:微信公众号“格隆汇”;文/江湖豆腐)

最近《长安十二时辰》热播,许多观众一直悬心于张小敬和小李必的生死,一边看一边发弹幕刷屏,但实际上这两个人有主角光环护体,可以被折腾得很惨,但绝对不会死。

如果要猜测一下生死,倒是可以猜猜靖安司主事徐宾的结局。这厮本来已经死两回了,但最终都活了过来。作为一个龙套,他是一个生命力顽强的龙套,最后死不死还真有点难说。

今天就跟大家聊一下这位徐主事,以及他的大案牍术。

神奇的大案牍术

明眼人一看就知道,所谓的“大案牍术”这个词是马亲王杜撰的,这玩意儿其实是大数据在剧中的实际应用。

大案牍术分两部分构成,一个是由靖安司从各处调来的各种明档、密档构成的数据库,一个是以徐宾为核心的信息处理小组。这个套路和当代的大数据分析本质上是一样的。

当代大数据的基础是各类数据的信息搜集,以及程序对这些数据信息的归类、演绎。靖安司主事徐宾在靖安司这个系统里,充当的是中央处理器的角色。

那么,有些人可能就会奇怪了,“大数据”是一个很新的概念,为什么古人也会呢?

其实,“大数据”作为新词汇确实是最近几年才出现,但这事儿本身并不新奇。当代的大数据产业胜在技术手段上,但这事本身而言,自古以来全球人类都已经在做了。

考古发现,早在公元前18000年的旧石器时代,就有不少部落首领在骨头、石器上刻下印记,来记录部落仓库里的各种物料,并以此推算未来,比如仓库里的粮食还够全部落吃几天之类。

公元前300年左右,古埃及托勒密王朝建立了亚历山大图书馆。这不是人类第一座图书馆,但它的藏书几乎涵盖了当时人类知识的所有领域,可以认为,它就是当时最完备的数据存储中心。不过,它后来毁于战火了。

中国人自古以来就有存储数据的习惯,比如大家看到的各种史书,实际上在古人眼里,那就是存储起来的数据。通过对历史数据的分析,执政团队可以对时下的政策作出相应的调整,以得到或者避免某种结果。

为了保证推演的过程中产生的偏差尽可能地小,人们对于基础数据的真实性要求是非常考究的。比如,政府对史官的要求是“秉笔直书”,东汉以来的“起居注”,更是以法律形式来保障基础数据的真实性。国家法律规定,帝王不能看起居注,更不能篡改它,如果他一定要看,史官必须写下“某年月日,上阅起居注”;如果他一定要改,史官必须对篡改前的原文归档,并对篡改之事做记录。然而聪明的你,一定会明白,这种约束帝王的法律其实一点屁用都没用,纯粹是个花架子。

基础数据库的建立甚至可以追溯到史前文明时期,但真正科学意义上的数据分析则是另一回事了。

1663年,一位叫约翰·葛兰特的英国人,用他记录下来的黑死病死亡人数信息,建立起了早期的卫生防疫预警系统理论。这是人类史上第一次有记录的统计数据分析实验。顺便一提,这位英国人其实并不是严格意义上的科学家,他是做布匹生意的商人,业余有点这方面的小爱好,成名之后才被人视为科学家的。

所以,大家也可以这样看待大唐天宝年间的徐宾。他其实是一位造纸商人,业余有个搞数据分析的小爱好,后来兼职在靖安司做了数据中心主管。这也可以解释为什么每次靖安司大难临头的时候,徐宾都溜号回家去造纸。很显然,他可不愿意为了一份兼职把命搭上,忒不值当的,还是造纸更重要一些。

很多年后,人类发明了无线电波,发明了计算机,发明了互联网,还发明了5G,这些新的科学成就都被不断地被应用到数据存储和分析处理领域——大数据时代来临。

大案牍术可信吗?

《长安十二时辰》里,徐宾刚出场的时候,是一个装神弄鬼的角色。当然,他装得挺有仪式感,每次都把靖安司的人唬得一愣一愣的。

徐主事阅卷之前必定先净手,阅卷之后再郑重其事地封好档案,然后整肃衣冠,一边闭着眼睛想台词,一边用双手捻动脖子上挂着的珠子,暗示别人他并没睡着。要过上那么一会儿,他才会睁开眼睛跟旁边的人说,事情原来是这么这么回事儿。

本来徐宾的忽悠一直挺顺利的,但是他的上司小李必虽然少不经事,却毕竟不是一个智障。有那么一回,小李必终于开始怀疑徐宾,结果一查,事情果然有猫腻。可想而知,小李必当时的心里肯定是有一万只草泥马奔腾而过:“我信你个鬼!你个糟老头子坏得很!”

从那一刻起,靖安司的书吏们都不跟徐宾握手了,大家都懒得搭理他。

那么问题来了,大案牍术,靠谱吗?

在李必拆穿徐宾捣鬼之前,靖安司上上下下都相信大案牍术,可以说,大案牍术是靖安司的根基所在。靖安司推导一切案件都以大案牍术为依据,从司丞李必到门口的卫兵,大家都相信,大案牍术是最公正、最客观的研判方式,因为数据没有感情,它不会像人类那样受到主观意识的左右。

但是,物联网是表象,真正催动大案牍术的核心依然是人。

当李必意识到这个真相时,心中信仰的大厦轰然倒塌,整个靖安司都面临着信仰重建的问题。既然大案牍术都靠不住,那么还有什么玩意儿靠得住呢?

李必收走了徐宾的钥匙,从那一刻开始,徐宾就在靖安司成了人憎狗嫌的存在。

为了在李必心里重建大案牍术的信仰,徐宾玩了一手欲擒故纵,他在造纸工坊给李必上了一课。他告诉李必,由于纸价上涨,而朝廷又不肯增加预算,导致基层的书吏们工作积极性缺失,于是书吏们在记录第一手数据的时候,越来越不认真。徐宾的言下之意是,大案牍术的最底层数据就已经不靠谱了,所以局面搞成这个样子不能怪我忽悠你,我不忽悠你也改变不了大趋势啊!

徐宾的一番话又把少不更事的小李必给说服了,但是,小李必心中再度重建起来的大案牍术信仰远不如从前那样坚定了。李必继续坐在靖安司办公室里装淡定毫无意义,倒不如学张都尉在长安城里钻来窜去的,好歹也锻炼了身体。于是,李必就被各路暴徒打得头破血流。

这个故事告诉我们,大数据,也是有bug的。

首先,在这个世界里存在海量的信息,这些基础信息本身也是真真假假,真伪难辨。

其次,处理信息的程序本身也可能存在逻辑bug,它要是故意骗你怎么办?

另外,即便是这两项都没有问题,最终得出的结论依然是见仁见智,一千个观众就有一千个哈姆雷特,从同样的数据里,大家得出的结论也不尽相同,甚至有可能是截然相反的结论。

以上这些还只是客观上难以杜绝的问题,如果算上主动性的数据造假,那这事儿更是一团乱麻了。

在当代,现实中的大数据应用带来的改变也是一言难尽。比如前不久的周杰伦打榜事件,蔡徐坤占据超话榜首60周时,看起来威风八面,简直一代音乐教主的风范,但这并不意味着他真的就比排名低一大截的周杰伦强。

“刷数据这种没有半点技术含量的事情,谁不会啊?”

果然80后的大妈和90后的阿姨们一联手,00后的小坤粉们就滚一边哭去了。

应当在何种程度上信任大案牍术?

《长安十二时辰》是一部虚构的电视剧,大唐朝并没有靖安司,自然更没有徐宾这样的人存在。但是,大案牍术是存在的。

自古以来,确实有不少很厉害的历史人物能够洞悉命运,能够预见未来。但是这不是什么神迹,这些都是一些罕见的高人在掌握了数据分析方法之后,根据大量的数据,分析得出的结果。

不过,在99%的人都是文盲的时代里,去讲这些道理没有用,像徐宾那样装神弄鬼搞得仪式感满满再来说结论,这才是高效率的上策。所以,戏剧里的诸葛亮都穿上了八卦仙衣,手拿白羽扇,时不时闭目掐指一算,就知道“今夜曹贼必来劫营!”没办法,很多人就吃这一套。

于是在古代,大案牍术变成了一种神奇的存在,凡是掌握了大案牍术的人都会被文盲们奉若神明。但是真正掌握了大案牍术的人,自己心里是清楚的:“这东西很有用,但它不是万能的”。

古代的读书人认为,他们学习的是圣贤治国之学,可以造福天下苍生;是天地间的大道,可以洞悉过去未来。实际上,前者学习的是数据库里的储存数据,后者学习的是分析数据的方法,只有同时掌握了两者,才能打开智慧之门。

然而,四库之书,经史子集,汗牛充栋,浩如烟海。一个人纵然天纵英才,皓首穷经,终其一生,亦不可尽读。数据库就已经无法穷尽,数据分析方法同样也很难运用纯熟。所以真正掌握了大案牍术的人,既相信它,又怀疑它,——徐宾就是这种人。

当代的情况其实也差不多,真懂大数据的人知其有所不能,只有那些外行才把大数据视为无所不能的神器。

结语

大唐天宝三年,距今已经过去1275年,时代早已发生了翻天覆地的变化,但唯有人性,几乎没有什么变化。

在当代,许多人对于科学的认知,依然和天宝三年的大唐子民们相去不远,要么视其为洪水猛兽,要么视其为绝世神迹。互联网没有改变这一点,大数据也没有改变这一点。这是一个科学拜物教的时代,之前是互联网拜物教,现在是大数据拜物教。

数据是有价值的,但它并非价值本身,读万卷书还要行万里路,否则就被书坑了。

李必没有被徐宾坑到底,他终究还是醒悟了,他心中重建起来的大案牍术信仰会和之前有极大不同。古人云,尽信书不如无书。