一个“大数据”的故事
文章来源:基础软件国家工程研究中心 徐普 软件发展部 孔维一 | 发布时间:2018-12-25 | 【打印】 【关闭】
(一)
最近,老师交给你了一项任务:分析我每天9点钟会在哪儿。
于是,你潜伏在软件所与宿舍之间,观察我的行踪。
经过了三天的观察,你发现,每天8点半我会去实验室,中午我才会从实验室出来吃饭。
所以,9点的时候我肯定在实验室,于是你得出结论:
我每天9点钟在实验室
你圆满地完成了任务,回去找老师汇报。按照你的结论,明天我9点的时候一定还会在实验室,你信心满满地拉着老师来验证结论。
(二)
第四天,我没有出现在实验室。
因为第四天是星期六,我不上班。
(三)
于是,尴尬的你决定进行长期的观察。
一眨眼,两个月过去了……
你终于发现,我只在工作日才会上班,周末两天我宅在宿舍睡大觉,一觉睡到中午12点才爬起来去食堂吃饭。
根据新的观察结果,你对你的结论进行了修正:
周一到周五每天9点我在实验室
周六和周日每天9点我在宿舍
这次看起来应该没问题了……吧?
(四)
第一个星期,一切正常。
第二个星期,是8月,我放暑假回家了……
(五)
你意识到,再这么观察下去不是个办法,于是你又找到了一年里所有节假日的放假安排。
同时,你发现,我家离北京很远,回家要很长时间。所以短的假期我回不去;长假我才会回家,到时候肯定是在家睡大觉。
根据新的信息,加上你的推理,你再次对你的结果进行了修正:
工作日每天9点我会在实验室
周六周日以及短假每天9点我会在宿舍
长假每天9点我会在家
嗯,非常完美,于是你自信满满地又拉来老师验证你的结论。
(六)
某个工作日,我因为前一天熬夜看动漫睡过了头……
长假第一天,我被堵在半路没到家……
回来第三天,我出差了,一个星期都不在北京……
(七)
你沮丧地发现,虽然你的结论越来越接近真实情况,但永远会有“意外”出现,导致你的结论出错。为了能够包括这些“意外”,你需要额外统计更多可能相关的东西。但是“意外”永远层出不穷,为了更准确地预测我的位置,你要统计的东西越来越多,无穷无尽。
(八)
恭喜,你开始理解大数据的作用了。
(九)
我们日常的所有事务,都在无时不刻地产生着信息。通过这些信息,我们能够更全面地了解问题,从而更好地解决问题。医生望闻问切诊断病人、老师根据成绩判断学习情况、警察通过蛛丝马迹侦破案件,都是在利用信息来解决问题。
然而,就像前面的故事一样,为了更好地解决问题,需要收集更多的信息。得益于计算机技术的发展,我们能够通过数字化的信息系统收集海量的信息数据进行分析,这在过去是难以想象的。
这,就是大数据。
通过对大数据进行分析,我们往往能够发现更多潜在的、以前被忽略了的规律,因此能够得到更加精准的结果。人工智能的惊艳表现,淘宝精准的个性化服务,背后都离不开大数据的强力支撑。
但正如前面的故事一样,虽然我们需要更多的数据来更好地解决问题,但数据永远都是不够的,并且是无穷无尽的。因此,大数据一直走在一条“没有最好,只有更好”的路上,而我们的数字化生活,也将越来越便利。