【丰云】17 年一觉大数据,老名词翻新再炒一轮

939次浏览
【丰云】17 年一觉大数据,老名词翻新再炒一轮

台湾政府过去推出许多远大口号,产业界往往是表面上不敢违逆,私底下傻眼、嘲笑或痛骂,不过,不只政府会不断创造口号,产业界自己也一样,全球产业发展史上,多的是无数定义不清、前景不明,连创造者自己都搞不清楚定义的口号名词,同一个名词还会不断改名,重複炮製,产业以外的一般民众,往往被重複糊弄了好几次,还汲汲营营的跟着喊,以为有跟上最新口号就是有远见、有大视野,最惨的则是,连口号都已经过期了十几年,还傻傻的继续喊。

近来「大数据」与「滷肉饭」之争,就是一个这种傻劲的典範,大数据是未来?不,大数据本身就已经是 2000 年出现的名词,光是「大数据」这 3 个字就已有 17 年历史,而与大数据相同概念的前身名词,最早自 1959 年就已经提出,相较之下,台湾知名、时常成为热门网路讨论话题的鬍鬚张滷肉饭,创业于 1960 年,当时还是路边摊,也就是说,大数据比鬍鬚张滷肉饭还要古老。

事实上,整个数据分析的概念,还可推到更久远,最起码从迴归分析问世就应该开始起算,若是如此,那历史得要往前推到史上留名的德国数学家高斯的年代,那可是 19 世纪初的 1800 年代,台湾还要等超过一个世纪才会发明滷肉饭(推测台湾滷肉饭是自日本时代改良品种诞生蓬莱米之后才出现,蓬莱米发表于 1926 年)。

高斯虽然与勒壤得开启了最早的迴归分析,但当时显然没有电脑,一切都是仰赖「人脑智慧」来运算、找出数据的迴归模型,没有所谓电脑演算法,所以就把它们只算做是强调电脑运算的大数据的老祖宗。但 1959 年起,如今的大数据概念就已经确实出现了。

十几年来两岸炒作大数据议题,只要是经历超过 20 年的资深资讯业界人士,一听到大数据的说法,往往反射式的回应:这不就是所谓「机器学习」(Machine Learning)或「资料探勘」(Data Mining)?

的确正是,美国人工智慧先驱亚瑟‧李‧山谬(Arthur Lee Samuel)于 1959 年定义「机器学习」(Machine Learning),就是要发展演算法,让电脑人工智慧能在并未事先指定特别方向或任务的情况下,从大量资料中找出资料中的关键之处或是异常之处,可以逐步学习,并具备预测能力。跟现在的大数据定义大同小异。

机器学习也同时是另一个名词「深度学习」(Deep Learning)的前身,时间往后推到如今的 2016 年,产业界的运算能力使得机器学习可发挥惊人的水準,其成就表现于 AlphaGo 以「深度学习」击败人类围棋棋士,于是「深度学习」又一时成为当红的新名词,其实不过就是过去被遗忘的机器学习。

如今深度学习已经开始应用于许多领域卓然有成,但 1959 年时,人类掌握的运算能力还不足以让机器学习产生太大的有意义成果,结果口号喊了以后实质上成果有限,到 1960 年代,由于缺乏实绩,统计学家嘲笑这种不设定预设假说、只是丢进一堆数据就想分析出成果的想法是异想天开,跟挖烂泥巴没两样,贬称为「资料钓鱼」(data fishing)或「资料挖泥」(data dredging)。

机器学习这个名词蒙尘,遭扔进烂泥堆,但是电脑科学家的理想不变,到了 1990 年,又发明了新名词,这次叫「资料探勘」,强调从大量电脑资料中找出关键或异常资讯的能力。其实,原本是要叫做「资料库探勘」(Database Mining),很不幸的是,一家加州圣地牙哥电脑公司 HNC 已经为了其产品「资料库探勘工作站」(Database Mining Workstation)申请商标,为了避免侵犯 HNC 商标,只好拿掉一个字,改叫资料探勘。同时还有许多其他讲法,如「资讯收割」、「资讯发掘」、「知识萃取」等。

资料探勘这个名词风行了好几年,也的确有许多应用,譬如在台湾,健保局于健保 IC 卡化后,利用资料探勘,察觉出诊所申报的看诊情况异常,再针对这些异常资料的诊所进行实地检查,果然发现其中有部分诊所有诈骗健保的行逕,这就是一个相当成功的资料探勘应用。但是,一个名词从 1990 年开始喊,到了 2000 年已经成了 10 岁的老名词,又感觉不大新潮了。

全球的产业顾问界为了创造新流行,在 2000 年又重新发明一个新名词,把本来就行之有年、运转顺畅、稳定发展的资料探勘,重新包装成「大数据」,2001年,日后由顾能(Gartner)购併的市场研究公司麦塔集团(META Group),给了大数据「3V」的定义,强调「巨量、即时、多样」的资讯经由机器学习处理的应用,其实本质上与过去的机器学习、资料探勘并无二致,日后顾能又基于「3V」小幅修改、扩充对大数据的定义,但大体上没有太大变动。

台湾常发生资讯落差

也就是说,就算不计入资料探勘、机器学习这些老早就出现的前辈名词,光是「大数据」本身,就是早在 2000 年提出,已经 17 年之久的老名词,台湾老早就有相关应用,产业界每天都在运作,随手举例,如群创 4 月时结合水利署水情资讯以大数据来节水,不仅产业界,更连政府都老早就懂得拿来抓健保申报异常,早已经是这幺跟滷肉饭一样稀鬆平常的东西。

若今天是台湾政府办「滷肉饭节」办了全台湾第一座「滷肉饭中心」,请来所有有做滷肉饭沾到边的三百多家台湾餐饮企业(贵州大数据展主要为中国厂商共 325 家),又邀请郭台铭前来吃了一口滷肉饭,有人看到了,就大惊小怪,说滷肉饭是人类的未来,滷肉饭要征服世界,连郭台铭都来吃了一口,台湾要成为滷肉饭中心了!大多数人应该只会觉得是乡巴佬闹笑话。但这种笑话,在台湾却还能刊上财经杂誌网站。

事实上,在 5 月底到 6 月初,全球真正最重要的产业展会,是台湾的「台北国际电脑展」(COMPUTEX 2017),虽然每年产业界都爱之深责之切,对台北电脑展有诸多批评与奚落,以硬体为主的传统,也使得台北国际电脑展随着全球电脑产业有所衰退,但是即使如此,不可否认,台北国际电脑展仍是每年三大电脑展之一,在全球产业仍具有重要地位,去年参展厂商达 30 国 1,600 多家,而在人工智慧概念兴起下,2017 年的台北国际电脑展更重新有了看头。

如今领头冲刺人工智慧产业链的绘图晶片大厂辉达(NVIDIA),在 5 月 30 日台北国际电脑展举办人工智慧论坛 (AI Forum),由执行长暨创办人黄仁勋亲自发表主题演说,演讲中宣布辉达正式启动全球顶尖 ODM 伙伴合作计画,包括鸿海、英业达、广达以及纬创等国内伺服器设计生产大厂都将成为合作伙伴,加速因应人工智慧云端运算的各种需求。不仅辉达的动向是目前全球产业界关注的焦点,台北电脑展上还有安谋(ARM)、IBM、英特尔(Intel)、亚马逊(Amazon)、沛星(Appier)等产业领导大厂于各论坛发表对人工智慧产业发展的见解。

若要提到所谓的大数据、比拚「郭台铭因素」,每年鸿海当然参展台北国际电脑展,2017 年台北国际电脑展首日,鸿海集团派出副总裁吕芳铭在 CPX 论坛论坛上以「智慧製造在数据时代面临的机遇与挑战」为题发表演说,其中述及工业大数据。

一个名词已经 17 岁,前身起于超过半个世纪以前,却还有台湾人觉得是「未来」,讨论科技产业,却不知有台北国际电脑展?竟然歌颂已经是自 1959 年以来的老东西,忘记 1982 年以来的老展会?

这种神奇资讯落差在台湾屡屡发生,近年来最可悲的一个例子是,中国广西 2006 年发展出「南宁纯资本运作」庞氏骗局,2008 年中国各级政府开始严打,并在受骗重灾区各地银行都张贴警语,于是南宁骗局在中国于 2008 年破灭,没想到在中国已经骗不了人,却到台湾繁衍兴盛,到了 2013 年,全台湾有数万人受骗,总损失新台币上百亿。

广西公安于 2013 年 3 月逮捕台湾南宁诈骗首脑余远萤,遣送台湾,台湾高检署也于当年 8 月大举扫蕩,一口气破获 20 个诈骗集团,这下总该结束了吧?不,到 2015 年竟然还有台湾人持续受骗,2016 年 4 月刑事局破获以 LINE 群组诈骗上百受害者的南宁诈骗集团。台湾人消息之不灵通,真可说是一绝。

面对这种消息堵塞的奇怪社会,企业人士、媒体,应该善尽知识份子的责任,疏通阻塞的消息,而不是竟然还自己发扬无知。明末清初文人顾炎武曾说「士大夫之无耻,是谓国耻」,在此借用来照样造句:知识份子的无知,才真的是国家危机。

相关推荐


上一篇: 下一篇: