【計世網(wǎng)】“四問大數(shù)據(jù)”北理工計算機學院副教授張華平接受采訪
發(fā)布日期:2013-10-01 閱讀次數(shù):
來源:計世網(wǎng) 編輯:黨委宣傳部
原文鏈接:http://www.ccw.com.cn/article/view/34925
大數(shù)據(jù)是不是大忽悠?上馬大數(shù)據(jù)需要準備啥?大數(shù)據(jù)平臺怎樣選擇?大數(shù)據(jù)安全如何保證?
大數(shù)據(jù)火了起來,甚至在前不久召開的2013夏季達沃斯論壇上還專門舉辦了一場關(guān)于“大數(shù)據(jù)概念是否被過度炒作”的辯論會,其火熱程度可見一斑。
根據(jù)計世資訊2013年3月發(fā)布的中國大數(shù)據(jù)市場調(diào)查報告顯示,相較2011年,2012年中國大數(shù)據(jù)市場規(guī)模增長52.4%,達到3.2億元。預(yù)計到2017年,中國大數(shù)據(jù)市場的年增長率都將超過60%,到2017年,達到37.9億元的市場規(guī)模,在經(jīng)濟、整體IT市場低迷的情況下,實現(xiàn)大幅逆勢增長。
在日前由《計算機世界》報主辦的“大數(shù)據(jù)時代的商業(yè)智能高峰論壇”上,來自IT廠商的代表、業(yè)內(nèi)專家、資深分析師及用戶代表就大數(shù)據(jù)熱門話題展開了激烈的討論。
焦點一:大數(shù)據(jù)是不是大忽悠?
IT技術(shù)的每一次更新迭代都面臨同樣的問題,前兩年的云計算、如今的大數(shù)據(jù)無不如此。實際上我們回過頭來看,所有的技術(shù)和產(chǎn)業(yè)的發(fā)展都有泡沫化的過程,包括互聯(lián)網(wǎng)、金融危機、云計算、大數(shù)據(jù),都會有一個泡沫化的過程,而泡沫破滅的過程也正是這項技術(shù)落地的過程。
大數(shù)據(jù)熱起因是其可以產(chǎn)生更多的價值,而在當前這個時間點熱,一方面是越來越多的人意識到了其中的價值,另一方面則與技術(shù)的發(fā)展成熟密不可分。戴爾云計算及大數(shù)據(jù)高級解決方案架構(gòu)師郝繼玖和EMC資深技術(shù)顧問楊永波在這個問題上所持的觀點基本相同,他們認為并不是之前沒有大數(shù)據(jù),而是沒有能力處理。當下這個時間點一方面是數(shù)據(jù)規(guī)模確實越來越大,而另一方面計算能力也達到了一定的水平,當這兩者都具備的時候,才催生了大數(shù)據(jù)時代的到來。
作為用戶代表,IDG集團中國區(qū)副總裁、計世傳媒集團董事許偉明表示認同,他認為主要是當前IT系統(tǒng)的計算能力和成本都已經(jīng)降低到了可以負擔的水平,由此推動了大數(shù)據(jù)的快速發(fā)展。
作為大數(shù)據(jù)領(lǐng)域的專家,北京理工大學計算機學院院長助理、大數(shù)據(jù)搜索與挖掘?qū)嶒炇抑魅螐埲A平副教授表達了他的看法。他表示,雖然當前大數(shù)據(jù)還停留在泡沫階段,不過大數(shù)據(jù)的泡沫不會比云計算大,因為云計算更多涉及的是架構(gòu)問題,業(yè)內(nèi)分歧比較多,而大數(shù)據(jù)關(guān)注的只是業(yè)務(wù),更加專注,因此也會更快地實現(xiàn)落地。
焦點二:上馬大數(shù)據(jù)要做哪些準備?
根據(jù)計世資訊發(fā)布的大數(shù)據(jù)市場調(diào)研報告顯示,未來半數(shù)以上的企業(yè)會采用大數(shù)據(jù)解決方案。用戶如果真的要部署大數(shù)據(jù)解決方案,要做哪些準備?
了解需求、獲得老板的認可,是首先要考慮的。許偉明認為,從公司角度來看,最大的問題是如何獲得老板的支持;而從業(yè)務(wù)層面出發(fā),則需要考慮實際的需求。比如你所處的企業(yè)如果數(shù)據(jù)量很大,則需要在IT架構(gòu)上做準備,考慮包括數(shù)據(jù)是怎么收集的、從哪里收集、如何與其他數(shù)據(jù)進行匹配等問題。而在操作過程中,則可以首先嘗試一些開源的工具進行小范圍測試,做一些基本了解,然后再找相關(guān)的專家仔細進行評估。
這僅僅是最基礎(chǔ)的部分,在此之上,企業(yè)還要將項目與整體業(yè)務(wù)緊密地聯(lián)系在一起。因為如果只是單獨考慮某一部分的業(yè)務(wù),失敗的概率非常大。楊永波表示,從IT架構(gòu)層面來講,很多數(shù)據(jù)的獲取并不容易,打通所有層級、部門的數(shù)據(jù)是比較難的,但是只有把信息打通了,才擁有了真正的大數(shù)據(jù)。
郝繼玖則進一步做了補充:“大數(shù)據(jù)相應(yīng)的IT架構(gòu)搭建完成后,還需要考慮服務(wù)的標準化,因為隨著數(shù)據(jù)量、設(shè)備及人員的增加,如何分工、保證高質(zhì)量的運維效果是需要迫切考慮的問題,這個過程就需要建立統(tǒng)一的服務(wù)標準和流程。”
除了技術(shù)層面的問題外,還有一個很大的問題就是隱私問題。張華平講到,現(xiàn)在有很多大數(shù)據(jù)隱私被濫用的問題,無論從國家還是公司層面來講,要想把大數(shù)據(jù)做好,都面臨數(shù)據(jù)公開的問題,需要各個部門數(shù)據(jù)的融合。因此,利用大數(shù)據(jù)的時候,要考慮隱私的問題。另外,還需要考慮數(shù)據(jù)本身的生命周期問題,有一些老的或者過時的數(shù)據(jù),可能對你最后的分析結(jié)果產(chǎn)生特別糟糕的影響。因此,專業(yè)的人才不可或缺,應(yīng)該有一些數(shù)據(jù)分析師,或者跟業(yè)務(wù)相關(guān)的數(shù)據(jù)科學家對數(shù)據(jù)進行分析。
焦點三:用開源平臺還是商業(yè)軟件?
一提到大數(shù)據(jù)很多人會想到Hadoop。作為開源平臺的忠實支持者,張華平認為做開源和共享平臺,從最終的情況來看,獲取的價值更大。因為開源軟件參與的用戶多,反饋多,更容易改進和完善。
不過,楊永波并不這么看,他認為Hadoop不等于大數(shù)據(jù),針對非結(jié)構(gòu)化數(shù)據(jù)的分析,Hadoop是比較好的平臺,也是現(xiàn)在被廣泛接受的平臺。但也正因為其是開源平臺,也存在一些弊端,比如服務(wù)質(zhì)量無法保證。另外,Hadoop有很多版本,要真正實現(xiàn)商用,需要用戶具備足夠高的技術(shù)水平。因此,用戶在選擇時并不能一味追求開源,需要綜合考慮自己的情況。
對此,許偉明表示認同楊永波的觀點,他認為無論是開源還是商業(yè)軟件,最重要的還是服務(wù)質(zhì)量、服務(wù)速度,不能一味考慮成本問題。
郝繼玖表示:“大數(shù)據(jù)發(fā)展速度越來越快,給IT市場帶來的空間也越來越大。因此,在開源平臺方面,我們一直在積極參與,推動行業(yè)的發(fā)展。戴爾并不提供大數(shù)據(jù)運行平臺,提供的只是其中的計算能力。”
焦點四:大數(shù)據(jù)時代,安全如何保證?
大數(shù)據(jù)并沒有人排斥,但在記者采訪過程中,經(jīng)常有用戶問這樣的問題:如何保證我的信息安全,如果無法保證安全,大數(shù)據(jù)還上不上?對此,張華平一語中的,“我們不會因為高鐵出事不坐高鐵,不會因為飛機出事不坐飛機,大數(shù)據(jù)是科技發(fā)展的趨勢,但要把握好方向,這需要法律的完善。”
張華平的觀點得到了與會嘉賓的贊同。郝繼玖認為,數(shù)據(jù)是把雙刃劍。消費者網(wǎng)購時需要提供家庭地址,才能給你運過來,這是經(jīng)過同意獲取你的信息,因為有良好的法律環(huán)境進行統(tǒng)一管理,所以買家不用那么擔心;而生活中很多時候是濫用信息的收集,是在用戶不知情的情況下搜集你的信息,這就需要相應(yīng)立法進行保護。大數(shù)據(jù)也是類似的,只讓適合的人利用我的數(shù)據(jù)。另外,關(guān)于大數(shù)據(jù)的報道,未來也要有嚴格的法律保護體系,保證我的數(shù)據(jù)不被泄露出去。
許偉明還在此基礎(chǔ)上提到了平衡,他講到,一個信息點傳播出去,對某個人而言,可能是隱私受到了侵犯,但從另一個角度來看,你把互聯(lián)網(wǎng)當成是一個系統(tǒng),你不斷地訓練這個系統(tǒng),讓其更好地為你服務(wù),其實也不是壞事。“我們做媒體的,研究的大數(shù)據(jù)就包括精準的廣告投放。比如在你閱讀的時候,獲得了你想要的廣告信息,對用戶而言也不是壞事。再比如你在研究旅行的時候,給你一些旅行社的信息,或者給你一些比較便宜的飛機票等,相信客戶還是愿意看的。實際上你可以有意識地泄露一些你的信息,這樣系統(tǒng)會分析你的數(shù)據(jù),真正地幫助你,所以我覺得沒必要恐懼。而惡意的信息收集、未經(jīng)用戶允許收集的信息,都是違法的。這其中就需要平衡,不能因為有可能被泄露隱私就不用大數(shù)據(jù)。”
(審核:王征)
分享到: