【搜狐網(wǎng)】北理工張華平博士:從Palantir看公安大數(shù)據(jù)應用
發(fā)布日期:2016-05-29 供稿:搜狐網(wǎng) 編輯:趙琳 審核:王征 閱讀次數(shù):
原文標題:張華平:從Palantir看公安大數(shù)據(jù)應用
原文鏈接:http://m.sohu.com/n/450910580/?_trans_=000115_3w
美國Palantir公司2004年在硅谷成立,目前公司估值200億美元,是全球最大的大數(shù)據(jù)公司,在情報整合與反恐方面一直非常神秘,一度傳言其在美國CIA捕殺本·拉登的過程中起到了至關重要的作用,后證實為謠言。不過,公開可證實的資料表明:Palantir趕在阿富汗的簡易爆炸裝置引爆前成功預言了它們的位置,并幫助整合美國情報界零散的數(shù)據(jù)庫,為安全人員提供了一體化的情報網(wǎng)。美國CIA以及洛杉磯警方等多個權威機構都為Palantir公開站臺,證實了這家公司的大數(shù)據(jù)技術在情報分析、安全防范以及反恐方面起到了不可或缺的重要作用,對我們公安大數(shù)據(jù)平臺的建設具有重要的借鑒意義。為此,本文將介紹Palantir在美國洛杉磯警局的實戰(zhàn)案例,揭秘其背后的關鍵技術,并匯報我們實驗室在公安某局的初步實踐工作,最終給出我們對公安大數(shù)據(jù)的部分思考。
Palantir洛杉磯警局應用的技術揭秘
Palantir在洛杉磯警局通過技術與業(yè)務的深入交流與合作,采用Palantir的Gotham平臺,構建了一套洛杉磯警局的語義知識搜索挖掘平臺,用于日常的警方業(yè)務工作中。該平臺全面整合警情日志文檔、電子表格數(shù)據(jù)、數(shù)據(jù)庫等結構化數(shù)據(jù)和電子郵件、文檔、圖片、錄像等非結構化數(shù)據(jù),對各類多源異構,繁雜的信息進行清洗梳理,總結提煉為八個關鍵的信息實體:人、車、位置、罪案、逮捕、文件、備注與其他。實體本身還有不同的屬性,不同個體之間還存在這相應的知識關聯(lián)。Palantir公安大數(shù)據(jù)語義知識搜索平臺建立以后,警方就可以通過非常簡潔的前端搜索頁面,來搜索指定的各類實體與線索。
Palantir的搜索結果與百度等通用搜索引擎完全不一樣,并不完全基于關鍵詞,而是探索搜索背后的關聯(lián)關系,搜索結果如下圖所示。這里,中間的焦掉是搜索的嫌疑人“Michael Barton”,通過Palantir平臺,可以快速將各類龐雜的數(shù)據(jù)通過可視化平臺的形式匯聚到一起,最終我們發(fā)現(xiàn)該犯綜合立體化視圖,其中包括:使用的手機,入境記錄,逮捕時開的車,逮捕的案子,同時涉嫌一起盜竊案,包括已有的兩次審訊記錄。點擊任何一個節(jié)點,右邊會展示其詳細的屬性與其他實體的關聯(lián)關系。例如,點擊該車,可以展示出該車的歷史所有被抓拍的照片與數(shù)據(jù)。辦案人員同時可以根據(jù)關聯(lián)連接一層一層往下挖,并人機互動,補充各種篩選條件,將模糊的破案線索逐步求精,最后極大的提高破案準確性與效率。
我們分析了Palantir所有的案例,綜合大數(shù)據(jù)的前沿技術進展,可以綜合研判出Palantir背后的三大關鍵技術:知識圖譜、大數(shù)據(jù)人機可視化交互、非結構化精準搜索與挖掘。分別介紹如下:
1、知識圖譜
知識圖譜本質上是一種語義網(wǎng)絡,圖中的結點代表實體(entity)或者概念(concept),邊代表實體/概念之間的各種語義關系。Palantir在圖一中使用的就是知識圖譜的技術,其中嫌疑犯、車、手機等都節(jié)點屬于知識圖譜中的實體,而邊就是實體之間的關系。知識圖譜允許用戶搜索引擎知道的所有事物、人物或者地方,而且能夠顯示查詢的實時信息。知識圖譜技術表征了公安大數(shù)據(jù)的本質語義關聯(lián),比傳統(tǒng)的關系型數(shù)據(jù)庫更加自由多樣化,更適合于公安的辦案。
2、大數(shù)據(jù)人機可視化交互
Palantir綜合運用了大數(shù)據(jù)可視化、知識圖譜化、地圖GIS化等手段,同時開放了大量方便的人機交互接口,實現(xiàn)了人與機器的完美融合,也實現(xiàn)了人與人之間的協(xié)同工作,大大提升了警務人員掌控數(shù)據(jù)的能力。
3、非結構化語義精準搜索與挖掘
非結構化大數(shù)據(jù)指的是文本、圖像與視頻等信息,比傳統(tǒng)結構化數(shù)據(jù)的信息量大得多,非結構化語義精準搜索與挖掘,是指在知識圖譜的基礎上真正理解用戶的搜索請求,不再拘泥于用戶所輸入請求語句的字面本身,而是透過現(xiàn)象看本質,準確地捕捉到用戶所輸入語句后面的真正意圖,并以此來進行搜索與挖掘,從而更準確地向用戶返回最符合其需求的搜索結果。
通過對Palantir的技術揭秘,對于公安大數(shù)據(jù)平臺的建設,筆者的思考如下:
1、以公安知識圖譜來整合各類數(shù)據(jù):與美國情報界一樣,公安當前的信息分散、孤立,部分信息不一定準確,大數(shù)據(jù)本身的特點就是價值密度低、參差不起,龐雜多樣。因此,梳理公安的知識體系,將各類數(shù)據(jù)庫整合為統(tǒng)一的知識圖譜,以國際統(tǒng)一的本體網(wǎng)絡語言OWL表示知識,并利用知識圖譜技術實現(xiàn)公安大數(shù)據(jù)的推理與應用;
2、構建公安大數(shù)據(jù)的業(yè)務平臺,而不是簡單的信息系統(tǒng):與一般的公安信息系統(tǒng)不一樣,Palantir提供并不是一個傻瓜式的查詢輸出系統(tǒng),而是一個較好的工作平臺,利用人機接口,輔助警方從復雜大數(shù)據(jù)中發(fā)現(xiàn)清晰的線索,幫助得到輔助問題的答案。簡單的打個比方來說,Palantir提供的不是直接的魚,而是釣魚的工具與方法。因此,公安的大數(shù)據(jù)平臺不能做成簡單的查詢系統(tǒng),而是業(yè)務平臺,可以快速簡便地開發(fā)各類SaaS(軟件即服務)應用,警務人員可以查詢信息,還可以簡單靈活地組合各類模塊,將業(yè)務人員的經(jīng)驗與技術人員的大數(shù)據(jù)技術緊密結合。
3、實施創(chuàng)新驅動發(fā)展戰(zhàn)略,突破已有的思維定勢,大力引進公安大數(shù)據(jù)相關的知識圖譜技術、大數(shù)據(jù)可視化、語義分析計算等前沿技術。可以將公安大數(shù)據(jù)脫敏后大力開放,供國內專家學者作為研究開發(fā)使用,廣泛地獲取外腦支撐。
我們在公安大數(shù)據(jù)的初步探索
筆者所在的北京理工大學大數(shù)據(jù)搜索與挖掘團隊,專注大數(shù)據(jù)語義搜索與挖掘,在知識圖譜、可視化與搜索挖掘方面有十多年的研究與工程經(jīng)驗。團隊在公安大數(shù)據(jù)方面的主要工作包括情報抽取、自動脫敏、分類、聚類、特征挖掘、關聯(lián)挖掘等工作。情報抽取主要從文本表述中抽取各類案情要素,如嫌疑人姓名、身份證、性別、案由等;自動脫敏技術是將敏感信息自動替換,脫敏后的信息無法追溯到具體的個人,不再涉及公民隱私,而公安部門可以根據(jù)脫敏的對照庫,實現(xiàn)信息還原。下圖是我們利用公安某局脫敏后的15萬數(shù)據(jù)自動生成的毒品、詐騙、盜竊三類警情的宏觀可視化特征畫像。
公安作為與海量證據(jù)、線索、數(shù)據(jù)、信息打交道的部門,使用好已有的數(shù)據(jù)信息,將門類龐雜、種類繁多的海量公安數(shù)據(jù)進行整合,建立統(tǒng)一的公安大數(shù)據(jù)語義知識網(wǎng)搜索平臺,全面而深入挖掘信息之間的關聯(lián)關系,這對于提取關鍵線索、提高辦案效率具有非常重要的現(xiàn)實意義,更對于優(yōu)化警力部署、提前制定預案,將違法犯罪事件扼殺在萌芽狀態(tài)具有重大指導意義。
分享到: