解鎖暗數(shù)據(jù)潛在業(yè)務價值的關鍵方法
尋求從公司所收集的數(shù)據(jù)中獲得業(yè)務價值的IT領導者一直面臨著無數(shù)挑戰(zhàn)。也許最難以理解的是失去了對那些被創(chuàng)建的、經(jīng)常存儲的、但很少與之交互的數(shù)據(jù)進行利用的機會。
這種以物理學中的暗物質命名的所謂“暗數(shù)據(jù)”,是在經(jīng)營流程中例行收集的信息:它是由員工、客戶和業(yè)務流程所產(chǎn)生的。它可能是由計算機、應用程序和安全系統(tǒng)所生成的日志文件。也可能是出于遵從性的目的而必須保存的文檔,以及永遠不應該保存但仍然保存了的敏感數(shù)據(jù)。
根據(jù)Gartner的說法,你的企業(yè)信息世界中的大多數(shù)數(shù)據(jù)都是由“暗數(shù)據(jù)”組成的,許多公司甚至都不知道他們擁有多少此類數(shù)據(jù)。存儲數(shù)據(jù)會增加合規(guī)性和網(wǎng)絡安全風險,當然,也會增加成本。
弄清楚你擁有哪些暗數(shù)據(jù)、它們保存在哪里以及其中包含哪些信息是確保這些暗數(shù)據(jù)中有價值的部分是安全的,而不應該保存的部分則會被刪除的關鍵步驟。但是,發(fā)掘這些隱藏數(shù)據(jù)的真正優(yōu)勢可能在于將其用于實際的業(yè)務。
但想要挖掘暗數(shù)據(jù)并非易事。它有各種各樣的格式,可以完全非格式化,例如,可能是被鎖在了掃描文檔或音頻和視頻文件當中。
以下是一些企業(yè)將暗數(shù)據(jù)轉化為商業(yè)機會的方法,以及業(yè)內(nèi)人士對希望利用暗數(shù)據(jù)的IT領導者的一些建議。
來自賽車手的編碼音頻
五年來,EnvisionRacing一直在收集100多場E級方程式賽車的錄音,每場比賽都會有20多名車手參加。
“廣播流在開放頻率上可供任何人收聽,”Genpact全球分析主管AmareshTripathy說。Genpact是一家咨詢公司,正在幫助EnvisionRacing利用這些數(shù)據(jù)。
此前,英國賽車隊的賽車工程師試圖在比賽期間實時使用這些音頻傳輸,但車手所使用的代號和首字母縮寫詞使其難以被理解和利用,但是,了解其他車手所說的內(nèi)容有助于幫助設想賽車手的賽車策略,Tripathy說。
“例如何時使用進攻模式。何時進行超車。何時該剎車。”他說。
EnvisionRacing還從自己的汽車上收集了傳感器數(shù)據(jù),如輪胎、電池和剎車,并從供應商處購買了外部數(shù)據(jù),如風速和降水量。
Genpact和EnvisionRacing合作,解鎖了這些數(shù)據(jù)流的價值,并利用自然語言處理所構建的深度學習模型對它們進行了分析。這個流程花了六個月的時間,從準備數(shù)據(jù)管道,到接收數(shù)據(jù),到過濾噪音,再到產(chǎn)生有意義的對話。
Tripathy說,人類需要5到10秒才能弄清楚自己在聽什么,這種延遲使得無線電通信變得無關緊要了。而現(xiàn)在,由于人工智能模型的預測和洞察,他們現(xiàn)在可以在一到兩秒鐘內(nèi)就做出反應了。
今年7月,在紐約舉行的ABB國際汽聯(lián)電動方程式世界錦標賽上,EnvisionRacing的車隊獲得了第一名和第三名,Tripathy將這一結果歸功于利用了以前的暗數(shù)據(jù)。
暗數(shù)據(jù)掘金:人工生成的數(shù)據(jù)
EnvisionRacing的音頻文件是人類生成暗數(shù)據(jù)的一個例子,它旨在供其他人使用,而不是供機器使用。數(shù)據(jù)存檔平臺提供商ZLTechnologies的聯(lián)合創(chuàng)始人兼首席執(zhí)行官KonLeong表示,這種暗數(shù)據(jù)對企業(yè)來說是非常有用的。
“它對于理解企業(yè)人性化方面的每一個要素,包括文化、績效、影響力、專業(yè)知識和參與度,都具有難以置信的強大功能?!彼f?!皢T工每天都在分享絕對海量的數(shù)字信息和知識,但到目前為止,這些信息和知識在很大程度上都尚未得到開發(fā)。”
電子郵件、消息和文件中所包含的信息都可以幫助企業(yè)獲得洞見,例如企業(yè)中最有影響力的人是誰。“公司80%的時間都花在了溝通上。然而,分析所處理的數(shù)據(jù)往往只反映了我們所花費的1%的時間?!?/p>
處理人類生成的非結構化數(shù)據(jù)具有獨特的挑戰(zhàn)性。例如,數(shù)據(jù)倉庫通常就不是用來處理這些通信的。此外,收集這些通信也可能會給公司帶來新的問題,涉及合規(guī)性、隱私和法律發(fā)現(xiàn)。
“這些治理能力在今天的數(shù)據(jù)湖概念中并不存在,事實上,通過將數(shù)據(jù)收集到數(shù)據(jù)湖中,你可能又創(chuàng)造了另一個豎井,增加了隱私和合規(guī)性風險?!盠eong說。
相反的,公司也可以將這些數(shù)據(jù)留在當前所在的位置,只需添加一層索引和可搜索的元數(shù)據(jù)。保留這些數(shù)據(jù)還將使其保持在現(xiàn)有的合規(guī)性結構之內(nèi),他表示。
有效治理是關鍵
處理價值和來源有問題的暗數(shù)據(jù)的另一種方法是從可追溯性開始。
《數(shù)據(jù)可觀測性基礎》一書的作者AndyPetrella說:“暗數(shù)據(jù)現(xiàn)在被認為是一種可以利用的未開發(fā)資源,這是行業(yè)的一個積極發(fā)展。”該書目前在O'Reilly以預發(fā)布的形式提供。Petrella還是數(shù)據(jù)可觀測性提供商Kensu的創(chuàng)始人。
“利用暗數(shù)據(jù)的挑戰(zhàn)在于,人們對它的信心很低?!碧貏e是關于數(shù)據(jù)收集的地點和方式,他說。“可觀察性可以使數(shù)據(jù)譜系透明,因此是可追溯的??勺匪菪詫崿F(xiàn)了數(shù)據(jù)質量檢查,從而使得人們對使用這些數(shù)據(jù)來訓練AI模型或根據(jù)其帶來的智能來采取行動也充滿了信心?!?/p>
專注于監(jiān)管、風險和合規(guī)性問題的全球咨詢公司StoneTurn的董事總經(jīng)理ChuckSoha也認為,處理暗數(shù)據(jù)的通用方法——把所有東西都扔進數(shù)據(jù)湖里——會帶來巨大的風險。
這在金融服務行業(yè)尤其如此,該行業(yè)的企業(yè)多年來一直在向數(shù)據(jù)湖發(fā)送數(shù)據(jù),他表示。“在一個典型的企業(yè)中,IT部門會將所有可用數(shù)據(jù)與一些基本元數(shù)據(jù)一起轉儲到一個地方,并創(chuàng)建與業(yè)務團隊共享的流程?!彼f。
這適用于內(nèi)部擁有必要分析人才或為特定用例聘請了外部顧問的業(yè)務團隊。但在大多數(shù)情況下,這些舉措只是取得了部分成功,Soha說。
“首席信息官們從‘不知道自己不知道’轉變?yōu)榱恕雷约翰恢馈?,”他說。
相反,公司應該從數(shù)據(jù)治理開始,了解存在什么數(shù)據(jù),它可能會有什么問題,而其中的數(shù)據(jù)質量會是首要問題。
“利益相關者可以決定是清理和標準化它,還是從更好的信息管理實踐開始。”Soha說,而致力于從包含不一致或沖突信息的數(shù)據(jù)中提取見解將是一個錯誤。
Soha還建議將各個業(yè)務部門已有的良好運營數(shù)據(jù)聯(lián)系起來。弄清楚這些關系可以產(chǎn)生快速而有用的見解,并可能不需要立即查看任何暗數(shù)據(jù),他說。“它還可能識別出可以優(yōu)先考慮的空白,然后在暗數(shù)據(jù)中開始尋找填補這些空白的地方?!?/p>
最后,他說,人工智能在幫助理解剩余的非結構化數(shù)據(jù)方面也非常有用?!巴ㄟ^使用機器學習和AI技術,人類可以只查看1%的暗數(shù)據(jù),并對其相關性進行分類?!彼f?!叭缓螅瑥娀瘜W習模型就可以快速生成剩余數(shù)據(jù)的相關度分數(shù),進而更仔細的觀察數(shù)據(jù)的優(yōu)先級了?!?/p>
利用AI來提取價值
用于處理暗數(shù)據(jù)的常見人工智能解決方案包括了亞馬遜的Textract、微軟的AzureCognitiveServices、IBM的Datacap,以及谷歌的CloudVision、Document、AutoML和NLPAPI。
在Genpact與EnvisionRacing的合作中,Genpact在內(nèi)部編寫了機器學習算法,Tripathy說。他說,這需要Docker、Kubernetes、Java和Python的知識,以及NLP、深度學習和機器學習算法開發(fā),以及需要MLOps架構師來管理整個流程。
不幸的是,這些技能都很難獲得。Splunk去年秋天發(fā)布的一份報告顯示,在接受調(diào)查的1300多名IT和商業(yè)決策者中,只有10%到15%的人表示,他們的企業(yè)正在使用人工智能來解決暗數(shù)據(jù)問題。缺乏必要的技能是利用暗數(shù)據(jù)的主要障礙,僅次于數(shù)據(jù)本身的數(shù)量。
風險與機遇并存
與此同時,暗數(shù)據(jù)仍然是一個越來越多的風險和機遇的寶庫。根據(jù)行業(yè)的不同,對企業(yè)數(shù)據(jù)中黑暗部分的估計會從40%到90%不等。
根據(jù)由Quest贊助的EnterpriseStrategyGroup7月份的一份報告,平均而言,有47%的數(shù)據(jù)是暗數(shù)據(jù),而20%的受訪者表示,他們的數(shù)據(jù)中有超過70%是暗數(shù)據(jù)。Splunk的調(diào)查也顯示了類似的結果,平均55%的企業(yè)數(shù)據(jù)是暗數(shù)據(jù),三分之一的受訪者表示,他們的企業(yè)數(shù)據(jù)中有75%或更多的是暗數(shù)據(jù)。
在情況好轉之前,還可能會變得更糟,因為60%的受訪者表示,他們的企業(yè)中有一半以上的數(shù)據(jù)還根本沒有被捕獲,其中的大部分甚至都沒有被理解為是存在的。隨著這些數(shù)據(jù)被逐漸發(fā)現(xiàn)并存儲,暗數(shù)據(jù)的數(shù)量還將繼續(xù)上升。
首席信息官們是時候制定一個應對這種情況的計劃了,并著眼于充分利用任何有望為企業(yè)創(chuàng)造新價值的暗數(shù)據(jù)。
來源:企業(yè)網(wǎng)D1Net