工業(yè)物聯(lián)網(wǎng)將機器設(shè)備、控制系統(tǒng)與信息系統(tǒng)、業(yè)務(wù)過程連接起來,利用海量數(shù)據(jù)進行分析決策,是智能制造的基礎(chǔ)設(shè)施,并影響整個工業(yè)價值鏈。工業(yè)物聯(lián)網(wǎng)機器設(shè)備感知形成了海量時間序列數(shù)據(jù)(帶時間標(biāo)簽的數(shù)據(jù),每條時間序列是按時間戳順序存貯的一組數(shù)據(jù)點),蘊含豐富的工業(yè)語義,是工業(yè)大數(shù)據(jù)的規(guī)模與價值主體。
為應(yīng)對海量工業(yè)物聯(lián)網(wǎng)數(shù)據(jù)管理,更好地實現(xiàn)工業(yè)數(shù)字化、智能化發(fā)展,專門管理時序數(shù)據(jù)的時序數(shù)據(jù)庫產(chǎn)品應(yīng)運而生。那么如果需要使用時序數(shù)據(jù)庫,該如何衡量時序數(shù)據(jù)庫的性能表現(xiàn)?好用的時序數(shù)據(jù)庫,又該滿足哪些條件?本文將梳理時序數(shù)據(jù)庫的性能選型標(biāo)準(zhǔn),供大家參考。
01 時序數(shù)據(jù)管理難點
時序數(shù)據(jù)庫的選型標(biāo)準(zhǔn),跟時序數(shù)據(jù)本身處理的難點是息息相關(guān)的。
(1)軟件技術(shù)挑戰(zhàn)
工業(yè)生產(chǎn)涉及的設(shè)備數(shù)量龐大,常見的業(yè)務(wù)場景中包含數(shù)萬到數(shù)百萬個設(shè)備,而單設(shè)備的傳感器數(shù)量也可能很多,每一個傳感器上報對應(yīng)的指標(biāo)/測量值(比如溫度、速度等等),最終上報時序數(shù)據(jù)的測點(也就是指標(biāo)/測量值的數(shù)量)可能達到幾十萬、上百萬,甚至億級,還會隨著業(yè)務(wù)擴展動態(tài)地繼續(xù)增加。
同時,時序數(shù)據(jù)的采樣頻次可能很高,實際應(yīng)用中可能達到毫秒級的上報。設(shè)備多、測點多、采樣頻次高,這就導(dǎo)致時序數(shù)據(jù)的體量是非常龐大的,存儲的成本也就隨之增加,而且因為業(yè)務(wù)的需要,經(jīng)常需要實現(xiàn)歷史數(shù)據(jù)長期的存儲。
(2)工業(yè)特色需求
工業(yè)物聯(lián)網(wǎng)業(yè)務(wù)背景也催生了與工業(yè)應(yīng)用強相關(guān)的特性需求。測點層級管理成為工業(yè)領(lǐng)域使用時序數(shù)據(jù)庫的功能需求之一。這意味著時序數(shù)據(jù)庫需要能夠處理從集團、廠站、系統(tǒng)、設(shè)備到傳感器等不同層級的測點數(shù)據(jù),并能夠?qū)崿F(xiàn)這些數(shù)據(jù)的有效組織和管理,讓企業(yè)可以方便地對應(yīng)到數(shù)據(jù)產(chǎn)生的不同層級。
此外,端邊云數(shù)據(jù)協(xié)同也是時序數(shù)據(jù)庫在工業(yè)應(yīng)用中的關(guān)鍵需求。因為工業(yè)設(shè)備的部署狀態(tài)與邊緣計算的興起,數(shù)據(jù)不再只是從設(shè)備端直接傳輸?shù)郊瘓F云端,而是在廠站或省域的邊緣節(jié)點進行初步處理和分析,再向云端進行同步。這種協(xié)同機制能夠充分利用邊端算力,節(jié)省云端帶寬成本。因此,時序數(shù)據(jù)庫需要確保數(shù)據(jù)在不同終端之間能夠順暢協(xié)同,從而實現(xiàn)更加智能和高效的工業(yè)管理。
02 基本能力:寫入、壓縮、查詢、分析
了解了上述的時序數(shù)據(jù)管理難點,再結(jié)合時序數(shù)據(jù)庫應(yīng)用的主要業(yè)務(wù)場景,也就是針對工業(yè)大數(shù)據(jù)智能管理轉(zhuǎn)型所衍生的狀態(tài)監(jiān)控、故障告警、數(shù)字畫像等等,選型時需要注重的性能指標(biāo)主要包括以下幾項:
(1)寫入吞吐
第一是寫入吞吐,也就是單位時間內(nèi)成功寫入時序數(shù)據(jù)的量,這個值越大代表同樣時間內(nèi)能寫入的數(shù)據(jù)量越大。體量龐大的時序數(shù)據(jù),需要保障其能夠全量寫入時序數(shù)據(jù)庫,不產(chǎn)生數(shù)據(jù)丟失,同時需要保障自帶強時間屬性的低頻時序數(shù)據(jù)和高頻時序數(shù)據(jù)的寫入實時性。實際場景中,時序數(shù)據(jù)庫的高通量寫入性能需要達到百萬或千萬數(shù)據(jù)點/秒。
(2)壓縮比
第二是壓縮比,也就是原始數(shù)據(jù)量除以磁盤存儲空間的值,這個值越大代表數(shù)據(jù)庫的壓縮性能越好。時序數(shù)據(jù)量龐大會很容易導(dǎo)致磁盤空間占用很高,而能夠?qū)崿F(xiàn)高壓縮比的時序數(shù)據(jù)庫,同樣的數(shù)據(jù)量占用的空間、需要的存儲成本也就越小。實際場景中,時序數(shù)據(jù)庫的壓縮比需要達到至少 20 倍以上,在企業(yè)對比數(shù)據(jù)存儲成本時會更加有競爭力。
(3)查詢耗時及分析能力
第三是查詢耗時及分析能力,耗時越短、分析能力越強,也就代表著企業(yè)能夠更快地獲知所需的數(shù)據(jù)結(jié)果,并進行更多樣的深度挖掘。實際應(yīng)用中,對于最新值查詢、聚合查詢等業(yè)務(wù)常用場景,時序數(shù)據(jù)庫的查詢延遲需要控制在毫秒級。在保障海量數(shù)據(jù)處理低延遲的基礎(chǔ)上,時序數(shù)據(jù)庫還需要支持數(shù)據(jù)計算、查看數(shù)據(jù)走向、數(shù)據(jù)缺失修復(fù)等分析功能。
03 挑戰(zhàn)需求:面向工業(yè)物聯(lián)網(wǎng)進行優(yōu)化
上述指標(biāo)能夠讓時序數(shù)據(jù)庫實現(xiàn)工業(yè)數(shù)據(jù)管理的基本需求,而面對工業(yè)物聯(lián)網(wǎng)場景的需求特性,更好的時序數(shù)據(jù)庫可以實現(xiàn)為工業(yè)物聯(lián)網(wǎng)“量身定制”的適配架構(gòu)及功能。
(1)測點建模
工業(yè)時序數(shù)據(jù)常常是按照類似“集團-省域-廠站-產(chǎn)線-設(shè)備-傳感器”的層級彼此關(guān)聯(lián)起來的,而因為數(shù)據(jù)量龐大、層級多,管理的時候存在天然的困難度。因此,在數(shù)據(jù)建模方面,時序數(shù)據(jù)庫應(yīng)該在保證存儲規(guī)模的前提下,實現(xiàn)與工業(yè)場景中的層級相對應(yīng)的數(shù)據(jù)結(jié)構(gòu),并能夠做到以采集、應(yīng)用等團隊的不同視角,實現(xiàn)對數(shù)據(jù)結(jié)構(gòu)按設(shè)備地點、分析應(yīng)用的多面組織管理,以減少企業(yè)的學(xué)習(xí)、理解成本。
(2)數(shù)據(jù)同步
工業(yè)設(shè)備常常部署于多個省域的不同廠站,時序數(shù)據(jù)可能從多地同時產(chǎn)生,并需要匯總到省域側(cè)或集團側(cè)進行分析。因此,時序數(shù)據(jù)庫需要適配多類主流協(xié)議,實現(xiàn)實時、易用、安全的數(shù)據(jù)同步方案,把設(shè)備端側(cè),廠站邊側(cè),集團云側(cè)的數(shù)據(jù)鏈路打通,方便企業(yè)更好地實現(xiàn)數(shù)據(jù)協(xié)同,也需要支持跨網(wǎng)閘傳輸、加密傳輸?shù)裙I(yè)場景所需要的特性傳輸方式,并保證在數(shù)據(jù)同步的過程中不影響本地的數(shù)據(jù)存儲、計算。
(3)高可擴展
多終端、分散的工業(yè)設(shè)備上報時序數(shù)據(jù)的特性,也要求時序數(shù)據(jù)庫能夠以分布式的形態(tài)部署于多個廠站。面對多站點、更龐大的數(shù)據(jù)量,時序數(shù)據(jù)庫需要保證集群容量的擴展性,能夠管理上億設(shè)備和測點,并具有高可用性,全面消除單點瓶頸,容忍部分節(jié)點失效,并能夠隨負載增加實現(xiàn)秒級擴容,及時分擔(dān)負載壓力。
(4)亂序?qū)懭搿I 分析
其實,對于上面提到的寫入、分析等基礎(chǔ)性能,也可以針對工業(yè)物聯(lián)網(wǎng)場景進一步實現(xiàn)優(yōu)化。比如,面對工業(yè)環(huán)境斷網(wǎng)、延遲而產(chǎn)生的亂序數(shù)據(jù),時序數(shù)據(jù)庫需要能夠有效應(yīng)對,保障亂序數(shù)據(jù)寫入的高實時性。再比如,面對工業(yè)故障監(jiān)控、告警需求的進一步延伸,對于故障預(yù)測需求場景,時序數(shù)據(jù)庫需要擁抱智能化分析,引入多類機器學(xué)習(xí)算法,以實現(xiàn)序列預(yù)測、異常預(yù)測等深度學(xué)習(xí)功能。
04 總結(jié)
針對不同工業(yè)領(lǐng)域和細分場景,時序數(shù)據(jù)庫還可能有更多的關(guān)注重點,與更多技術(shù)融合的可能,上文總結(jié)的時序數(shù)據(jù)選型指標(biāo)必將在未來進一步更新、擴展。
而國產(chǎn)自研的時序數(shù)據(jù)庫 IoTDB,針對上面的選型指標(biāo)都達到了穩(wěn)定、高效的性能表現(xiàn)。IoTDB 的寫入吞吐、存儲占用、讀取延遲等指標(biāo),在國際數(shù)據(jù)庫第三方性能測試排行榜 benchANT 中,均位居第一,并在亂序數(shù)據(jù)寫入、智能數(shù)據(jù)分析、數(shù)據(jù)協(xié)同傳輸、分布式擴展部署等工業(yè)物聯(lián)網(wǎng)場景需求方向,都實現(xiàn)了相關(guān)功能的支持。
同時,IoTDB 商業(yè)化友好,具備便捷的二次開發(fā)能力,并已擁有一系列適配的易用性工具,包括集群管理工具 IoTDB-OpsKit、系統(tǒng)監(jiān)控面板、可視化控制臺 Workbench、組態(tài)軟件等等,無疑能夠更好地幫助數(shù)據(jù)庫運維人員與業(yè)務(wù)人員發(fā)揮 IoTDB 的最大價值。
想要詳細了解 IoTDB 的相關(guān)功能,歡迎點擊閱讀“時序數(shù)據(jù)庫IoTDB:功能詳解與行業(yè)應(yīng)用”并聯(lián)系我們!
更多內(nèi)容推薦:
? 了解如何使用 IoTDB 企業(yè)版