首頁
>
資源
>
獎項動態

技術領跑!時序數據庫 Apache IoTDB 6 篇論文入選數據庫國際頂會 SIGMOD、ICDE 2025

在 5、6 月結束的數據庫領域國際頂級學術會議 ICDE 2025 與 ACM SIGMOD/PODS 2025 中,時序數據庫 Apache IoTDB 共有 6 篇論文被錄用,涵蓋存儲壓縮、查詢處理、可視化分析等方面,論文研究成果均已在 IoTDB 實現,或基于 IoTDB 進行性能評估。

ACM SIGMOD 和 ICDE 代表了全球數據庫技術研究的最高水平,IoTDB 核心技術論文連續數年被頂級學術會議錄用,不僅表明了 IoTDB 在工業應用領域的創新性、先進性,更標志著國產自研的時序數據庫技術已獲得國際學術界的權威認可。

6 篇論文入選 SIGMOD、ICDE 2025 圖1-20250711.png6 篇論文入選 SIGMOD、ICDE 2025 圖2-20250711.png

SIGMOD 官網、ICDE 官網收錄論文提及,原鏈接:https://2025.sigmod.org/sigmod_papers.shtml,https://ieee-icde.org/2025/research-papers/

SIGMOD 2025 收錄 3 篇論文

Randomized Sketches for Quantile in LSM-tree based Store

??論文名稱:基于 LSM 樹存儲的隨機分位數草圖

?摘要:分位數的精確計算代價高昂,但可以通過分位數草圖進行高效估計。現有關于流數據匯總(如 KLL 草圖)的研究主要致力于在給定誤差控制下最小化內存開銷。然而在基于 LSM 樹的存儲系統中進行分位數估計時,流式處理方法會產生與數據量 N 成線性關系的昂貴 I/O 開銷。由于 LSM 樹中的磁盤組件(數據塊和 SSTable)一旦刷盤就不可改變,可以將分位數草圖作為一種預計算統計信息來降低 I/O 開銷并加速查詢。若要為查詢數據提供確定性的加性誤差 εN 保證,所有被查詢數據塊(單個大小為 Nc)的預計算確定性草圖都必須提供 εNc 誤差保證,導致線性 I/O 開銷無法改善。

本文提出預計算隨機草圖方案以提供隨機加性誤差保證,主要技術創新包括:(1)針對刷盤構建的數據塊隨機草圖(經證明具有最優性,可實現與 √N 成正比的 I/O 開銷),(2)針對壓縮構建 SSTable 分層隨機草圖,可進一步改善漸進 I/O 開銷;(3)總結預計算的 KLL 草圖比總結流數據的 KLL 草圖更準確,可在與流數據相同的內存復雜度條件下實現次線性 I/O 開銷。在合成數據集和真實數據集上的大量實驗驗證了該技術的優越性,該方案已部署于基于 LSM 樹的時序數據庫 Apache IoTDB 中。

In-Database Time Series Clustering

??論文名稱:數據庫內的時序聚類

?摘要:時序數據常需在不同時間范圍內反復聚類,以挖掘不同時段頻繁出現的子序列模式,從而為下游應用提供支持。當前最先進的時序聚類方法(如 K-Shape)能有效根據形態特征進行聚類,但在數據量龐大、效率要求高的物聯網場景中,數據庫內的時序聚類問題始終未被充分研究。多數時序數據庫采用基于 LSM 樹的存儲架構應對高頻寫入,但這會導致底層數據點產生亂序時間戳。因此,若直接應用現有的數據庫外時序聚類方法,必須將所有數據完全加載到內存中,并重新按時間排序,且每次處理跨不同時間范圍的查詢時都需從頭開始聚類,效率低下。

本文提出數據庫內適配的時序聚類方法 K-Shape 改進方案,并針對長時序數據處理問題,提出 Medoid-Shape 方法及其數據庫內適配方案,以進一步提升使用速度。大量實驗證明,該方案在同等效果下顯著提升了效率。所有技術已在開源商用時序數據庫 Apache IoTDB 中實現。

Largest Triangle Sampling for Visualizing Time Series in Database

??論文名稱:面向數據庫時間序列可視化的最大三角形采樣方法

?摘要:在時間序列可視化中,降采樣技術用于減少數據點數量,并保留原始時間序列的視覺特征。基于面積的最大三角形采樣法(LTS)在保留感知關鍵點方面表現優異。然而,通過順序采樣局部最大三角形面積的點的啟發式解決方案(即 LTTB 算法)存在次優解和查詢效率低下的問題。

針對這些缺陷,我們提出了一種創新的迭代最大三角形采樣算法(ILTS),通過凸包加速技術進行優化。該算法可以迭代優化采樣結果,通過在每次迭代中集成更多數據點以獲取更廣闊的視角。我們證明了在預先計算的凸包中始終可以找到最大的三角形,從而保證了迭代采樣過程的高效性。實驗結果表明,相較于現有的最優基線,新算法顯著提升了視覺質量,與蠻力方法相比,速度有顯著提升。

ICDE 2025 收錄 3 篇論文

OneRoundSTL: In-Database Seasonal-Trend Decomposition

??論文名稱:OneRoundSTL:數據庫內置的季節性趨勢分解方法

?摘要:季節性趨勢分解方法在時序分析中應用廣泛,例如時間序列預測和異常檢測。現有的季節性趨勢分解方法(如 STL 及其變體)通常假設時間序列是完整且按時間戳排序的。然而,主流時序數據庫多采用基于 LSM 樹的存儲結構,其數據頁中的存儲順序往往與時間順序不一致。此外,數據庫中的時序數據常因傳感器故障等原因存在數據缺失,進一步破壞了數據的完整性。常規解決思路是先合并排序不同數據頁的內容再進行分解,但這會導致沉重的在線計算負擔和多次查詢時的重復計算,且仍無法處理殘留的缺失數據。

本文提出 OneRoundSTL 方法,通過在離線階段預計算各獨立數據頁的結果,在查詢時拼接這些預計算結果即可獲得分解結果。該方案已在開源時序數據庫 Apache IoTDB 中實現并作為內置功能部署。系統在合成數據集和真實數據集上的實驗表明,OneRoundSTL 在保持分解效果的同時,其執行效率遠超現有最優方法。

BOS: Bit-packing with Outlier Separation

??論文名稱:BOS:基于離群值分離的位打包技術

?摘要:位打包是多種數據編碼與壓縮方法的基礎操作,其核心思想是采用固定位寬來表示序列中所有經過處理的值。然而,某些極大值(稱為上界離群值)會顯著增加所需位寬,導致大多數較小值存儲時的位浪費。值得注意的是,不僅是大值(上界離群值),小值(下界離群值)同樣可能引起位寬浪費。

本文提出通過分離上下界離群值來優化存儲的方法(BOS):將離群值單獨存儲后,剩余中心值的分布范圍變窄(即壓縮位寬),需要額外成本記錄離群值位置。該問題的核心在于如何確定最優的上下界離群值分離閾值,以實現最小化存儲成本。相較于使用搜索時間為 O(n2) 的全枚舉上下界閾值,我們創新性地采用位寬作為分離依據,將搜索時間降至 O(n log n)。理論分析表明,基于位寬的分離策略在所有可能情況下都能獲得與值分離法相同的優化解,并進一步提出結合中位數與位寬的近似分離策略,搜索時間進一步降至 O(n)。BOS 方案可與現有所有基于位打包的壓縮方法兼容,目前已在 Apache IoTDB 和 Apache TsFile 中全面替代傳統位打包方法。大量真實數據集實驗表明,在各種壓縮方法中用 BOS 替代位打包后,壓縮比從約 2.75 顯著提升至 3.25。

Exploring SIMD Vectorization in Aggregation Pipelines for Encoded IoT Data

??論文名稱:面向編碼物聯網數據聚合管道中的 SIMD 向量化技術探索

?摘要:時序數據庫用于采集和分析工業設備傳感器發送的海量數據,在物聯網領域至關重要。無論是從網絡接收的數據還是數據庫存儲的數據,都經過高效編碼以減少 I/O 占用和延遲。物聯網編碼器通過組合差分編碼、重復值壓縮和打包編碼算子,實現了比單獨使用任一方法更高的壓縮比。然而,因為處理查詢前必須進行串行解碼,高效的壓縮反而增加了查詢執行難度,而選擇性聚合(如降采樣)是時序分析查詢的核心操作。

本文提出了一套基于編碼數據數組的算子體系,用于加速物聯網聚合查詢處理,可擴展集成線程級和指令級設計,創新性地實現了無需解碼即可并行聚合編碼數據的能力,并能夠利用編碼統計信息減少冗余計算。這些算子構建的管道式查詢引擎已集成至開源數據庫 Apache IoTDB 中。系統評估表明,該方案在選擇性聚合查詢效率上較現有工作實現了顯著提升。

作為國產自研時序數據庫的領跑者,IoTDB 通過產、學、研、用深度融合模式,深挖物聯網場景需求,在多項數據庫技術方向持續突破。目前已有超 50 篇技術成果論文發布,多篇論文入選數據庫頂級會議。

更多內容推薦:

下載時序數據庫 IoTDB 開源版