首頁
>
資源
>
獎項動態

IoTDB 論文入選三大數據庫頂會:ICDE、SIGMOD、VLDB 收錄自研成果!

2024 三大頂會收錄“成就”

隨著數據庫領域三大國際頂級會議 ICDE、SIGMOD、VLDB 2024 會議落幕,我們驕傲的宣布 Apache IoTDB 團隊成員的多篇論文均被收錄!其研究成果均已在 IoTDB 實現,或基于 IoTDB 進行了性能評估。

以下整理收錄論文名稱及摘要,三大頂會的多篇收錄進一步證明了 IoTDB 相關技術在工業應用領域的先進性和引領性。產、學、研融合的我們會更努力,實現更多創新性技術突破!

ICDE 2024 & IoTDB

??論文名稱:On Tuning Raft for IoT Workload in Apache IoTDB

?摘要:由于其可以直觀的理解和實現,Raft 已被廣泛用作各種分布式系統中的共識協議。然而,直接應用 Raft 可能無法完全滿足物聯網(IoT)場景中的高吞吐量要求。該論文研究揭示了實際物聯網應用案例中,數據庫系統面對的獨特場景特性,例如高并發性、波動的流量、固定大小的請求和可壓縮數據。這些特性解釋了 Raft 在物聯網應用的日志分發、持久性和內存管理方面的瓶頸。

為此,我們建議探索針對特定物聯網工作負載調整 Raft 共識協議的可能,包括替代數據結構、實現多類壓縮算法、內存回收策略等。本文通過調整上述方面,在開源時序數據庫 Apache IoTDB 中對 Raft 進行了系統評估。大量實驗表明系統并行性得到改善,信息冗余減少,資源利用率提高。數據庫吞吐量提升范圍可達到通過替換調度數據結構的 10% 到通過預序列化的近 200%。調整后的整體吞吐量可以達到原始 Raft 實現的 4 倍。

??論文名稱:REGER: Reordering Time Series Data for Regression Encoding

?摘要:回歸模型通過存儲每個點的殘差,也就是回歸編碼,用于對時序數據進行無損壓縮。由于數值波動,回歸殘差可能很大,因此將占用巨大的空間。值得注意的是,與波動值相比,時間間隔通常是規則的且易于壓縮,尤其在以預設頻率收集傳感器數據的物聯網場景中。從這個意義上講,需要權衡存儲常規時間戳和波動值。直觀地說,我們可以交換序列中的數據點,而不是按時間順序存儲,這樣相鄰的數據點既有更平滑的時間戳,也有更平滑的值,從而降低殘差。

在本文中,我們建議對時序數據進行重新排序,以實現更好的回歸編碼。不是從頭開始重新計算,而是在移動一些點后對殘差進行有效的更新。對各種真實世界數據集(無論是公開的還是由我們的工業合作伙伴收集的)的實驗比較說明了該方法在壓縮比方面的優越性。帶有重新排序的回歸編碼(REGER),現在已成為開源時序數據庫 Apache IoTDB 中的一種編碼方法。

SIGMOD 2024 & IoTDB

??論文名稱:Time Series Representation for Visualization in Apache IoTDB

?摘要:在分析時序數據時(通常是交互分析),分析師經常需要即時可視化數據庫中存儲的海量數據。M4 可視化選擇每個像素列中的第一個、最后一個、底部和頂部數據點,以確保雙色折線圖可視化的像素完美度。雖然 M4 已經展示了將不同跨度的時序數據封裝到固定大小的像素中的精確度,但在原生時序數據庫中有效支持 M4 可視化的方法仍然缺失。值得注意的是,為了實現快速寫入,商用時序數據庫系統(如 Apache IoTDB 或 InfluxDB)采用基于 LSM-Tree 的存儲。也就是說,時序數據被分段并存儲在多個塊中,可能出現時間戳無序到達。

在本研究中,我們提出了一種新穎的無塊合并方法,稱為 M4-LSM,以加速 M4 可視化實現。具體來說,我們利用塊的元數據來精簡并避免任何塊的昂貴合并。此外,參考時序數據的特殊屬性,還啟用了塊內索引和精簡,以高效地訪問可視化數據點。值得一提的是,原生時序數據庫運算符 M4-LSM 已在開源時序數據庫 Apache IoTDB 中實現,并部署在各行業的企業中。在面向真實數據集的實驗中,我們提出的 M4-LSM 運算符在不犧牲精度的情況下表現出高效率。

??論文名稱:Determining Exact Quantiles with Randomized Summaries

?摘要:分位數是各種數據科學任務中的基本統計方法,但因需要將所有數據加載到內存中進行排名,計算成本高昂。由于內存空間有限(在負載較重的終端設備或數據庫中很常見),因此需要多次掃描數據。這種方法是希望逐漸縮小查詢分位數的范圍,直到它小到足以加載到內存以對結果進行排名。現有方法使用確定性草圖來確定分位數的精確范圍,稱為確定性過濾器,但在范圍縮小方面效率低下。

在本研究中,我們建議使用隨機摘要(例如 KLL 草圖)更快速地縮小范圍。也就是說,分位數很有可能位于由隨機草圖確定的較小范圍內,稱為概率過濾。具體而言,我們估計了使用概率過濾確定的精確分位數的預期通過次數,并選擇可以最小化預期通過次數的適當概率。該方法已作為一項功能部署在基于 LSM-Tree 的時序數據庫 Apache IoTDB 中。在真實和合成數據集上進行的大量實驗證明了我們的建議與現有的確定性過濾方法相比具有優越性。與最先進的確定性草圖(GK 草圖)相比,我們的方法次數平均減少 0.48 次,耗時減少 18%。

??論文名稱:Optimizing Time Series Queries with Versions

?摘要:我們表明,用于工業物聯網數據管理的時序數據庫對集成自動版本控制系統具有內在需求,該系統引入了高級數據語義和查詢優化。在已部署的物聯網數據庫實例中,由于網絡問題和錯誤的物聯網讀數,由 LSM tree 管理的物聯網數據是多層次和多版本的。對于數據語義,每個查詢根據查詢表達式或數據塊級別合并版本數據。對于查詢優化,我們發現現有的依賴于預寫日志的時序數據庫由于在合并大量版本數據時的性能瓶頸而無法更好地執行數據查詢。

在本文中,由版本運算符組成的代數解決了時序數據應用程序評估和優化物理查詢計劃的語義。我們提出版本可約性作為執行一致計劃的關鍵特征,并評估推遲數據合并的好處。我們還展示了將版本查詢集成到現有關系數據庫中的方法,方法是基于關系可約性將它們轉換為標準 SQL。最后,我們的擴展實驗證明了針對版本化數據優化執行計劃的有效性。

VLDB 2024 & IoTDB

??論文名稱:Apache TsFile: An IoT-native Time Series File Format

?摘要:物聯網 (IoT) 的普及導致時序數據呈指數級增長,這些數據分布并應用于各種環境,需要專用的存儲解決方案。盡管關注度日益增長,但當前的時序數據庫系統缺乏標準化的文件格式,現有的開放文件格式無法充分利用物聯網時序數據的獨特特性。

在本文中,我們介紹了 Apache TsFile,這是一種專門為物聯網時序數據量身定制的文件格式。TsFile 按設備組織數據,根據設備相關信息創建索引。我們的實驗證明了 TsFile 在實現高數據攝取率、最小化延遲和優化數據緊湊性方面的效率。

??論文名稱:On Reducing Space Amplification with Multi-Column Compaction in Apache IoTDB

?摘要:日志結構合并樹 (LSM-tree) 通常用作現代時序數據庫(包括 Apache IoTDB)中寫入密集型工作負載的存儲引擎,但因此會遭受高空間放大 (SA),這個問題在物聯網 (IoT) 場景中變得更加復雜。

為了緩解這種情況下的 SA,本文介紹了 Apache IoTDB 中的多列壓縮 (MCC) 策略。我們同時考慮了單獨插入無序數據和多列數據更新,并分析了在壓縮過程中選擇合適文件以最大程度減少空間的難度。然后,我們提出了一種啟發式方法來改進文件選擇,從而減少 SA。為了提高這種方法的效率,我們進一步設計了文件預取器和壓縮緩存。所提出的 MCC 已在 Apache IoTDB 中實現。實驗結果表明,我們提出的 MCC 在減少空間放大方面取得了更好的性能。

??論文名稱:Distance-based Outlier Query Optimization in Apache IoTDB

?摘要:雖然對流數據的異常值檢測已得到廣泛研究,但時序數據庫中的異常值查詢卻在很大程度上被忽視了。在本文中,我們專注于優化 Apache IoTDB 中基于距離的異常值查詢的效率,并考慮延遲數據的重疊文件。我們建議利用存儲在文件中的值的存儲桶統計數據。為了實現高效修剪,我們在存儲桶和重疊文件中推導出了數據點鄰居計數的上限和下限。與現有的為數據流設計的異常值檢測方法相比,大量實驗證明了我們的方案在基于 LSM 樹的時序數據庫 Apache IoTDB 中的效率。

更多內容推薦:

? 了解如何使用 IoTDB 企業版