論文成果總結(jié)
2025 年度,學(xué)術(shù)界多個(gè)時(shí)序數(shù)據(jù)研究團(tuán)隊(duì)圍繞時(shí)序數(shù)據(jù)庫 IoTDB 進(jìn)行了多方面的科研創(chuàng)新,在數(shù)據(jù)庫領(lǐng)域 CCF-A 類國際期刊和會議上共發(fā)表論文 10 篇,包括:ACM TODS 1 篇、SIGMOD 3 篇、VLDB 2 篇、ICDE 4 篇,涵蓋引擎、存儲、查詢、分析等方面。
在引擎方面,通過原生 TsFile 格式和高效處理引擎,IoTDB 實(shí)現(xiàn)了高吞吐寫入與低延遲查詢。IoTDB 社區(qū)還設(shè)計(jì)了免遷移的彈性分布式存儲方案,能夠在保障系統(tǒng)容災(zāi)能力的同時(shí),實(shí)現(xiàn)存儲均衡。
在存儲方面,通過引入基于離群值分離的位打包技術(shù)(BOS)、面向編碼數(shù)據(jù)的 SIMD 向量化聚合管道以及創(chuàng)新的同態(tài)壓縮框架(CompressIoTDB),IoTDB 社區(qū)顯著提升了數(shù)據(jù)壓縮比和查詢性能。
在查詢方面,針對 LSM 樹存儲結(jié)構(gòu),IoTDB 社區(qū)提出了基于隨機(jī)摘要的分位數(shù)查詢方法以降低 I/O 開銷,并設(shè)計(jì)了迭代最大三角形采樣算法(ILTS)來優(yōu)化時(shí)序數(shù)據(jù)的可視化質(zhì)量與效率。
在分析方面,IoTDB 社區(qū)實(shí)現(xiàn)了數(shù)據(jù)庫內(nèi)置的季節(jié)性趨勢分解方法(OneRoundSTL)和時(shí)序聚類方案,并提出了具有收斂性保證的多變量時(shí)序協(xié)同插補(bǔ)技術(shù),從而為復(fù)雜時(shí)序分析提供了高效、可靠的原生支持。
這一系列創(chuàng)新性成果,為應(yīng)對物聯(lián)網(wǎng)時(shí)代海量、高速、多樣化的時(shí)序數(shù)據(jù)管理挑戰(zhàn)提供了堅(jiān)實(shí)的理論與性能支撐。

引擎
ACM TODS 2025: Apache IoTDB: A Time Series Database for Large Scale IoT Applications
??論文名稱:Apache IoTDB:面向大規(guī)模物聯(lián)網(wǎng)應(yīng)用的時(shí)序數(shù)據(jù)庫
??第一作者:王晨
典型的工業(yè)場景涉及成千上萬的設(shè)備與數(shù)百萬個(gè)傳感器,持續(xù)生成數(shù)以十億計(jì)的數(shù)據(jù)點(diǎn)。這對時(shí)間序列數(shù)據(jù)管理提出了新的需求,而現(xiàn)有解決方案未能充分應(yīng)對這些需求,包括:設(shè)備定義的持續(xù)演進(jìn)模式、周期性的數(shù)據(jù)采集、強(qiáng)關(guān)聯(lián)的序列數(shù)據(jù)、不同程度延遲的數(shù)據(jù)到達(dá),以及高并發(fā)的數(shù)據(jù)寫入。
本文詳細(xì)介紹了一種時(shí)間序列數(shù)據(jù)庫管理系統(tǒng)——Apache IoTDB。該系統(tǒng)包含一種原生時(shí)間序列文件格式 TsFile,采用專門設(shè)計(jì)的數(shù)據(jù)編碼方式;以及一個(gè)能夠高效處理延遲數(shù)據(jù)到達(dá)與查詢操作的 IoTDB 引擎。我們介紹了一種原生分布式解決方案,利用并行算子優(yōu)化分布式查詢。同時(shí),我們探索了高效的 TsFile 同步機(jī)制,確保無需 ETL 流程即可實(shí)現(xiàn)無縫數(shù)據(jù)整合。
該系統(tǒng)實(shí)現(xiàn)了 1000 萬數(shù)據(jù)點(diǎn)/秒的寫入吞吐量。對于 10 萬個(gè)數(shù)據(jù)點(diǎn)的單日數(shù)據(jù)查詢,以及 1000 萬個(gè)數(shù)據(jù)點(diǎn)的三年數(shù)據(jù)聚合查詢,均可在 100 毫秒內(nèi)完成處理。與 InfluxDB、TimescaleDB、KairosDB、Parquet 及 ORC 基于真實(shí)數(shù)據(jù)負(fù)載的對比實(shí)驗(yàn),驗(yàn)證了 IoTDB 與 TsFile 的優(yōu)越性。
??全文鏈接:https://dl.acm.org/doi/10.1145/3726523

VLDB 2025: Migration-Free Elastic Storage of Time Series in Apache IoTDB
??論文名稱:Apache IoTDB 中免遷移的時(shí)間序列彈性存儲
??第一作者:陳榮釗
在分布式時(shí)序數(shù)據(jù)庫(TSDB)中,時(shí)序數(shù)據(jù)通常按序列和時(shí)間進(jìn)行分區(qū)。這些分區(qū)隨后被分配到分片,分片的副本決定了存儲位置,而領(lǐng)導(dǎo)者負(fù)責(zé)管理寫入負(fù)載。在物聯(lián)網(wǎng)(IoT)場景中,隨著傳感器數(shù)量的不斷增長,集群也會隨之?dāng)U展,重新平衡存儲的一種常見方法是遷移現(xiàn)有分區(qū),但這會產(chǎn)生額外的開銷。
通常,時(shí)序數(shù)據(jù)庫會通過生存時(shí)間(Time to Live,TTL)來自動(dòng)卸載過期數(shù)據(jù),因此動(dòng)態(tài)擴(kuò)展分片而不是遷移現(xiàn)有分區(qū)也可以恢復(fù)存儲平衡。同時(shí),集群的容災(zāi)能力取決于副本放置方案,而集群的擴(kuò)展會使這個(gè)問題變得更加復(fù)雜。物聯(lián)網(wǎng)場景中的密集寫入負(fù)載需要平衡的領(lǐng)導(dǎo)者選擇,而容災(zāi)放置方案使得該選擇變得困難。
論文中提出了一種具有可靠容災(zāi)能力,且存儲均衡的副本放置算法,以及一種寫均衡的領(lǐng)導(dǎo)者選擇算法,以解決上述問題。該解決方案已在 Apache IoTDB 1.3 版本中成功部署,廣泛評估證明了其在可用性和性能方面的卓越性。
??全文鏈接:https://dl.acm.org/doi/10.14778/3725688.3725706

存儲
ICDE 2025: BOS: Bit-packing with Outlier Separation
??論文名稱:BOS:基于離群值分離的位打包技術(shù)
??第一作者:肖今朝
位打包是多種數(shù)據(jù)編碼與壓縮方法的基礎(chǔ)操作,其核心思想是采用固定位寬來表示序列中所有經(jīng)過處理的值。然而,某些極大值(稱為上界離群值)會顯著增加所需位寬,導(dǎo)致大多數(shù)較小值存儲時(shí)的位浪費(fèi)。值得注意的是,不僅是大值(上界離群值),小值(下界離群值)同樣可能引起位寬浪費(fèi)。
本文提出通過分離上下界離群值來優(yōu)化存儲的方法(BOS):將離群值單獨(dú)存儲后,剩余中心值的分布范圍變窄(即壓縮位寬),需要額外成本記錄離群值位置。該問題的核心在于如何確定最優(yōu)的上下界離群值分離閾值,以實(shí)現(xiàn)最小化存儲成本。相較于使用搜索時(shí)間為 O(n2) 的全枚舉上下界閾值,我們創(chuàng)新性地采用位寬作為分離依據(jù),將搜索時(shí)間降至 O(nlogn)。理論分析表明,基于位寬的分離策略在所有可能情況下都能獲得與值分離法相同的優(yōu)化解,并進(jìn)一步提出結(jié)合中位數(shù)與位寬的近似分離策略,搜索時(shí)間進(jìn)一步降至 O(n)。
BOS 方案可與現(xiàn)有所有基于位打包的壓縮方法兼容,目前已在 Apache IoTDB 和 Apache TsFile 中全面替代傳統(tǒng)位打包方法。大量真實(shí)數(shù)據(jù)集實(shí)驗(yàn)表明,在各種壓縮方法中用 BOS 替代位打包后,壓縮比從約 2.75 顯著提升至 3.25。
??全文鏈接:https://ieeexplore.ieee.org/document/11113092

ICDE 2025: Exploring SIMD Vectorization in Aggregation Pipelines for Encoded IoT Data
??論文名稱:面向編碼物聯(lián)網(wǎng)數(shù)據(jù)聚合管道中的 SIMD 向量化技術(shù)探索
??第一作者:康瑞
時(shí)序數(shù)據(jù)庫用于采集和分析工業(yè)設(shè)備傳感器發(fā)送的海量數(shù)據(jù),在物聯(lián)網(wǎng)領(lǐng)域至關(guān)重要。無論是從網(wǎng)絡(luò)接收的數(shù)據(jù)還是數(shù)據(jù)庫存儲的數(shù)據(jù),都經(jīng)過高效編碼以減少 I/O 占用和延遲。物聯(lián)網(wǎng)編碼器通過組合差分編碼、重復(fù)值壓縮和打包編碼算子,實(shí)現(xiàn)了比單獨(dú)使用任一方法更高的壓縮比。然而,因?yàn)樘幚聿樵兦氨仨氝M(jìn)行串行解碼,高效的壓縮反而增加了查詢執(zhí)行難度,而選擇性聚合(如降采樣)是時(shí)序分析查詢的核心操作。
本文提出了一套基于編碼數(shù)據(jù)數(shù)組的算子體系,用于加速物聯(lián)網(wǎng)聚合查詢處理,可擴(kuò)展集成線程級和指令級設(shè)計(jì),創(chuàng)新性地實(shí)現(xiàn)了無需解碼即可并行聚合編碼數(shù)據(jù)的能力,并能夠利用編碼統(tǒng)計(jì)信息減少冗余計(jì)算。這些算子構(gòu)建的管道式查詢引擎已集成至開源數(shù)據(jù)庫 Apache IoTDB 中。系統(tǒng)評估表明,該方案在選擇性聚合查詢效率上較現(xiàn)有工作實(shí)現(xiàn)了顯著提升。
??全文鏈接:https://ieeexplore.ieee.org/document/11112860

VLDB 2025: Improving Time Series Data Compression in Apache IoTDB
??論文名稱:提升 Apache IoTDB 的時(shí)間序列數(shù)據(jù)壓縮性能
??第一作者:Yuxin Tang
時(shí)間序列數(shù)據(jù)在各領(lǐng)域以前所未有的規(guī)模產(chǎn)生。盡管傳統(tǒng)壓縮技術(shù)能降低存儲成本,但它們通常需要在查詢前完全解壓數(shù)據(jù),導(dǎo)致查詢延遲增加和資源消耗上升。同態(tài)壓縮(HC)技術(shù)允許直接對壓縮數(shù)據(jù)進(jìn)行計(jì)算而無需解壓,展現(xiàn)出既能減少存儲成本又能提升查詢性能的潛力。然而,時(shí)間序列數(shù)據(jù)特有的復(fù)雜性給現(xiàn)有的 HC 方法帶來了無法充分應(yīng)對的挑戰(zhàn)。
本文在時(shí)序數(shù)據(jù)領(lǐng)域引入 HC 理論,革新性地實(shí)現(xiàn)了時(shí)序數(shù)據(jù)庫查詢的同態(tài)壓縮。基于我們的理論,我們開發(fā)了 CompressIoTDB:一個(gè)集成于 Apache IoTDB 的新型同態(tài)壓縮框架。通過采用我們提出的 CompColumn 結(jié)構(gòu),該框架支持廣泛的查詢算子,包括過濾、聚合和窗口函數(shù),同時(shí)全程保持?jǐn)?shù)據(jù)的壓縮狀態(tài)。此外,我們還引入了延遲解壓和動(dòng)態(tài)輔助管理等系統(tǒng)級優(yōu)化,進(jìn)一步提升查詢效率。
大量實(shí)驗(yàn)表明,CompressIoTDB 顯著提升了時(shí)間序列數(shù)據(jù)的查詢處理性能,平均吞吐量提高了 53.4%,內(nèi)存使用降低了 20%。
??全文鏈接:https://dl.acm.org/doi/10.14778/3748191.3748204

查詢
SIGMOD 2025: Randomized Sketches for Quantile in LSM-tree based Store
??論文名稱:基于 LSM 樹存儲的分位數(shù)隨機(jī)摘要
??第一作者:陳子陵
分位數(shù)的精確計(jì)算代價(jià)高昂,但可以通過分位數(shù)摘要進(jìn)行高效估計(jì)。現(xiàn)有關(guān)于流數(shù)據(jù)匯總(如 KLL)的研究主要致力于在給定誤差控制下最小化內(nèi)存開銷。然而在基于 LSM 樹的存儲系統(tǒng)中進(jìn)行分位數(shù)估計(jì)時(shí),流式處理方法會產(chǎn)生與數(shù)據(jù)量 N 成線性關(guān)系的昂貴 I/O 開銷。由于 LSM 樹中的磁盤組件(數(shù)據(jù)塊和 SSTable)一旦刷盤就不可改變,可以將分位數(shù)摘要作為一種預(yù)計(jì)算統(tǒng)計(jì)信息來降低 I/O 開銷并加速查詢。若要為查詢數(shù)據(jù)提供確定性的加性誤差 εN 保證,所有被查詢數(shù)據(jù)塊(單個(gè)大小為 Nc)的預(yù)計(jì)算確定性摘要都必須提供 εNc 誤差保證,導(dǎo)致線性 I/O 開銷無法改善。
本文提出預(yù)計(jì)算隨機(jī)摘要方案以提供隨機(jī)加性誤差保證,主要技術(shù)創(chuàng)新包括:(1) 針對刷盤構(gòu)建的數(shù)據(jù)塊隨機(jī)摘要(經(jīng)證明具有最優(yōu)性,可實(shí)現(xiàn)與 √N(yùn) 成正比的 I/O 開銷);(2) 針對壓縮構(gòu)建 SSTable 分層隨機(jī)摘要,可進(jìn)一步改善漸進(jìn) I/O 開銷;(3) 總結(jié)預(yù)計(jì)算的 KLL 摘要比總結(jié)流數(shù)據(jù)的 KLL 摘要更準(zhǔn)確,可在與流數(shù)據(jù)相同的內(nèi)存復(fù)雜度條件下實(shí)現(xiàn)次線性 I/O 開銷。在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的大量實(shí)驗(yàn)驗(yàn)證了該技術(shù)的優(yōu)越性,該方案已部署于基于 LSM 樹的時(shí)序數(shù)據(jù)庫 Apache IoTDB 中。
??全文鏈接:https://dl.acm.org/doi/10.1145/3709717

SIGMOD 2025: Largest Triangle Sampling for Visualizing Time Series in Database
??論文名稱:面向數(shù)據(jù)庫時(shí)間序列可視化的最大三角形采樣方法
??第一作者:芮蕾
在時(shí)間序列可視化中,降采樣技術(shù)用于減少數(shù)據(jù)點(diǎn)數(shù)量,并保留原始時(shí)間序列的視覺特征。基于面積的最大三角形采樣法(LTS)在保留感知關(guān)鍵點(diǎn)方面表現(xiàn)優(yōu)異。然而,通過順序采樣局部最大三角形面積的點(diǎn)的啟發(fā)式解決方案(即 LTTB 算法)存在次優(yōu)解和查詢效率低下的問題。
針對這些缺陷,我們提出了一種創(chuàng)新的迭代最大三角形采樣算法(ILTS),通過凸包加速技術(shù)進(jìn)行優(yōu)化。該算法可以迭代優(yōu)化采樣結(jié)果,通過在每次迭代中集成更多數(shù)據(jù)點(diǎn)以獲取更廣闊的視角。我們證明了在預(yù)先計(jì)算的凸包中始終可以找到最大的三角形,從而保證了迭代采樣過程的高效性。實(shí)驗(yàn)結(jié)果表明,相較于現(xiàn)有的最優(yōu)基線,新算法顯著提升了視覺質(zhì)量,與蠻力方法相比,速度有顯著提升。
??全文鏈接:https://dl.acm.org/doi/10.1145/3709699

分析
ICDE 2025: OneRoundSTL: In-Database Seasonal-Trend Decomposition
??論文名稱:OneRoundSTL:數(shù)據(jù)庫內(nèi)置的季節(jié)性趨勢分解方法
??第一作者:陳子杰
季節(jié)性趨勢分解方法在時(shí)序分析中應(yīng)用廣泛,例如時(shí)間序列預(yù)測和異常檢測。現(xiàn)有的季節(jié)性趨勢分解方法(如 STL 及其變體)通常假設(shè)時(shí)間序列是完整且按時(shí)間戳排序的。然而,主流時(shí)序數(shù)據(jù)庫多采用基于 LSM 樹的存儲結(jié)構(gòu),其數(shù)據(jù)頁中的存儲順序往往與時(shí)間順序不一致。此外,數(shù)據(jù)庫中的時(shí)序數(shù)據(jù)常因傳感器故障等原因存在數(shù)據(jù)缺失,進(jìn)一步破壞了數(shù)據(jù)的完整性。常規(guī)解決思路是先合并排序不同數(shù)據(jù)頁的內(nèi)容再進(jìn)行分解,但這會導(dǎo)致沉重的在線計(jì)算負(fù)擔(dān)和多次查詢時(shí)的重復(fù)計(jì)算,且仍無法處理殘留的缺失數(shù)據(jù)。
本文提出 OneRoundSTL 方法,通過在離線階段預(yù)計(jì)算各獨(dú)立數(shù)據(jù)頁的結(jié)果,在查詢時(shí)拼接這些預(yù)計(jì)算結(jié)果即可獲得分解結(jié)果。該方案已在開源時(shí)序數(shù)據(jù)庫 Apache IoTDB 中實(shí)現(xiàn)并作為內(nèi)置功能部署。系統(tǒng)在合成數(shù)據(jù)集和真實(shí)數(shù)據(jù)集上的實(shí)驗(yàn)表明,OneRoundSTL 在保持分解效果的同時(shí),其執(zhí)行效率遠(yuǎn)超現(xiàn)有最優(yōu)方法。
??全文鏈接:https://ieeexplore.ieee.org/document/11112870

SIGMOD 2025: In-Database Time Series Clustering
??論文名稱:數(shù)據(jù)庫內(nèi)的時(shí)序聚類
??第一作者:蘇云祥
時(shí)序數(shù)據(jù)常需在不同時(shí)間范圍內(nèi)反復(fù)聚類,以挖掘不同時(shí)段頻繁出現(xiàn)的子序列模式,從而為下游應(yīng)用提供支持。當(dāng)前最先進(jìn)的時(shí)序聚類方法(如 K-Shape)能有效根據(jù)形態(tài)特征進(jìn)行聚類,但在數(shù)據(jù)量龐大、效率要求高的物聯(lián)網(wǎng)場景中,數(shù)據(jù)庫內(nèi)的時(shí)序聚類問題始終未被充分研究。多數(shù)時(shí)序數(shù)據(jù)庫采用基于 LSM 樹的存儲架構(gòu)應(yīng)對高頻寫入,但這會導(dǎo)致底層數(shù)據(jù)點(diǎn)產(chǎn)生亂序時(shí)間戳。因此,若直接應(yīng)用現(xiàn)有的數(shù)據(jù)庫外時(shí)序聚類方法,必須將所有數(shù)據(jù)完全加載到內(nèi)存中,并重新按時(shí)間排序,且每次處理跨不同時(shí)間范圍的查詢時(shí)都需從頭開始聚類,效率低下。
本文提出數(shù)據(jù)庫內(nèi)適配的時(shí)序聚類方法 K-Shape 改進(jìn)方案,并針對長時(shí)序數(shù)據(jù)處理問題,提出 Medoid-Shape 方法及其數(shù)據(jù)庫內(nèi)適配方案,以進(jìn)一步提升使用速度。大量實(shí)驗(yàn)證明,該方案在同等效果下顯著提升了效率。所有技術(shù)已在開源商用時(shí)序數(shù)據(jù)庫 Apache IoTDB 中實(shí)現(xiàn)。
??全文鏈接:https://dl.acm.org/doi/10.1145/3709696

ICDE 2025: Collaborative Imputation for Multivariate Time Series with Convergence Guarantee
??論文名稱:具有收斂性保證的多變量時(shí)間序列協(xié)同插補(bǔ)
??第一作者:孫宇
缺失值在多變量時(shí)間序列中經(jīng)常出現(xiàn),這影響了數(shù)據(jù)分析和應(yīng)用。現(xiàn)有研究通常使用完整數(shù)據(jù)來訓(xùn)練插補(bǔ)模型,然后用其填補(bǔ)缺失值。然而在實(shí)踐中,缺失值可能出現(xiàn)在不同的單元格中,這種多樣性阻礙了插補(bǔ)模型的性能,甚至在缺乏收斂保證(即無法確保在迭代趨于無窮時(shí)獲得最優(yōu)解)的情況下使填補(bǔ)無法進(jìn)行。原因在于:(1) 多個(gè)單元格的插補(bǔ)值在滿足模型一致性方面可能相互影響;(2) 從完整數(shù)據(jù)中獲得的依賴關(guān)系可能不足以準(zhǔn)確插補(bǔ)大量未觀測值,這給收斂性帶來了更嚴(yán)峻的挑戰(zhàn)。
本論文中,我們研究了具有收斂性保證的協(xié)同插補(bǔ)方法。所謂“協(xié)同”,我們指的是:(1) 所有缺失單元格能夠以協(xié)同方式被插補(bǔ),并保證符合模型一致性;(2) 插補(bǔ)模型也能根據(jù)填補(bǔ)值實(shí)現(xiàn)優(yōu)化。我們的主要技術(shù)亮點(diǎn)包括:(1) 引入基于似然最大化的、具有統(tǒng)計(jì)可解釋性的協(xié)同插補(bǔ)方法;(2) 設(shè)計(jì)一種針對多個(gè)缺失單元格的協(xié)同插補(bǔ)算法,并將其等效擴(kuò)展為并行版本;(3) 以協(xié)同方式并行優(yōu)化插補(bǔ)值和模型,并在此過程中保證算法的收斂性;(4) 設(shè)計(jì)流式插補(bǔ)和自適應(yīng)參數(shù)確定策略。
在真實(shí)不完整數(shù)據(jù)集上的實(shí)驗(yàn)表明,我們的方法在插補(bǔ)準(zhǔn)確性和下游應(yīng)用性能上均優(yōu)于十二種基線方法。
??全文鏈接:https://ieeexplore.ieee.org/document/11112895

添加歐歐小助手(微信號:apache_iotdb),并發(fā)送“2025 論文”,可免費(fèi)獲得“2025 IoTDB 論文合集”!
更多內(nèi)容推薦:
? 下載開源時(shí)序數(shù)據(jù)庫 IoTDB
? 咨詢企業(yè)版