之前,我們發布了時序數據庫 IoTDB 團隊自研的 Timer-XL 時序大模型,可以有效地為異常檢測、數據填補、時序預測等時序數據場景提供解決方案。該模型已經內置在 IoTDB 的智能分析節點 AINode 中,用戶能夠非常方便地進行調用。
Timer-XL 時序大模型的論文成果:Timer-XL: Long-Context Transformers For Unified Time Series Forecasting(《Timer-XL:用于時間序列統一預測的長上下文 Transformer 模型》)已經被公認的深度學習領域國際頂級會議之一,ICLR 2025(The International Conference on Learning Representations,國際學習表征會議)收錄,標志著 Timer-XL 模型在技術設計及預測效果上的領先性獲得權威認可。
針對長上下文時序預測問題,本篇論文提出了時序注意力機制,基于 Decoder-Only Transformer 進行多維時序數據的下一詞預測,通過對預測上下文的統一建模,在單變量、多變量以及協變量等任務中取得了性能提升,并進一步通過大規模預訓練構建了 Timer-XL 時序大模型,在零樣本預測中取得了更好效果。

ICLR 官網收錄論文
01 Timer-XL 的基礎:Transformer 模型
Transformer 已成為自然語言、圖像、視頻等領域的基礎模型。除了與日俱增的訓練規模,基礎模型的上下文長度也是重要能力指標。面向自然語言處理,它是上下文學習(ICL),檢索增強生成(RAG),以及思維鏈(CoT)等涌現能力的基礎;在視覺領域,長上下文模型能夠支持更高分辨率、更長時間的生成任務。
針對時序預測設計的 Transformer 層出不窮,以往工作普遍關注長期未來預測,然而,可靠預測依賴于對歷史序列的長期觀測,以及對外生因素的充分捕捉。因此,提升模型的長上下文預測能力至關重要。
我們首先分析了 Transformer 的僅編碼器(Encoder-Only)和僅解碼器(Decoder-Only)架構在長上下文預測任務中的表現。

深度預測模型在長上下文任務中的預測誤差:PatchTST 對應 Encoder-Only Transformer,Timer-XL 對應 Decoder-Only Transformer
實驗表明:Decoder-Only Transformer 能夠更好地支持時序預測上下文長度的有效擴展。此外,基于該架構在處理不同序列長度時的上下文靈活性,我們有望突破以往“一事一議”的設計思路,構建一個支持多種預測場景的通用模型。

(左)架構對比;(右)下一詞預測
受自然語言建模啟發,我們將下一詞預測任務擴展至多維時序數據;提出多維時序注意力機制(TimeAttention),在保證時序單元(Token)因果關系的同時捕捉跨序列(變量)的依賴關系;基于并行化的下一詞預測監督信號,訓練上下文(時序/變量)可變的預測模型。
效果方面,我們所提出的模型在單變量,多變量,帶協變量的有監督預測任務中取得了性能提升;通過在 2600 億時間點進行預訓練,模型取得了領先的零樣本預測效果。
02 Transformer 的時序預測局限
PatchTST 提出分塊(Patch)時序單元,在捕捉長期時序變化時具備明顯優勢。為彌補通道獨立(Channel Independence)對多變量關聯的建模不足,iTransformer 將多變量時序數據的每個變量視作獨立單元,在進行多維時序預測時效果優良。后續 TimeXer,UniTST 等模型從時序單元和注意力機制出發,能夠同時進行序列內和序列間時序建模。
然而,上述工作主要聚焦長期時序預測。在長上下文預測任務中,我們發現:相比于廣泛采用的 Encoder-Only 架構,維持因果性質的 Decoder-Only 架構在長上下預測中效果更好。然而,多維時間序列中同時存在序列內以及跨序列的時序依賴,依靠 Transformer 的原生掩碼注意力機制難以進行有效建模。

面向時序數據設計的不同 Transformer 能力對比
Transformer 是否能有效建模時序數據一直是領域熱點問題。一方面,單一的評測基準制約了模型創新;另一方面,在小規模數據上 XGBoost,MLP 等輕量模型往往能取得更加優異的效果,而 Transformer 等深度模型的數據需求和調優難度往往更大。
在此趨勢下,最近研究旨在構建時序大模型:無需在特定任務上進行訓練,預訓練模型提供開箱即用的預測能力,如谷歌的 TimesFM,亞馬遜的 Chronos 以及 Saleforce 的 Moirai 系列模型。

模型效果與數據規模息息相關
我們基于此前自研的時序大模型 Timer 構建了 Timer-XL 模型,主要擴展了模型的上下文長度,增強對預測任務的通用適配性,以及在規模上驗證了時序模型的擴展定律。
03 Timer-XL 優化:通用、靈活、可擴展
下一詞預測(Next Token Prediction)一直是大語言模型的主流訓練目標之一,其核心在于訓練時并行優化在多個位置上的自回歸預測信號,推理時,模型可基于不同的上下文長度進行預測。我們將該范式首次擴展到多變量時間序列:

如下圖(b)所示,基于分塊(Patching)后的二維時間序列單元,每個位置的下一詞預測不僅依賴于該序列的歷史變化(時序因果性),還依賴于相關變量的外生關聯,這為 Transformer 建模多維時序數據帶來了新的問題。

多變量時序預測中的序列內與序列間時序關聯


TimeAttention 將多變量時序關聯解耦為變量關聯圖與時序因果掩碼
類似地,在提供先驗變量關聯的情況下(例如帶協變量的時序預測),通過定制變量關聯圖,上述掩碼機制能夠泛化到其他預測場景中。因此,TimeAttention 可形式化為:



上述計算過程使用旋轉位置編碼(RoPE)規避 Attention 機制在時間維的置換不變性(Permutation-Invariance),并使用注意力位置偏置(ALiBi)賦予內生變量與外生變量不同的可學習權重。此外,TimeAttention 在變量維保持了排列不變性(Permutation-Equivalence)。

多變量時序預測中的時序因果性與變量等價性
Timer-XL 采用 Patch Token 作為基本時序單元,將多維時間序列展平為一維 Token 序列,使用 TimeAttention 進行通用時序建模,最終獲得每個位置的上下文表征,以進行下一詞預測。受益于 Decoder-Only 結構的上下文長度可變性,Timer-XL 可以支持多種預測任務。

Timer-XL 模型結構
04 Timer-XL 預測效果:多類場景領先
我們從通用時序預測模型和時序大模型兩個角度,評估了 Timer-XL 模型的預測效果。
(1) 通用時序預測
我們在多項時序預測場景中,對多類深度預測模型進行有監督訓練,與 Timer-XL 對比模型包括 UniTST(2024)、iTransformer(2023)、DLinear(2023)、PatchTST(2022)、TimesNet(2022)、Stationary(2022)、Autoformer(2021)等。
為避免過度調參,實驗基于 Timer-XL 的上下文靈活性,在每個數據集上只訓練一個模型,基于滾動預測進行多種預測長度下的效果評估。
Timer-XL 在多變量預測中取得了更好的平均結果,證明了其無需針對不同預測長度分別訓練,也能夠獲得高準確性預測結果的能力。

多變量時序預測,多個預測長度下的平均效果
此外,在單變量預測、自動站時空預測、協變量預測以及多變量預訓練等預測場景中,Timer-XL 相較主流深度預測模型均取得了性能提升。
單變量長上下文預測:相比 PatchTST,Timer-XL 模型更適配上下文場景
時空預測:Timer-XL 模型預測效果達到了 SOTA 水平(State-of-the-Art,在該領域當前達到的最佳性能水平)
協變量預測:Timer-XL 表現優于 SOTA 水平的專門化模型
多變量預訓練:Timer-XL 基于萬億大規模工業物聯網領域的時序數據集進行預訓練,因此具有更強的泛化性能,可以在訓練集之外的數據集保持高可靠性

其余預測場景實驗結果
(2) 零樣本時序預測
我們使用 UTSD,LoSTA 等公開時序數據針對 Timer-XL 和其他時序大模型進行了大規模預訓練,在零樣本預測任務(使用預訓練模型在分布外數據上直接預測)中進行對比。與 Timer-XL 對比的時序大模型包括 Time-MoE(2024)、Moiria(2024)、Chronos(2024)、Moment(2024)、TimesFM(2023)。
因為預訓練規模以及上下文長度的增長,Timer-XL 的零樣本預測效果相較其他模型取得了顯著提升,說明 Timer-XL 模型的特征提取能力和泛化使用能力都非常強大,也驗證了時序模型的規模定律。

零樣本時序預測結果
(3) 模型分析
重歸一化
以往普遍采用的窗口重歸一化技術會隨著輸入上下文的變長逐漸退化。實驗表明,在長上下文預測任務中(Lookback Length > 1k)采用重歸一化技術還會導致 Transformer 預測模型效果劣化。相比之下,采用 Decoder-Only 結構+不使用重歸一化的模型能夠取得更好的預測效果。

重歸一化對長上下文預測效果的影響
位置編碼
我們對位置編碼的選擇進行了消融實驗,結果表明合適的位置編碼能夠帶來可觀的效果提升。

位置編碼消融實驗
特征分析
通過對 TimeAttention 的可視化,我們發現模型能夠自動挖掘時序數據中的潛在關聯,如內生變量和外生變量的關聯性以及時序自相關性等。

注意力可視化
針對長上下文預測問題,本文提出了一種通用、靈活、可擴展的時序預測基礎模型。在擴展上下文長度的基礎上,本文著眼于深度預測模型的通用性提升:(1)將下一詞預測適配到不同的變量數以及時間點的數據;(2)擴展預訓練規模,提供開箱即用的時序預測能力。
權威認可并不是創新的終點,未來我們將持續迭代,面向實際預測決策需求,探索深度模型在通用性、泛化性、可靠性方面的提升。
更多內容推薦:
? 下載時序數據庫 IoTDB 開源版
? 咨詢 時序數據庫 IoTDB Timer-XL 模型