首頁
>
資源
>
會議活動

開源人物—IoTDB喬嘉林:征服工業(yè)互聯網數據

轉自 PowerData 官方,原稿撰寫者:PD 韓立

專欄導語

從具有深遠意義的偉大的 GNU 計劃伊始,開源事業(yè)便如同星星之火,以燎原之勢在科技領域不斷發(fā)展壯大。在這一波瀾壯闊的發(fā)展歷程中,其中涌現出了諸多家喻戶曉的開源人物,他們宛如璀璨的星辰,各自憑借著精湛獨特的自身的技能,堅定不移地推動著開源事業(yè)向著更高、更遠的方向大步邁進。此外,還有眾多如同繁星般在開源社區(qū)中默默耕耘的開發(fā)者們,他們有的像是專注于特定領域的專家,精心鉆研特定領域的開源項目開發(fā),為這些領域帶來了前所未有的創(chuàng)新和突破;有的則像是勤勞的守護者,積極參與開源項目的維護和改進,為開源項目的穩(wěn)定運行保駕護航。正是這些開源人物們齊心協力,以自己的滿腔熱血和專業(yè)技能,編織了一張緊密而又充滿活力的開源之網,持續(xù)不斷地拓展著開源事業(yè)那廣袤無垠的邊界,讓開源事業(yè)在人類科技發(fā)展的長河中熠熠生輝。

我們希望通過《開源人物》這一欄目,能夠搭建一個連接開源愛好者、貢獻者和領導者的平臺,讓更多人了解開源文化,參與開源項目,共同推動開源生態(tài)的發(fā)展。

本期人物

IoTDB 開源社區(qū) PMC — 喬嘉林,江湖人稱鐵頭喬。天謀科技聯合創(chuàng)始人 & CTO、Apache IoTDB PMC 及初創(chuàng)成員、清華大學博士、中國通信學會開源技術專委會委員、學術秘書。從頭參與建設物聯網時序數據管理領域的首個 Apache 頂級項目 Apache IoTDB,及第二個頂級項目 TsFile。獲 Apache Member(Apache 基金會委員)、中國開源先鋒人物、清華大學水木學者、開放原子基金會銀牌講師,并作為 10 位基礎軟件的領軍人物之一,榮獲 2023 優(yōu)秀軟件工程師。相關成果獲北京市科技進步獎一等獎。

PowerData喬老師采訪圖1-20241218.jpg

IoTDB 源于清華大學團隊成員參與國家 863 計劃的課題,2011 年在課題中嘗試使用開源技術管理海量機器數據,發(fā)現了現有時序數據管理技術的瓶頸并確定研發(fā)方向。

2015 年,團隊成員正式啟動“清華 IoTDB”研制,并發(fā)布了第一個版本,標志著從技術原型向軟件產品邁進,并在國家重點研發(fā)計劃支持下開始在金風科技等企業(yè)進行技術驗證。

2018 年,經 Apache 軟件基金會公開投票,IoTDB 正式成為 Apache 旗下孵化器項目,成為我國高校目前唯一主導發(fā)起的 Apache 項目,吸引了來自德國、美國、澳大利亞等國際開源與物聯網界人士的關注并參與指導孵化,并于 2020 年畢業(yè)成為 Apache 軟件基金會的全球頂級項目(TLP)。

在項目良性發(fā)展的背景下,天謀科技于 2021 年成立,旨在繼續(xù)參與開源社區(qū)建設的同時,為全球用戶提供更專業(yè)、更穩(wěn)定的技術服務與時序數據解決方案。

踏上開源之路

PowerData:喬老師,您當初是如何踏上開源之路的?

喬嘉林:我在 2016 年到清華大學讀博士,師從團隊帶頭人王建民教授,也開始了我的博士生涯。我們從數據庫最底層的文件格式開始研究,在 2016 年開發(fā)出了首個高壓縮時序數據標準文件格式 TsFile,并在此基礎上繼續(xù)研發(fā)時序數據庫 IoTDB。

隨著國家對開源模式的鼓勵支持,同時學習國外 Berkeley、MIT 等大學的成功經驗,團隊向學校科研院申報,也獲得了學校領導的支持,要在國際上建設中國的技術影響力,于是團隊將項目開源到了 Apache 軟件基金會,成為了第一個國內高校主導的 Apache 頂級項目。

PowerData喬老師采訪圖2-20241218.jpg

作為項目的初始貢獻者,在項目進入 Apache 基金會時,也成為了項目管理委員會成員 PMC,開始踏上了開源之路。

IoTDB 項目“簡史”

PowerData:IoTDB 項目是如何成長起來的呢?

喬嘉林:在 Apache 社區(qū)項目導師的指導下,我對如何建設一個好的開源社區(qū)的理解也在不斷深入,從單純的公開代碼,到建設一個開源社區(qū)還是有不少事情要走。但是總結起來也簡單,核心就是兩件事,一個是吸引用戶,一個是吸引貢獻者。

吸引用吸引用戶需要我們建設好用戶手冊、使用教程,讓用戶用得好。所以我開始寫一些技術博客和教程,并且創(chuàng)建了公眾號和微信群,讓大家能找到我們進行技術交流。在這個過程中,會有社區(qū)用戶希望在他們的項目實際使用中得到一些技術支持,對于這種情況,我們的策略是積極響應,不管是使用答疑、系統(tǒng)運維、bug 反饋、性能優(yōu)化等,都第一時間解決。很多用戶也成為了 IoTDB 的粉絲,幫忙進行宣傳推廣。

就這樣,通過開源社區(qū)接觸到了很多國內的工業(yè)用戶,覆蓋電廠、鋼鐵廠、化工廠、軌道交通等各行各業(yè)。雖然當時我們大部分人還是學生,但是通過開源,我們已經服務了數十家工業(yè)企業(yè),收獲了很多用戶的好評和鼓勵,也深刻感受到了我們所做的數據庫是如何為我國的工業(yè)用戶解決痛點問題的。

吸引貢獻者方面,就是讓開發(fā)者能參與進來,尤其是一款數據庫系統(tǒng)軟件,上手開發(fā)的難度是比較大的,這里就需要有良好的設計文檔,找到適合上手的任務,充分的溝通。在這個過程中,我們組織了 PMC 零距離等活動,一對一進行交流,只有充分交流,大家才能成為一個開發(fā)團隊。

在 IoTDB 的分布式研發(fā)方面,華為、用友、阿里、東方國信、360、京東等多家企業(yè),都有團隊和我們一起聯合研發(fā),大家在不同的模塊進行分工協作,在短短半年時間就完成了從單機架構到分布式架構的設計和初版開發(fā)。

也是在這個過程中,IoTDB 社區(qū)凝聚了一批核心成員,大家熱衷于 IoTDB 的演進和推廣,IoTDB 成為了社區(qū)的紐帶,而我也希望能讓 IoTDB 能夠長期為社區(qū)服務,因此選擇了創(chuàng)業(yè)這條路。

PowerData喬老師采訪圖3-20241218.jpg

維護開放社區(qū)

PowerData:如何更好地收集和響應社區(qū)對于項目發(fā)展的各種需求和建議?在確定項目的發(fā)展方向和功能規(guī)劃時,社區(qū)的聲音在其中占據怎樣的權重?

喬嘉林:IoTDB 的核心代碼均開源,可以說,80% 的迭代都是為了滿足社區(qū)用戶需求,包括功能迭代、性能提升等。我們有專人在用戶群進行技術支持,把用戶的問題進行匯總記錄,對于用戶廣泛關心的功能,會進行場景需求的詳細挖掘。理清需求是數據庫應該支持的功能,同時應該實現在數據庫上層應用的邏輯,也幫助用戶在使用時具備良好的理念。

產學研融合

PowerData:作為在清華發(fā)起的開源項目,學校對 IoTDB 投入了哪些支持?

喬嘉林:通常學校是很少做這種大型系統(tǒng)軟件的,而清華軟院的教學理念是“做能用、管用、好用的軟件”,希望讓大家在真刀真槍的實踐中學習軟件技術,IoTDB 就是在數據庫方向上的一個完美戰(zhàn)場。學校的投入主要有 2 個方面:

? 人力投入:有長期穩(wěn)定的教師和研究生隊伍、數據庫技術專家、工程師進行參與。

? 場景投入:除開源外,學校和行業(yè)龍頭企業(yè)進行聯合研發(fā),為 IoTDB 提供真實場景、需求,以及公司化團隊的加入,如華為、中冶賽迪、東方國信等。

好用的軟件一方面靠設計,一方面靠場景打磨,學校也是在這兩個方面進行持續(xù)投入,才孕育出了這樣一個系統(tǒng)。

深化高校力量

PowerData:IoTDB 社區(qū)是如何驅動大學生們來參與開源貢獻的?

喬嘉林:IoTDB 在去年作為時序數據庫的典型代表進入了國家級規(guī)劃教材《數據庫系統(tǒng)概論(第六版)》,大學生在課堂上就能夠了解到 IoTDB 的技術架構和設計理念。從而找到 IoTDB 的社區(qū)進行參與。此外,IoTDB 廣泛參與 Apache 開源年會、中國開源年會、開源之夏等大型開源活動,宣傳開源理念和時序數據庫技術。

PowerData喬老師采訪圖4-20241218.jpg

高標準持續(xù)前行

PowerData:在項目發(fā)展以及開源商業(yè)化的過程中,清華的背書給 IoTDB 帶來了哪些加成?

喬嘉林:我在入學后聽到過一個故事《北京密云水庫,是 60 年前清華大學水利系學生的畢業(yè)設計作品》,印象很深刻。

清華作為我國的頂尖學府,除培養(yǎng)人才外,也在為社會各行各業(yè)的發(fā)展做出落地貢獻。因此,作為發(fā)源自清華的 IoTDB,自然也承擔了大家的高預期和嚴要求,也讓我們始終記住行勝于言,多做少說,優(yōu)先把產品做好的理念。

“物聯網原生”數據庫

PowerData:您認為工業(yè)大數據處理的特點是什么,針對于其他行業(yè)有什么不同,以及 IoTDB 做了哪些對應的優(yōu)化?

喬嘉林:相比于傳統(tǒng)關系數據庫的場景,工業(yè)大數據具備幾個特點:

? 超高產生速度,且數據幾乎不修改,每個數據點都是對客觀世界某個時刻的真實反應:IoTDB 為時序數據場景設計了高性能的數據庫引擎,采用列式存儲、高效壓縮等,能夠提供千萬級每秒的讀寫速度。

? 文件和數據庫同等重要,工業(yè)領域廣泛使用文件進行數據存儲和遷移:我們設計了可獨立使用的列式存儲時序數據文件格式 TsFile,能夠在單個文件中高效管理海量時間序列,無需考慮不同序列采集頻率不同的問題。并且 IoTDB 底層數據文件格式也使用 TsFile。

? 數據的采集、處理、分析會跨越端邊云,需要進行數據的高效遷移:TsFile 和 IoTDB 采用了可插拔架構,類似 U 盤和電腦的模式,無需對數據進行重復讀寫,僅通過索引即可完成文件的裝卸,將數據文件從數據庫中徹底解放出來,將數據遷移發(fā)揮到極致。

? 工業(yè)不同場景對時序數據的應用不同,使用模式也不同,需要不同的視圖:IoTDB 提供了面向監(jiān)控領域的測點管理模型,近期也提供了面向分析場景的設備管理模型,一份數據,通過不同視角進行使用和分析,打通 OT、IT 間的數據共享。

保障開源安全

PowerData:在各類開源軟件盛行的今天,關于開源技術安全的問題您是如何看待的,在這方面 IoTDB 社區(qū)做了哪些工作?

喬嘉林:開源軟件的流行和廣泛使用,依賴其良好設計的開源協議,IoTDB 作為 Apache 基金會的一員,采用商業(yè)友好的 Apache License 2.0。在 Apache 基金會的規(guī)范下,對代碼質量、軟件依賴和漏洞進行了嚴格的管理。

邁向國際化建設

PowerData:如今國內一些開源軟件都在針對海外市場采取一些動作,那 IoTDB 社區(qū)在國際化建設這塊兒目前開展的怎么樣呢?

喬嘉林:IoTDB 作為 Apache 基金會的頂級項目,借助 Apache 社區(qū)的影響力和背書,吸引了國際參與者的加入。我們的社區(qū)匯聚了來自世界各地的開發(fā)者,他們帶來了多元化的視角和寶貴的經驗,這些國際參與者的加入不僅豐富了社區(qū)的多樣性,也極大地推動了 IoTDB 在全球范圍內的成長與發(fā)展。

未來規(guī)劃

PowerData:IoTDB 在一位位開源貢獻者的灌溉下,從一顆小樹幼苗茁壯成長為參天大樹,對于 IoTDB 未來的發(fā)展,社區(qū)有哪些規(guī)劃?

喬嘉林:IoTDB 會繼續(xù)加強生態(tài)建設和分析能力,讓數據的導入和分析更加便捷。此外,會加強時序文件 TsFile 的建設和推廣,能夠深入端、匯入云,成為未來時序數據管理的基礎支撐。

作為一個高校發(fā)布并成長為 Apache 基金會頂級開源項目,IoTDB 為國內高校在開源教育方面樹立了一個典范。它不僅展示了高校在前沿技術研發(fā)領域的深厚潛力與卓越實力,更彰顯了學術研究成果向實際生產力轉化的高效路徑。其成功激勵著更多高校科研團隊積極投身于開源項目的探索與實踐,鼓勵師生們突破傳統(tǒng)學術研究的局限,將目光聚焦于具有廣泛應用前景和社會影響力的技術創(chuàng)新。

喬老師作為該項目的 PMC,從技術創(chuàng)新貢獻到社區(qū)運營發(fā)展,每一步他都參與其中。如今 IoTDB 正以其優(yōu)越的性能逐步占領時序數據庫的市場,讓我們拭目以待,喬老師帶著他的產品征服工業(yè)互聯網的數據吧。