WhaleStudio 2.6正式發(fā)布,WhaleTunnel同步性能與連接器數(shù)量再創(chuàng)新高!


中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2024-07-02





在這個數(shù)據(jù)驅(qū)動的大模型時(shí)代,數(shù)據(jù)集成的作用和意義愈發(fā)重要。數(shù)據(jù)不僅僅是信息的載體,更是推動企業(yè)決策和創(chuàng)新的關(guān)鍵因素。作為全球最流行的批流一體數(shù)據(jù)集成工具,WhaleTunnel隨著WhaleStudio??2.6版本正式發(fā)布,帶來了多項(xiàng)功能增強(qiáng)和新特性,性能大幅提升,連接器和功能方面也有大量更新。

上周,關(guān)于數(shù)據(jù)調(diào)度平臺WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅發(fā)布!調(diào)度模塊WhaleScheduler更新78項(xiàng)核心功能》中已有介紹,點(diǎn)擊鏈接了解詳情。

WhaleTunnel

WhaleTunnel是基于白鯨開源主導(dǎo)的Apache?? SeaTunnel之上精心打磨的商業(yè)級的數(shù)據(jù)集成工具,擁有數(shù)據(jù)傳輸速度快、準(zhǔn)確率高、穩(wěn)定性強(qiáng)等技術(shù)特點(diǎn),幫助企業(yè)完成內(nèi)部EtLT中數(shù)據(jù)集成EtL部分,支持百余種連接器類型,滿足用戶離線全量同步、離線增量同步、實(shí)時(shí)增量同步、變化數(shù)據(jù)捕捉(即CDC)、數(shù)據(jù)庫同步備份等需求??焖佼a(chǎn)品以代碼形式面向數(shù)據(jù)開發(fā)工程師以及任何需要數(shù)據(jù)集成服務(wù)的用戶,同時(shí)也提供可視化拖拽界面給數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、產(chǎn)品經(jīng)理等業(yè)務(wù)用戶,支持全流程可視化的任務(wù)定義、調(diào)用、監(jiān)控和管理。

數(shù)據(jù)源更新(部分)

2.6版本新增了多種數(shù)據(jù)源,數(shù)據(jù)源支持?jǐn)?shù)量已經(jīng)達(dá)到了188個,部分增加的數(shù)據(jù)源如下:

信創(chuàng)ARM CPU優(yōu)化

在WhaleTunnel 2.6版本當(dāng)中,Zeta Engine針對以ARM內(nèi)核的CPU進(jìn)行了引擎層面的深度優(yōu)化,性能提升數(shù)倍(相關(guān)性能POC報(bào)告后續(xù)發(fā)布)。

1.內(nèi)存映射文件和零拷貝技術(shù): 為了最大限度地減少I/O開銷,Zeta Engine采用了內(nèi)存映射(mmap)技術(shù)和零拷貝(zero-copy)技術(shù),直接在內(nèi)存中操作文件數(shù)據(jù)。這樣不僅加快了數(shù)據(jù)處理速度,還降低了系統(tǒng)資源的消耗。

2.內(nèi)存對齊:Zeta Engine確保數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的對齊性,有效減少了內(nèi)存訪問的開銷。內(nèi)存對齊優(yōu)化不僅提高了內(nèi)存訪問的效率,還提升了數(shù)據(jù)處理的整體性能。

3.高效算法: Zeta Engine使用了適合ARM架構(gòu)的高效算法,減少不必要的計(jì)算和數(shù)據(jù)移動。通過高效的排序和過濾算法,顯著提升數(shù)據(jù)轉(zhuǎn)換和處理的效率。Zeta Engine算法優(yōu)化確保了在數(shù)據(jù)密集型任務(wù)中,系統(tǒng)能夠保持卓越的性能。

4.多核架構(gòu)利用: Zeta Engine充分利用ARM CPU的多核架構(gòu),將ETL任務(wù)分解為更小的任務(wù),進(jìn)行多線程或多進(jìn)程并行執(zhí)行。通過并行化處理,顯著縮短了數(shù)據(jù)處理的時(shí)間,提升了系統(tǒng)的吞吐量。

數(shù)據(jù)模型及自動建表能力加強(qiáng)

1.自動建表、已有數(shù)據(jù)處理: 除了文件類型的數(shù)據(jù)源外,所有數(shù)據(jù)源現(xiàn)支持自動建表。無論是已有表結(jié)構(gòu)還是已有數(shù)據(jù)處理,WhaleTunnel都能輕松應(yīng)對。同時(shí),目標(biāo)端支持自定義表名策略。無需手動處理復(fù)雜的表結(jié)構(gòu),極大地減少了數(shù)據(jù)集成的時(shí)間和人工成本。

2.數(shù)據(jù)模型推演:?在任務(wù)保存時(shí)自動觸發(fā),自動檢查source、transform、sink中的配置是否合法;在任務(wù)重同步表發(fā)生表結(jié)構(gòu)變化時(shí),檢查其變化可能導(dǎo)致的配置項(xiàng)非法問題。確保數(shù)據(jù)流的穩(wěn)定性和一致性,減少因配置錯誤導(dǎo)致的數(shù)據(jù)同步失敗。在運(yùn)行數(shù)據(jù)集成任務(wù)之前,就可以自動識別潛在的問題并提前修復(fù)。

3.數(shù)據(jù)類型自動映射: 數(shù)據(jù)源到目標(biāo)端的數(shù)據(jù)類型自動映射。自動適配不同的數(shù)據(jù)類型,減少手動調(diào)整的麻煩。從不同數(shù)據(jù)庫遷移數(shù)據(jù)時(shí),無需擔(dān)心類型不匹配的問題。

與WhaleScheduler全面集成

1、增量同步和參數(shù)傳遞:?? WhaleTunnel與WhaleScheduler緊密集成,根據(jù)調(diào)度中的日歷、業(yè)務(wù)日期(牌)以及上下游參數(shù)進(jìn)行增量同步或者參數(shù)傳遞來進(jìn)行數(shù)據(jù)內(nèi)容控制,進(jìn)一步提高數(shù)據(jù)同步的靈活性和準(zhǔn)確性。例如,在券商監(jiān)管報(bào)表生成時(shí),能夠自動獲取符合上報(bào)規(guī)則交易日期的數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性。

2、獨(dú)立同步調(diào)度任務(wù)組件: WhaleTunnel擁有獨(dú)立的CDC實(shí)時(shí)調(diào)度組件和批量調(diào)度組件,可以在WhaleScheduler成為獨(dú)立任務(wù)組件被上下游進(jìn)行觸發(fā)等工作,實(shí)現(xiàn)更靈活的任務(wù)調(diào)度和管理。在數(shù)據(jù)集成后,進(jìn)行相關(guān)數(shù)據(jù)加工,或者自定義微批任務(wù),實(shí)現(xiàn)微批任務(wù)的串行等待等。

3.增量數(shù)據(jù)參數(shù)傳遞: 離線全量Source支持根據(jù)自定義where條件讀取,可以使用調(diào)度傳遞的參數(shù)變量實(shí)現(xiàn)增量數(shù)據(jù)參數(shù)傳遞,精準(zhǔn)控制數(shù)據(jù)同步范圍,實(shí)現(xiàn)增量/批量/微批的多場景控制,提升整體數(shù)據(jù)批量和CDC實(shí)時(shí)處理能力。

加強(qiáng)可觀測性與監(jiān)控告警

1、離線同步新增支持失敗、超時(shí)告警, 提前預(yù)警潛在問題,減少數(shù)據(jù)同步失敗帶來的影響。舉例來說,在夜間批處理任務(wù)中,能夠及時(shí)發(fā)現(xiàn)并處理異常,確保數(shù)據(jù)同步的順利進(jìn)行。

2、實(shí)時(shí)同步新增失敗告警、實(shí)時(shí)同步新增DDL變更事件告警:實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)同步狀態(tài),快速響應(yīng)和處理異常情況。例如,電商平臺可以及時(shí)發(fā)現(xiàn)和修正訂單數(shù)據(jù)同步中的問題,確保業(yè)務(wù)的連續(xù)性,可以讓用戶快速收到DDL變更情況,從而更早的手工干預(yù)。

通過虛擬表支持非結(jié)構(gòu)化數(shù)據(jù)可視化轉(zhuǎn)化

1.文件數(shù)據(jù)源: 新增支持 CSV文件類型以壓縮格式讀寫,支持讀取時(shí)跳過表頭和寫入時(shí)寫入表頭設(shè)置,支持新的文件格式:DBF, Debezium-Json, 更靈活地處理不同格式的文件數(shù)據(jù),提高數(shù)據(jù)導(dǎo)入導(dǎo)出的效率。

2.No-SQL數(shù)據(jù)源支持: 創(chuàng)建虛擬表時(shí)支持配置主鍵,且sink自動建表時(shí)使用該主鍵建表,提高數(shù)據(jù)一致性和查詢效率。例如,在處理NoSQL數(shù)據(jù)時(shí),可以更好地管理和索引數(shù)據(jù)。

3.虛擬表支持設(shè)置索引

4.HTTP數(shù)據(jù)源虛擬表優(yōu)化: 優(yōu)化數(shù)據(jù)源和虛擬表配置,token、路徑、請求參數(shù)等支持填寫參數(shù)變量,更靈活地集成和管理HTTP數(shù)據(jù)源,提高數(shù)據(jù)獲取的靈活性和效率。

CDC同步增強(qiáng)功能

1.唯一索引表同步: CDC同步源表現(xiàn)支持擁有唯一索引的表同步,確保數(shù)據(jù)的唯一性和完整性。例如,在用戶信息同步時(shí),可以確保用戶ID的唯一性,避免數(shù)據(jù)重復(fù)和沖突。

2.無主鍵表同步: CDC同步源表支持無主鍵表的同步,提供更廣泛的數(shù)據(jù)同步支持,適應(yīng)更多樣化的數(shù)據(jù)庫設(shè)計(jì)。例如,在某些歷史數(shù)據(jù)表中,可能沒有主鍵的設(shè)計(jì),但仍然可以實(shí)現(xiàn)高效的數(shù)據(jù)同步。

小結(jié)

WhaleTunnel?? 2.6版本功能非常強(qiáng)大,涵蓋了從數(shù)據(jù)模型設(shè)計(jì)、自動化建表,到高效的數(shù)據(jù)同步和監(jiān)控告警,以及多樣化的數(shù)據(jù)源支持。無論您的數(shù)據(jù)集成需求是簡單的數(shù)據(jù)傳輸還是復(fù)雜的實(shí)時(shí)分析,WhaleTunnel都能為您提供定制化的解決方案,幫助您實(shí)現(xiàn)數(shù)據(jù)驅(qū)動的業(yè)務(wù)成功。

我們期待與您一同迎接數(shù)據(jù)集成的新時(shí)代!如果您對WhaleTunnel 2.6版本有任何疑問或想了解更多信息,請隨時(shí)聯(lián)系我們的客戶服務(wù)團(tuán)隊(duì)。感謝您對WhaleTunnel的信任和支持!

白鯨開源

白鯨開源是一家開源原生的DataOps商業(yè)公司,是國家高新技術(shù)企業(yè),由多個Apache??Foundation Member成立,80%員工都是 Apache??Committer,運(yùn)營2個全球Apache開源項(xiàng)目(DolphinScheduler,??SeaTunnel)。白鯨開源已根據(jù)全球最佳實(shí)踐發(fā)布商業(yè)版產(chǎn)品WhaleStudio(含白鯨數(shù)據(jù)調(diào)度平臺WhaleScheduler和白鯨數(shù)據(jù)集成平臺WhaleTunnel)。我們致力于打造下一代開源原生的DataOps?? 平臺,助力企業(yè)在大數(shù)據(jù)和云時(shí)代,智能化地完成多數(shù)據(jù)源、多云及信創(chuàng)環(huán)境的數(shù)據(jù)集成、調(diào)度開發(fā)和治理,以提高企業(yè)解決數(shù)據(jù)問題的效率,提升企業(yè)分析洞察能力和決策能力。

如果您希望深入了解我們的其他功能,或者討論如何將 WhaleStudio 與你的業(yè)務(wù)流程相結(jié)合,我們非常愿意為你提供幫助。歡迎您首先試用白鯨調(diào)度系統(tǒng)(WhaleScheduler),開始您的大數(shù)據(jù)之旅。


  轉(zhuǎn)自:中國網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來源“中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場。版權(quán)事宜請聯(lián)系:010-65363056。

延伸閱讀

?

版權(quán)所有:中國產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號-2京公網(wǎng)安備11010502035964