WhaleStudio 2.6正式發(fā)布,WhaleTunnel同步性能與連接器數(shù)量再創(chuàng)新高!


中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)   時(shí)間:2024-07-02





在這個(gè)數(shù)據(jù)驅(qū)動(dòng)的大模型時(shí)代,數(shù)據(jù)集成的作用和意義愈發(fā)重要。數(shù)據(jù)不僅僅是信息的載體,更是推動(dòng)企業(yè)決策和創(chuàng)新的關(guān)鍵因素。作為全球最流行的批流一體數(shù)據(jù)集成工具,WhaleTunnel隨著WhaleStudio??2.6版本正式發(fā)布,帶來(lái)了多項(xiàng)功能增強(qiáng)和新特性,性能大幅提升,連接器和功能方面也有大量更新。

上周,關(guān)于數(shù)據(jù)調(diào)度平臺(tái)WhaleScheduler的更新狀況在《WhaleStudio 2.6重磅發(fā)布!調(diào)度模塊WhaleScheduler更新78項(xiàng)核心功能》中已有介紹,點(diǎn)擊鏈接了解詳情。

WhaleTunnel

WhaleTunnel是基于白鯨開源主導(dǎo)的Apache?? SeaTunnel之上精心打磨的商業(yè)級(jí)的數(shù)據(jù)集成工具,擁有數(shù)據(jù)傳輸速度快、準(zhǔn)確率高、穩(wěn)定性強(qiáng)等技術(shù)特點(diǎn),幫助企業(yè)完成內(nèi)部EtLT中數(shù)據(jù)集成EtL部分,支持百余種連接器類型,滿足用戶離線全量同步、離線增量同步、實(shí)時(shí)增量同步、變化數(shù)據(jù)捕捉(即CDC)、數(shù)據(jù)庫(kù)同步備份等需求??焖佼a(chǎn)品以代碼形式面向數(shù)據(jù)開發(fā)工程師以及任何需要數(shù)據(jù)集成服務(wù)的用戶,同時(shí)也提供可視化拖拽界面給數(shù)據(jù)科學(xué)家、數(shù)據(jù)分析師、產(chǎn)品經(jīng)理等業(yè)務(wù)用戶,支持全流程可視化的任務(wù)定義、調(diào)用、監(jiān)控和管理。

數(shù)據(jù)源更新(部分)

2.6版本新增了多種數(shù)據(jù)源,數(shù)據(jù)源支持?jǐn)?shù)量已經(jīng)達(dá)到了188個(gè),部分增加的數(shù)據(jù)源如下:

信創(chuàng)ARM CPU優(yōu)化

在WhaleTunnel 2.6版本當(dāng)中,Zeta Engine針對(duì)以ARM內(nèi)核的CPU進(jìn)行了引擎層面的深度優(yōu)化,性能提升數(shù)倍(相關(guān)性能POC報(bào)告后續(xù)發(fā)布)。

1.內(nèi)存映射文件和零拷貝技術(shù): 為了最大限度地減少I/O開銷,Zeta Engine采用了內(nèi)存映射(mmap)技術(shù)和零拷貝(zero-copy)技術(shù),直接在內(nèi)存中操作文件數(shù)據(jù)。這樣不僅加快了數(shù)據(jù)處理速度,還降低了系統(tǒng)資源的消耗。

2.內(nèi)存對(duì)齊:Zeta Engine確保數(shù)據(jù)結(jié)構(gòu)在內(nèi)存中的對(duì)齊性,有效減少了內(nèi)存訪問(wèn)的開銷。內(nèi)存對(duì)齊優(yōu)化不僅提高了內(nèi)存訪問(wèn)的效率,還提升了數(shù)據(jù)處理的整體性能。

3.高效算法: Zeta Engine使用了適合ARM架構(gòu)的高效算法,減少不必要的計(jì)算和數(shù)據(jù)移動(dòng)。通過(guò)高效的排序和過(guò)濾算法,顯著提升數(shù)據(jù)轉(zhuǎn)換和處理的效率。Zeta Engine算法優(yōu)化確保了在數(shù)據(jù)密集型任務(wù)中,系統(tǒng)能夠保持卓越的性能。

4.多核架構(gòu)利用: Zeta Engine充分利用ARM CPU的多核架構(gòu),將ETL任務(wù)分解為更小的任務(wù),進(jìn)行多線程或多進(jìn)程并行執(zhí)行。通過(guò)并行化處理,顯著縮短了數(shù)據(jù)處理的時(shí)間,提升了系統(tǒng)的吞吐量。

數(shù)據(jù)模型及自動(dòng)建表能力加強(qiáng)

1.自動(dòng)建表、已有數(shù)據(jù)處理: 除了文件類型的數(shù)據(jù)源外,所有數(shù)據(jù)源現(xiàn)支持自動(dòng)建表。無(wú)論是已有表結(jié)構(gòu)還是已有數(shù)據(jù)處理,WhaleTunnel都能輕松應(yīng)對(duì)。同時(shí),目標(biāo)端支持自定義表名策略。無(wú)需手動(dòng)處理復(fù)雜的表結(jié)構(gòu),極大地減少了數(shù)據(jù)集成的時(shí)間和人工成本。

2.數(shù)據(jù)模型推演:?在任務(wù)保存時(shí)自動(dòng)觸發(fā),自動(dòng)檢查source、transform、sink中的配置是否合法;在任務(wù)重同步表發(fā)生表結(jié)構(gòu)變化時(shí),檢查其變化可能導(dǎo)致的配置項(xiàng)非法問(wèn)題。確保數(shù)據(jù)流的穩(wěn)定性和一致性,減少因配置錯(cuò)誤導(dǎo)致的數(shù)據(jù)同步失敗。在運(yùn)行數(shù)據(jù)集成任務(wù)之前,就可以自動(dòng)識(shí)別潛在的問(wèn)題并提前修復(fù)。

3.數(shù)據(jù)類型自動(dòng)映射: 數(shù)據(jù)源到目標(biāo)端的數(shù)據(jù)類型自動(dòng)映射。自動(dòng)適配不同的數(shù)據(jù)類型,減少手動(dòng)調(diào)整的麻煩。從不同數(shù)據(jù)庫(kù)遷移數(shù)據(jù)時(shí),無(wú)需擔(dān)心類型不匹配的問(wèn)題。

與WhaleScheduler全面集成

1、增量同步和參數(shù)傳遞:?? WhaleTunnel與WhaleScheduler緊密集成,根據(jù)調(diào)度中的日歷、業(yè)務(wù)日期(牌)以及上下游參數(shù)進(jìn)行增量同步或者參數(shù)傳遞來(lái)進(jìn)行數(shù)據(jù)內(nèi)容控制,進(jìn)一步提高數(shù)據(jù)同步的靈活性和準(zhǔn)確性。例如,在券商監(jiān)管報(bào)表生成時(shí),能夠自動(dòng)獲取符合上報(bào)規(guī)則交易日期的數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性。

2、獨(dú)立同步調(diào)度任務(wù)組件: WhaleTunnel擁有獨(dú)立的CDC實(shí)時(shí)調(diào)度組件和批量調(diào)度組件,可以在WhaleScheduler成為獨(dú)立任務(wù)組件被上下游進(jìn)行觸發(fā)等工作,實(shí)現(xiàn)更靈活的任務(wù)調(diào)度和管理。在數(shù)據(jù)集成后,進(jìn)行相關(guān)數(shù)據(jù)加工,或者自定義微批任務(wù),實(shí)現(xiàn)微批任務(wù)的串行等待等。

3.增量數(shù)據(jù)參數(shù)傳遞: 離線全量Source支持根據(jù)自定義where條件讀取,可以使用調(diào)度傳遞的參數(shù)變量實(shí)現(xiàn)增量數(shù)據(jù)參數(shù)傳遞,精準(zhǔn)控制數(shù)據(jù)同步范圍,實(shí)現(xiàn)增量/批量/微批的多場(chǎng)景控制,提升整體數(shù)據(jù)批量和CDC實(shí)時(shí)處理能力。

加強(qiáng)可觀測(cè)性與監(jiān)控告警

1、離線同步新增支持失敗、超時(shí)告警, 提前預(yù)警潛在問(wèn)題,減少數(shù)據(jù)同步失敗帶來(lái)的影響。舉例來(lái)說(shuō),在夜間批處理任務(wù)中,能夠及時(shí)發(fā)現(xiàn)并處理異常,確保數(shù)據(jù)同步的順利進(jìn)行。

2、實(shí)時(shí)同步新增失敗告警、實(shí)時(shí)同步新增DDL變更事件告警:實(shí)時(shí)監(jiān)控?cái)?shù)據(jù)同步狀態(tài),快速響應(yīng)和處理異常情況。例如,電商平臺(tái)可以及時(shí)發(fā)現(xiàn)和修正訂單數(shù)據(jù)同步中的問(wèn)題,確保業(yè)務(wù)的連續(xù)性,可以讓用戶快速收到DDL變更情況,從而更早的手工干預(yù)。

通過(guò)虛擬表支持非結(jié)構(gòu)化數(shù)據(jù)可視化轉(zhuǎn)化

1.文件數(shù)據(jù)源: 新增支持 CSV文件類型以壓縮格式讀寫,支持讀取時(shí)跳過(guò)表頭和寫入時(shí)寫入表頭設(shè)置,支持新的文件格式:DBF, Debezium-Json, 更靈活地處理不同格式的文件數(shù)據(jù),提高數(shù)據(jù)導(dǎo)入導(dǎo)出的效率。

2.No-SQL數(shù)據(jù)源支持: 創(chuàng)建虛擬表時(shí)支持配置主鍵,且sink自動(dòng)建表時(shí)使用該主鍵建表,提高數(shù)據(jù)一致性和查詢效率。例如,在處理NoSQL數(shù)據(jù)時(shí),可以更好地管理和索引數(shù)據(jù)。

3.虛擬表支持設(shè)置索引

4.HTTP數(shù)據(jù)源虛擬表優(yōu)化: 優(yōu)化數(shù)據(jù)源和虛擬表配置,token、路徑、請(qǐng)求參數(shù)等支持填寫參數(shù)變量,更靈活地集成和管理HTTP數(shù)據(jù)源,提高數(shù)據(jù)獲取的靈活性和效率。

CDC同步增強(qiáng)功能

1.唯一索引表同步: CDC同步源表現(xiàn)支持擁有唯一索引的表同步,確保數(shù)據(jù)的唯一性和完整性。例如,在用戶信息同步時(shí),可以確保用戶ID的唯一性,避免數(shù)據(jù)重復(fù)和沖突。

2.無(wú)主鍵表同步: CDC同步源表支持無(wú)主鍵表的同步,提供更廣泛的數(shù)據(jù)同步支持,適應(yīng)更多樣化的數(shù)據(jù)庫(kù)設(shè)計(jì)。例如,在某些歷史數(shù)據(jù)表中,可能沒有主鍵的設(shè)計(jì),但仍然可以實(shí)現(xiàn)高效的數(shù)據(jù)同步。

小結(jié)

WhaleTunnel?? 2.6版本功能非常強(qiáng)大,涵蓋了從數(shù)據(jù)模型設(shè)計(jì)、自動(dòng)化建表,到高效的數(shù)據(jù)同步和監(jiān)控告警,以及多樣化的數(shù)據(jù)源支持。無(wú)論您的數(shù)據(jù)集成需求是簡(jiǎn)單的數(shù)據(jù)傳輸還是復(fù)雜的實(shí)時(shí)分析,WhaleTunnel都能為您提供定制化的解決方案,幫助您實(shí)現(xiàn)數(shù)據(jù)驅(qū)動(dòng)的業(yè)務(wù)成功。

我們期待與您一同迎接數(shù)據(jù)集成的新時(shí)代!如果您對(duì)WhaleTunnel 2.6版本有任何疑問(wèn)或想了解更多信息,請(qǐng)隨時(shí)聯(lián)系我們的客戶服務(wù)團(tuán)隊(duì)。感謝您對(duì)WhaleTunnel的信任和支持!

白鯨開源

白鯨開源是一家開源原生的DataOps商業(yè)公司,是國(guó)家高新技術(shù)企業(yè),由多個(gè)Apache??Foundation Member成立,80%員工都是 Apache??Committer,運(yùn)營(yíng)2個(gè)全球Apache開源項(xiàng)目(DolphinScheduler,??SeaTunnel)。白鯨開源已根據(jù)全球最佳實(shí)踐發(fā)布商業(yè)版產(chǎn)品WhaleStudio(含白鯨數(shù)據(jù)調(diào)度平臺(tái)WhaleScheduler和白鯨數(shù)據(jù)集成平臺(tái)WhaleTunnel)。我們致力于打造下一代開源原生的DataOps?? 平臺(tái),助力企業(yè)在大數(shù)據(jù)和云時(shí)代,智能化地完成多數(shù)據(jù)源、多云及信創(chuàng)環(huán)境的數(shù)據(jù)集成、調(diào)度開發(fā)和治理,以提高企業(yè)解決數(shù)據(jù)問(wèn)題的效率,提升企業(yè)分析洞察能力和決策能力。

如果您希望深入了解我們的其他功能,或者討論如何將 WhaleStudio 與你的業(yè)務(wù)流程相結(jié)合,我們非常愿意為你提供幫助。歡迎您首先試用白鯨調(diào)度系統(tǒng)(WhaleScheduler),開始您的大數(shù)據(jù)之旅。


  轉(zhuǎn)自:中國(guó)網(wǎng)

  【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品,轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”,違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊,僅代表作者個(gè)人觀點(diǎn),不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系:010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高 上半年汽車工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

?

版權(quán)所有:中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)京ICP備11041399號(hào)-2京公網(wǎng)安備11010502035964