[點晴模切ERP][轉(zhuǎn)帖]數(shù)據(jù)遷移工具，用這8種!

當前位置：點晴教程→點晴ERP企業(yè)管理信息系統(tǒng) →『經(jīng)驗分享＆操作答疑』

liguoquan

2023年7月28日 16:54 本文熱度 2408

：數(shù)據(jù)遷移工具，用這8種!

數(shù)據(jù)遷移工具，用這8種!

前言

最近有些小伙伴問我，ETL數(shù)據(jù)遷移工具該用哪些。

ETL(是Extract-Transform-Load的縮寫，即數(shù)據(jù)抽取、轉(zhuǎn)換、裝載的過程)，對于企業(yè)應用來說，我們經(jīng)常會遇到各種數(shù)據(jù)的處理、轉(zhuǎn)換、遷移的場景。

今天特地給大家匯總了一些目前市面上比較常用的ETL數(shù)據(jù)遷移工具，希望對你會有所幫助。

1.Kettle

Kettle是一款國外開源的ETL工具，純Java編寫，綠色無需安裝，數(shù)據(jù)抽取高效穩(wěn)定 (數(shù)據(jù)遷移工具)。

Kettle 中有兩種腳本文件，transformation 和 job，transformation 完成針對數(shù)據(jù)的基礎轉(zhuǎn)換，job 則完成整個工作流的控制。

Kettle 中文名稱叫水壺，該項目的主程序員 MATT 希望把各種數(shù)據(jù)放到一個壺里，然后以一種指定的格式流出。

Kettle 這個 ETL 工具集，它允許你管理來自不同數(shù)據(jù)庫的數(shù)據(jù)，通過提供一個圖形化的用戶環(huán)境來描述你想做什么，而不是你想怎么做。Kettle 家族目前包括 4 個產(chǎn)品：Spoon、Pan、CHEF、Kitchen。

SPOON：允許你通過圖形界面來設計 ETL 轉(zhuǎn)換過程（Transformation）。
PAN：允許你批量運行由 Spoon 設計的 ETL 轉(zhuǎn)換 (例如使用一個時間調(diào)度器)。Pan 是一個后臺執(zhí)行的程序，沒有圖形界面。
CHEF：允許你創(chuàng)建任務（Job）。任務通過允許每個轉(zhuǎn)換，任務，腳本等等，更有利于自動化更新數(shù)據(jù)倉庫的復雜工作。任務通過允許每個轉(zhuǎn)換，任務，腳本等等。任務將會被檢查，看看是否正確地運行了。
KITCHEN：允許你批量使用由 Chef 設計的任務 (例如使用一個時間調(diào)度器)。KITCHEN 也是一個后臺運行的程序。

2.Datax

DataX是阿里云 DataWorks數(shù)據(jù)集成的開源版本，在阿里巴巴集團內(nèi)被廣泛使用的離線數(shù)據(jù)同步工具/平臺。

DataX 是一個異構(gòu)數(shù)據(jù)源離線同步工具，致力于實現(xiàn)包括關系型數(shù)據(jù)庫(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各種異構(gòu)數(shù)據(jù)源之間穩(wěn)定高效的數(shù)據(jù)同步功能。

設計理念：為了解決異構(gòu)數(shù)據(jù)源同步問題，DataX將復雜的網(wǎng)狀的同步鏈路變成了星型數(shù)據(jù)鏈路，DataX作為中間傳輸載體負責連接各種數(shù)據(jù)源。當需要接入一個新的數(shù)據(jù)源的時候，只需要將此數(shù)據(jù)源對接到DataX，便能跟已有的數(shù)據(jù)源做到無縫數(shù)據(jù)同步。

當前使用現(xiàn)狀：DataX在阿里巴巴集團內(nèi)被廣泛使用，承擔了所有大數(shù)據(jù)的離線同步業(yè)務，并已持續(xù)穩(wěn)定運行了6年之久。目前每天完成同步8w多道作業(yè)，每日傳輸數(shù)據(jù)量超過300TB。

DataX本身作為離線數(shù)據(jù)同步框架，采用Framework + plugin架構(gòu)構(gòu)建。將數(shù)據(jù)源讀取和寫入抽象成為Reader/Writer插件，納入到整個同步框架中。

DataX 3.0 開源版本支持單機多線程模式完成同步作業(yè)運行，本小節(jié)按一個DataX作業(yè)生命周期的時序圖，從整體架構(gòu)設計非常簡要說明DataX各個模塊相互關系。DataX 3.0六大核心優(yōu)勢：

可靠的數(shù)據(jù)質(zhì)量監(jiān)控
豐富的數(shù)據(jù)轉(zhuǎn)換功能
精準的速度控制
強勁的同步性能
健壯的容錯機制
極簡的使用體驗

3.DataPipeline

DataPipeline采用基于日志的增量數(shù)據(jù)獲取技術（ Log-based Change Data Capture ），支持異構(gòu)數(shù)據(jù)之間豐富、自動化、準確的語義映射構(gòu)建，同時滿足實時與批量的數(shù)據(jù)處理。

可實現(xiàn) Oracle、IBM DB2、MySQL、MS SQL Server、PostgreSQL、GoldenDB、TDSQL、OceanBase 等數(shù)據(jù)庫準確的增量數(shù)據(jù)獲取。

平臺具備“數(shù)據(jù)全、傳輸快、強協(xié)同、更敏捷、極穩(wěn)定、易維護”六大特性。

在支持傳統(tǒng)關系型數(shù)據(jù)庫的基礎上，對大數(shù)據(jù)平臺、國產(chǎn)數(shù)據(jù)庫、云原生數(shù)據(jù)庫、API 及對象存儲也提供廣泛的支持，并在不斷擴展。

DataPipeline 數(shù)據(jù)融合產(chǎn)品致力于為用戶提供企業(yè)級數(shù)據(jù)融合解決方案，為用戶提供統(tǒng)一平臺同時管理異構(gòu)數(shù)據(jù)節(jié)點實時同步與批量數(shù)據(jù)處理任務，在未來還將提供對實時流計算的支持。

采用分布式集群化部署方式，可水平垂直線性擴展的，保證數(shù)據(jù)流轉(zhuǎn)穩(wěn)定高效，讓客戶專注數(shù)據(jù)價值釋放。

產(chǎn)品特點：

全面的數(shù)據(jù)節(jié)點支持：支持關系型數(shù)據(jù)庫、NoSQL數(shù)據(jù)庫、國產(chǎn)數(shù)據(jù)庫、數(shù)據(jù)倉庫、大數(shù)據(jù)平臺、云存儲、API等多種數(shù)據(jù)節(jié)點類型，可自定義數(shù)據(jù)節(jié)點。
高性能實時處理：針對不同數(shù)據(jù)節(jié)點類型提供TB級吞吐量、秒級低延遲的增量數(shù)據(jù)處理能力，加速企業(yè)各類場景的數(shù)據(jù)流轉(zhuǎn)。
分層管理降本增效：采用“數(shù)據(jù)節(jié)點注冊、數(shù)據(jù)鏈路配置、數(shù)據(jù)任務構(gòu)建、系統(tǒng)資源分配”的分層管理模式，企業(yè)級平臺的建設周期從三到六個月減少為一周。
無代碼敏捷管理：提供限制配置與策略配置兩大類十余種高級配置，包括靈活的數(shù)據(jù)對象映射關系，數(shù)據(jù)融合任務的研發(fā)交付時間從2周減少為5分鐘。
極穩(wěn)定高可靠：采用分布式架構(gòu)，所有組件均支持高可用，提供豐富容錯策略，應對上下游的結(jié)構(gòu)變化、數(shù)據(jù)錯誤、網(wǎng)絡故障等突發(fā)情況，可以保證系統(tǒng)業(yè)務連續(xù)性要求。
全鏈路數(shù)據(jù)可觀測：配備容器、應用、線程、業(yè)務四級監(jiān)控體系，全景駕駛艙守護任務穩(wěn)定運行。自動化運維體系，靈活擴縮容，合理管理和分配系統(tǒng)資源。

4.Talend

Talend (踏藍) 是第一家針對的數(shù)據(jù)集成工具市場的 ETL (數(shù)據(jù)的提取 Extract、傳輸 Transform、載入 Load) 開源軟件供應商。

Talend 以它的技術和商業(yè)雙重模式為 ETL 服務提供了一個全新的遠景。它打破了傳統(tǒng)的獨有封閉服務，提供了一個針對所有規(guī)模的公司的公開的，創(chuàng)新的，強大的靈活的軟件解決方案。

5.DataStage

DataStage，即IBM WebSphere DataStage，是一套專門對多種操作數(shù)據(jù)源的數(shù)據(jù)抽取、轉(zhuǎn)換和維護過程進行簡化和自動化，并將其輸入數(shù)據(jù)集市或數(shù)據(jù)倉庫目標數(shù)據(jù)庫的集成工具，可以從多個不同的業(yè)務系統(tǒng)中，從多個平臺的數(shù)據(jù)源中抽取數(shù)據(jù)，完成轉(zhuǎn)換和清洗，裝載到各種系統(tǒng)里面。

其中每步都可以在圖形化工具里完成，同樣可以靈活地被外部系統(tǒng)調(diào)度，提供專門的設計工具來設計轉(zhuǎn)換規(guī)則和清洗規(guī)則等，實現(xiàn)了增量抽取、任務調(diào)度等多種復雜而實用的功能。其中簡單的數(shù)據(jù)轉(zhuǎn)換可以通過在界面上拖拉操作和調(diào)用一些 DataStage 預定義轉(zhuǎn)換函數(shù)來實現(xiàn)，復雜轉(zhuǎn)換可以通過編寫腳本或結(jié)合其他語言的擴展來實現(xiàn)，并且 DataStage 提供調(diào)試環(huán)境，可以極大提高開發(fā)和調(diào)試抽取、轉(zhuǎn)換程序的效率。

Datastage 操作界面

對元數(shù)據(jù)的支持：Datastage 是自己管理 Metadata，不依賴任何數(shù)據(jù)庫。
參數(shù)控制：Datastage 可以對每個 job 設定參數(shù)，并且可以 job 內(nèi)部引用這個參數(shù)名。
數(shù)據(jù)質(zhì)量：Datastage 有配套用的 ProfileStage 和 QualityStage 保證數(shù)據(jù)質(zhì)量。
定制開發(fā)：提供抽取、轉(zhuǎn)換插件的定制，Datastage 內(nèi)嵌一種類 BASIC 語言，可以寫一段批處理程序來增加靈活性。
修改維護：提供圖形化界面。這樣的好處是直觀、傻瓜式的；不好的地方就是改動還是比較費事（特別是批量化的修改）。

Datastage 包含四大部件：

Administrator：新建或者刪除項目，設置項目的公共屬性，比如權限。
Designer：連接到指定的項目上進行 Job 的設計；
Director：負責 Job 的運行，監(jiān)控等。例如設置設計好的 Job 的調(diào)度時間。
Manager：進行 Job 的備份等 Job 的管理工作。

6.Sqoop

Sqoop 是 Cloudera 公司創(chuàng)造的一個數(shù)據(jù)同步工具，現(xiàn)在已經(jīng)完全開源了。

目前已經(jīng)是 hadoop 生態(tài)環(huán)境中數(shù)據(jù)遷移的首選 Sqoop 是一個用來將 Hadoop 和關系型數(shù)據(jù)庫中的數(shù)據(jù)相互轉(zhuǎn)移的工具，可以將一個關系型數(shù)據(jù)庫（例如：MySQL ,Oracle ,Postgres 等）中的數(shù)據(jù)導入到 Hadoop 的 HDFS 中，也可以將 HDFS 的數(shù)據(jù)導入到關系型數(shù)據(jù)庫中。

他將我們傳統(tǒng)的關系型數(shù)據(jù)庫 | 文件型數(shù)據(jù)庫 | 企業(yè)數(shù)據(jù)倉庫同步到我們的 hadoop 生態(tài)集群中。

同時也可以將 hadoop 生態(tài)集群中的數(shù)據(jù)導回到傳統(tǒng)的關系型數(shù)據(jù)庫 | 文件型數(shù)據(jù)庫 | 企業(yè)數(shù)據(jù)倉庫中。

那么 Sqoop 如何抽取數(shù)據(jù)呢?

首先 Sqoop 去 rdbms 抽取元數(shù)據(jù)。
當拿到元數(shù)據(jù)之后將任務切成多個任務分給多個 map。
然后再由每個 map 將自己的任務完成之后輸出到文件。

7.FineDataLink

FineDataLink是國內(nèi)做的比較好的ETL工具，F(xiàn)ineDataLink是一站式的數(shù)據(jù)處理平臺，具備高效的數(shù)據(jù)同步功能，可以實現(xiàn)實時數(shù)據(jù)傳輸、數(shù)據(jù)調(diào)度、數(shù)據(jù)治理等各類復雜組合場景的能力，提供數(shù)據(jù)匯聚、研發(fā)、治理等功能。

FDL擁有低代碼優(yōu)勢，通過簡單的拖拽交互就能實現(xiàn)ETL全流程。FineDataLink——中國領先的低代碼/高時效數(shù)據(jù)集成產(chǎn)品，能過為企業(yè)提供一站式的數(shù)據(jù)服務，通過快速連接、高時效融合多種數(shù)據(jù)，提供低代碼Data API敏捷發(fā)布平臺，幫助企業(yè)解決數(shù)據(jù)孤島難題，有效提升企業(yè)數(shù)據(jù)價值。

8.canal

canal [kə'næl]，譯意為水道/管道/溝渠，主要用途是基于 MySQL 數(shù)據(jù)庫增量日志解析，提供增量數(shù)據(jù)訂閱和消費。早期阿里巴巴因為杭州和美國雙機房部署，存在跨機房同步的業(yè)務需求，實現(xiàn)方式主要是基于業(yè)務 trigger 獲取增量變更。從 2010 年開始，業(yè)務逐步嘗試數(shù)據(jù)庫日志解析獲取增量變更進行同步，由此衍生出了大量的數(shù)據(jù)庫增量訂閱和消費業(yè)務。

基于日志增量訂閱和消費的業(yè)務包括：

數(shù)據(jù)庫鏡像
數(shù)據(jù)庫實時備份
索引構(gòu)建和實時維護(拆分異構(gòu)索引、倒排索引等)
業(yè)務 cache 刷新
帶業(yè)務邏輯的增量數(shù)據(jù)處理

當前的 canal 支持源端 MySQL 版本包括 5.1.x , 5.5.x , 5.6.x , 5.7.x , 8.0.x。

MySQL master 將數(shù)據(jù)變更寫入二進制日志( binary log, 其中記錄叫做二進制日志事件binary log events，可以通過 show binlog events 進行查看)。
MySQL slave 將 master 的 binary log events 拷貝到它的中繼日志(relay log)。
MySQL slave 重放 relay log 中事件，將數(shù)據(jù)變更反映它自己的數(shù)據(jù)。

canal 工作原理：

canal 模擬 MySQL slave 的交互協(xié)議，偽裝自己為 MySQL slave ，向 MySQL master 發(fā)送dump 協(xié)議
MySQL master 收到 dump 請求，開始推送 binary log 給 slave (即 canal )
canal 解析 binary log 對象(原始為 byte 流)

點晴模切ERP更多信息：http://moqie.clicksun.cn，聯(lián)系電話：4001861886

該文章在 2023/7/28 16:54:11 編輯過

關鍵字查詢

數(shù)據(jù)

遷移

正在查詢...