1、通過各軟件廠商開放數(shù)據(jù)接口,實現(xiàn)不同軟件數(shù)據(jù)的互聯(lián)互通。這是目前最為常見的一種數(shù)據(jù)對接方式。
2、優(yōu)勢:接口對接方式的數(shù)據(jù)可靠性與價值較高,一般不存在數(shù)據(jù)重復(fù)的情況;數(shù)據(jù)可通過接口實時傳輸,滿足數(shù)據(jù)實時應(yīng)用要求。
3、缺點:①接口開發(fā)費用高;②需協(xié)調(diào)多個軟件廠商,工作量大且容易爛尾;③可擴展性不高,如:由于新業(yè)務(wù)需要各軟件系統(tǒng)開發(fā)出新的業(yè)務(wù)模塊,其和大數(shù)據(jù)平臺之間的數(shù)據(jù)接口也需做相應(yīng)修改和變動,甚至要推翻以前的所有數(shù)據(jù)接口編碼,工作量大、耗時長。
4、軟件機器人是目前比較前沿的軟件數(shù)據(jù)對接技術(shù),即能采集客戶端軟件數(shù)據(jù),也能采集網(wǎng)站網(wǎng)站中的軟件數(shù)據(jù)。
5、常見的是博為小幫軟件機器人,產(chǎn)品設(shè)計原則為“所見即所得”,即不需要軟件廠商配合的情況下,采集軟件界面上的數(shù)據(jù),輸出的結(jié)果是結(jié)構(gòu)化的數(shù)據(jù)庫或者excel表。
6、如果只需要界面上的業(yè)務(wù)數(shù)據(jù),或者遇到軟件廠商不配合/倒閉、數(shù)據(jù)庫分析困難的情況下, 利用軟件機器人采集數(shù)據(jù)更可取,尤其是詳情頁數(shù)據(jù)的采集功能比較有特色。
7、技術(shù)特點如下:①無需原軟件廠商配合;②兼容性強,可采集匯聚Windows平臺各種軟件系統(tǒng)數(shù)據(jù);③輸出結(jié)構(gòu)化數(shù)據(jù);④即配即用,實施周期短、簡單高效;⑤配置簡單,不用編程,每個人都可以DIY一個軟件機器人;⑥價格相對人工和接口,降低不少。
8、缺點:采集軟件數(shù)據(jù)的實時性有一定限制。
9、網(wǎng)絡(luò)爬蟲是模擬客戶端發(fā)生網(wǎng)絡(luò)請求,接收請求響應(yīng),一種按照一定的規(guī)則,自動地抓取萬維網(wǎng)信息的程序或者腳本。
10、爬蟲采集數(shù)據(jù)的缺點:①輸出數(shù)據(jù)多為非結(jié)構(gòu)化數(shù)據(jù);②只能采集網(wǎng)站數(shù)據(jù),容易受網(wǎng)站反爬機制影響;③使用人群狹窄,需要有專業(yè)編程知識才能玩轉(zhuǎn)。
11、數(shù)據(jù)的采集融合,開放數(shù)據(jù)庫是最直接的一種方式。
12、優(yōu)勢:開放數(shù)據(jù)庫方式可以直接從目標(biāo)數(shù)據(jù)庫中獲取需要的數(shù)據(jù),準(zhǔn)確性高,實時性也有保證,是最直接、便捷的一種方式。
13、缺點:開放數(shù)據(jù)庫方式也需要協(xié)調(diào)各軟件廠商開放數(shù)據(jù)庫,這需要看對方的意愿,一般出于安全考慮,不會開放;一個平臺如果同時連接多個軟件廠商的數(shù)據(jù)庫,并實時獲取數(shù)據(jù),這對平臺性能也是巨大挑戰(zhàn)。