1.客戶需求
新華社多媒體數(shù)據(jù)庫中的數(shù)據(jù)資源超過1.5億條,如何更好使用和盤活這些數(shù)據(jù)資產(chǎn),使之轉(zhuǎn)化為新的生產(chǎn)力,服務(wù)于新華社戰(zhàn)略轉(zhuǎn)型,是新時期新華社信息化建設(shè)的一個歷史使命?,F(xiàn)有的文本檢索系統(tǒng)檢索精度差,基于規(guī)則的靜態(tài)分詞不適應(yīng)業(yè)務(wù)發(fā)展需要。同時,對于歷史新聞數(shù)據(jù)的語義分析,新聞文檔對象之間的關(guān)系理解,都需要借助新的技術(shù)手段予以實現(xiàn)。另外,對于多語言的分析處理,海量多媒體資源(圖像,音視頻)識別和標引的需求也亟待被滿足。
從業(yè)務(wù)角度上看,新華社業(yè)務(wù)種類的日益豐富,原有的IT系統(tǒng)已顯露出諸多的不足和問題,難以對新業(yè)務(wù)和新的需求進行快速的響應(yīng)和有力的支撐。另外,隨著新華社新聞稿件半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)的日益增長,信息管理平臺應(yīng)用已面臨著數(shù)據(jù)備份恢復(fù)時間長、運維成本高、存儲彈性擴展能力差、存儲成本高、無法滿足業(yè)務(wù)多維查詢的問題;文檔服務(wù)平臺存在海量歷史數(shù)據(jù)離線檢索不便、數(shù)據(jù)備份恢復(fù)時間長的問題。同時,隨著近年來業(yè)務(wù)的發(fā)展,產(chǎn)生了結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)整合存儲與聯(lián)動查詢的新需求。
2.解決方案
天迪工控大數(shù)據(jù)一體機在解決如上問題和新需求方面較傳統(tǒng)技術(shù)手段更有優(yōu)勢,并具備現(xiàn)實可行性。非結(jié)構(gòu)化數(shù)據(jù)分析采用XData-hadoop,結(jié)構(gòu)化數(shù)據(jù)分析采用XData并行數(shù)據(jù)庫,系統(tǒng)架構(gòu)如圖:
3.客戶收益
1) 對各應(yīng)用系統(tǒng)進行整合,避免之前的獨立建設(shè)造成的IT資源浪費;
2) 實現(xiàn)了音像資料、金融信息的共享,能夠很好地滿足新媒體發(fā)展和全媒體融合的需要;
3) 基于標準規(guī)范構(gòu)建的多媒體數(shù)據(jù)庫數(shù)據(jù)共享服務(wù),實現(xiàn)了系統(tǒng)間數(shù)據(jù)復(fù)用功能;
4) 能夠很好地滿足新華社對結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)整合存儲與聯(lián)動查詢的新需求;
5) 架構(gòu)上采用松耦合的技術(shù)原則,能夠?qū)崿F(xiàn)系統(tǒng)的靈活擴展;
6) 平臺針對不同子系統(tǒng)的需求特點,選用合適的技術(shù),能夠突破性能瓶頸提升單臺設(shè)備的處理性能;
7) 系統(tǒng)具備良好的擴展能力,能夠在適應(yīng)當(dāng)前需求的基礎(chǔ)上盡量為將來可預(yù)見和不可預(yù)見的功能、性能擴充留有余地;
8) 新功能、新業(yè)務(wù)的增加能夠在不影響系統(tǒng)運行的情況下實現(xiàn);
9) 系統(tǒng)采用HA、負載勻衡、云計算虛擬化、副本式存儲計算冗余等技術(shù),從系統(tǒng)級、設(shè)備級和業(yè)務(wù)級等多個層面進行高可用設(shè)計;
10)有全面、完善、便捷、統(tǒng)一的網(wǎng)管系統(tǒng)和網(wǎng)絡(luò)性能監(jiān)控系統(tǒng),支持多種故障報警,一旦發(fā)生問題能夠在最短的時間內(nèi)處理解決。