首頁 資訊 基于HBase健康大數(shù)據(jù)平臺性能優(yōu)化及應用.doc

基于HBase健康大數(shù)據(jù)平臺性能優(yōu)化及應用.doc

來源:泰然健康網(wǎng) 時間:2024年12月26日 00:36

基于HBase健康大數(shù)據(jù)平臺性能優(yōu)化及應用

基于HBase健康大數(shù)據(jù)平臺性能優(yōu)化及應用   摘要:健康大數(shù)據(jù)已被納入國家大數(shù)據(jù)戰(zhàn)略布局,如何能夠收集有效的健康數(shù)據(jù),構建高性能、高可靠性、低成本和具有良好可擴展性的健康大數(shù)據(jù)平臺至關重要。傳統(tǒng)的單純利用Hadoop、HBase無法滿足復雜的業(yè)務需求和實時查詢的要求,同時性能方面也存在一些問題。分析了HBase的底層原理,對HBase的讀寫性能進行優(yōu)化。借助Phoenix提供的SQL接口來操控HBase,可方便對集群和數(shù)據(jù)進行管理。Phoenix針對HBase也提出了一系列優(yōu)化方案。利用HBase和Phoenix的特性構建高性能的健康大數(shù)據(jù)平臺。實驗結果表明,優(yōu)化后的健康大數(shù)據(jù)系統(tǒng)具有更好的讀寫性能,能夠更好地滿足大數(shù)據(jù)發(fā)展需求。   關鍵詞:健康大數(shù)據(jù);HBase;分布式數(shù)據(jù)庫;負載預測   DOIDOI:10.11907/rjdk.171146   中圖分類號:TP319文獻標識碼:文章編號2017)010014604   0引言   通過移動互聯(lián)網(wǎng)、智能設備和物聯(lián)網(wǎng)技術,人們能夠隨時追蹤記錄自己當前的生理健康指標、運動狀況、飲食情況和其它生活習慣,這些數(shù)據(jù)的收集能夠幫助挖掘出更有價值的醫(yī)療信息。然而,技術的發(fā)展仍無法跟上數(shù)據(jù)增長的速度。對于大規(guī)模數(shù)據(jù)的存儲、管理和實時查詢?nèi)匀幻媾R很多問題,同時健康監(jiān)測數(shù)據(jù)也缺乏統(tǒng)一標準,使大量數(shù)據(jù)無法共享利用,這無疑會影響健康監(jiān)測大數(shù)據(jù)的發(fā)展進程。   本文對健康監(jiān)測數(shù)據(jù)的存儲與管理進行研究,根據(jù)健康監(jiān)測數(shù)據(jù)的數(shù)據(jù)表示模型和數(shù)據(jù)形態(tài),采用HBase大數(shù)據(jù)平臺研究健康監(jiān)測數(shù)據(jù)的存儲與組?形式,實現(xiàn)了健康大數(shù)據(jù)的存儲和管理,并提供高并發(fā)的讀寫性能與可擴展性。   HBase是參照Google Bigtable實現(xiàn)的NoSQL數(shù)據(jù)庫,有著天然的大數(shù)據(jù)存儲優(yōu)勢[1]。它具有強一致性、隨機讀寫、面向列,以及可動態(tài)修改、可水平伸縮的特性[2]。HBase支持范圍查詢以及行事務,可在廉價PC Server上搭建大規(guī)模的結構化存儲集群。HBase非常適合于構建高性能的健康大數(shù)據(jù)平臺。然而,HBase還處在高速發(fā)展時期,仍有一些問題需要解決。Apache的Phoenix為人們操作HBase提供了更加便捷的溝通方式,其提供了標準的SQL和JDBC API的力量與完整的ACID事務的能力和后期綁定的靈活性。目前,關于HBase性能的優(yōu)化和研究還存在著諸多現(xiàn)實問題,缺乏關鍵技術支持。本文重點研究了基于健康數(shù)據(jù)存儲的HBase集群的性能優(yōu)化與應用,并采用HBase1.0.2版本、phoenix4.8版本進行分析實驗,旨在提供一個高性能、高可用的健康大數(shù)據(jù)存儲和管理平臺。   1健康大數(shù)據(jù)平臺分析與優(yōu)化   1.1健康數(shù)據(jù)模型設計   中華人民共和國國家衛(wèi)生和計劃生育委員會于2011年8月發(fā)布了《城鄉(xiāng)居民健康檔案基本數(shù)據(jù)集》,規(guī)定了城鄉(xiāng)居民健康檔案基本數(shù)據(jù)集的元數(shù)據(jù)屬性和數(shù)據(jù)元目錄。通過研究與分析該數(shù)據(jù)集,構建了統(tǒng)一的健康檔案存儲模型,并轉化成HBase的數(shù)據(jù)模型,進行數(shù)據(jù)庫的設計與實現(xiàn)。   選取《高血壓患者隨訪數(shù)據(jù)元專用屬性》作為案例進行研究分析。表1是分析得到的高血壓關系模型。其中行鍵采用身份證號碼、醫(yī)院編號、醫(yī)療項目和時間戳的組合鍵。   其中,NumRegionServer可以采用集群中的RegionServer數(shù)目,有利于分擔數(shù)據(jù)讀寫壓力,但也不宜過多,否則會造成集群性能下降。   1.3HBase數(shù)據(jù)查詢優(yōu)化   HBase在0.92之后引入了協(xié)處理器(Coprocessors),能夠更好地建立二級索引、復雜過濾器、訪問控制等更為復雜的操作[5]。Phoenix則在此基礎上提供了更加方便的操作。Phoenix能夠用SQL的方式建立二級索引。Phoenix支持4種類型的索引技術:Covered Indexes、Functional Indexes、Global Indexing和Local Indexing,這些索引技術分別適用于不同的業(yè)務場景,主要是偏重于讀或?qū)憽?  可以通過如下方式直接為HBase創(chuàng)建索引:   CREATE INDEX BLOOD_PRESSURE_INDEX ON BLOOD_PRESSURE (detail.id_number) INCLUDE(detail.user_name,detail.follow_date)   創(chuàng)建了一個名為BLOOD_PRESSURE_INDEX的索引,查詢id_number、user_name、follow_date字段可加快查詢速度,同時也可根據(jù)這些字段查詢所需的rowkey。如果查詢字段中包含了不在索引的字段且不是rowkey,索引則不會被觸發(fā)到,查詢?nèi)詴M行全表掃描。   1.

相關知識

基于大數(shù)據(jù)平臺的醫(yī)療健康數(shù)據(jù)分析與應用模式研究
基于云計算的健康醫(yī)療大數(shù)據(jù)平臺
國內(nèi)大數(shù)據(jù)與膳食營養(yǎng)健康的研究及應用進展
健康醫(yī)療大數(shù)據(jù)平臺
醫(yī)療健康大數(shù)據(jù)平臺建設模式及應用價值分析
大數(shù)據(jù)應用 醫(yī)療健康應用實例與系統(tǒng)分析(1)?
醫(yī)療健康大數(shù)據(jù)分析應用云平臺解決方案.docx
醫(yī)療健康大數(shù)據(jù)可視化分析平臺建設和應用總體解決方案.pptx
90%數(shù)據(jù)在沉睡,如何利用健康醫(yī)療大數(shù)據(jù)開放平臺釋放數(shù)據(jù)價值?
構筑健康醫(yī)療大數(shù)據(jù)共享平臺

網(wǎng)址: 基于HBase健康大數(shù)據(jù)平臺性能優(yōu)化及應用.doc http://www.gysdgmq.cn/newsview810676.html

推薦資訊