Hive基于類似SQL的語(yǔ)言完成對(duì)hdfs數(shù)據(jù)的查詢分析。那么它到底做了什么呢?1 它支持各種命令,比如dfs的命令、腳本的執(zhí)行2 如果你輸入的是
那么它到底做了什么呢?
1 它支持各種命令,比如dfs的命令、腳本的執(zhí)行
2 如果你輸入的是sql,它會(huì)交給一個(gè)叫做Driver的東東,去編譯解析。
3 把編譯出來(lái)的東西交給hadoop去跑...然后返回查詢結(jié)果。
說(shuō)了這么多,其實(shí)你就可以把hive理解成搭建在hadoop(hdfs和mapreduce)之上的語(yǔ)言殼子...
學(xué)習(xí)如何使用Hive還是個(gè)很重要的部分的!這里就不詳細(xì)的說(shuō)了,都舉個(gè)小例子,具體的還是去擼官網(wǎng)吧!
在Hive里面創(chuàng)建表和在普通的數(shù)據(jù)庫(kù)中創(chuàng)建表示類似的,都是先創(chuàng)建(或者使用默認(rèn)的)數(shù)據(jù)庫(kù),然后創(chuàng)建表。
create database xxx; -- 創(chuàng)建數(shù)據(jù)庫(kù) use xxx; --使用數(shù)據(jù)庫(kù) create table student(id string,name string,age int); --創(chuàng)建表
數(shù)據(jù)的導(dǎo)入最常用的就是從hdfs的文件導(dǎo)入或者本地文件導(dǎo)入,也可以從某個(gè)查詢結(jié)果直接創(chuàng)建或者導(dǎo)入。
Hive還支持把查詢結(jié)果導(dǎo)出到文件...
數(shù)據(jù)的導(dǎo)入
最普通的查詢,就是select from句式了,Hive還是做得比較通用的
--普通查詢 select * from xxx; --帶條件的查詢 select * from xxx where age>30; --限制返回列 select name,age from xxx; --內(nèi)連接 select a.*,b.* from tablea a join tableb b on a.id=b.sid; --左連接 select * from a left outer join b on a.id=b.sid; --右連接 select * from a right outer join b on a.id=b.sid;
Hive支持一大堆的函數(shù),比如普通的函數(shù)UDF:
floor、ceil、rand、cast等等
還支持聚合類型的函數(shù)UDAF:
count、avg、min、max、sum
還支持生成多行的函數(shù)。
更厲害的是,支持自定義擴(kuò)展~~ 比如你們公司有個(gè)mapreduce的專家,可以封裝很多的函數(shù),然后別的會(huì)sql的分析人員,就可以使用這些函數(shù)做數(shù)據(jù)倉(cāng)庫(kù)的分析了。
首先需要說(shuō)明的是,Hive在存儲(chǔ)的時(shí)候是不做任何處理的。不像是數(shù)據(jù)庫(kù),存進(jìn)去的數(shù)據(jù)要先進(jìn)行特定的解析,比如解析成一個(gè)一個(gè)的字段,然后挨個(gè)存儲(chǔ)。每個(gè)數(shù)據(jù)庫(kù)的存儲(chǔ)引擎不同,解析的方式就不太一樣。
在Hive中的數(shù)據(jù)都是存儲(chǔ)在hdfs中的,如果沒(méi)有特殊的聲明,會(huì)以文本的形式存儲(chǔ),即不會(huì)再存儲(chǔ)前做任何操作。簡(jiǎn)直就相當(dāng)于是原封不動(dòng)的拷貝。當(dāng)你執(zhí)行查詢的時(shí)候,會(huì)按照預(yù)先指定的解析規(guī)則解析,然后返回。
舉個(gè)例子更好理解點(diǎn):
你的文件: 1,a 2,b 3,c 那么創(chuàng)建表的時(shí)候會(huì)這樣: create table xxx(a string,b string) row format delimited fields terminated by ','; 這個(gè)fields terminated by ','就聲明了字段按照逗號(hào)進(jìn)行分割。 那么當(dāng)hive執(zhí)行查詢的時(shí)候,就會(huì)遍歷文件,遇到逗號(hào)就分隔成一個(gè)字段~最后把結(jié)果返回。
畢竟hdfs還是按照塊來(lái)存儲(chǔ)數(shù)據(jù)的....這也是為什么Hive不支持局部的修改和刪除,只能整體的覆蓋、刪除。
除了前面說(shuō)的文本格式(TextFile),Hive還支持SequenceFile、RCFile,各有各的優(yōu)勢(shì)。sequenceFile相當(dāng)于把數(shù)據(jù)切分了,然后可以局部的記錄或者塊進(jìn)行壓縮。RCFile則是列式存儲(chǔ),這樣可以提高壓縮比;還可以在查詢的時(shí)候跳過(guò)不必要的列。
在Hive中數(shù)據(jù)庫(kù)和表其實(shí)都是hdfs中的一個(gè)目錄,比如你的a數(shù)據(jù)庫(kù)下的表b,存儲(chǔ)的路徑是這樣的:
/user/hive/warehouse/a.db/b 后面兩個(gè)部分a.db/b是很關(guān)鍵的,即“數(shù)據(jù)庫(kù)名.db/表名”
在Hive還支持分區(qū)的概念。即按照某個(gè)特定的字段,對(duì)表進(jìn)行劃分。通常這個(gè)字段都是虛擬的,比如時(shí)間....
create table aa(a string,b string) partitioned by(c string);
這樣就創(chuàng)建了分區(qū)表,如果c字段有"aaa"和"bbb"兩個(gè)值,最終的目錄就是醬嬸的!
/user/hive/warehouse/a.db/b/c=aaa /user/hive/warehouse/a.db/b/c=bbb
注意都是目錄哦!真正的文件在這些目錄下面。
由于都是目錄,就很好理解,為什么分區(qū)查詢會(huì)快了!因?yàn)樵趆ive中所有的查詢,基本都相當(dāng)于是全表的掃描,因此要是能通過(guò)分區(qū)字段進(jìn)行過(guò)濾,那么可以跳過(guò)很多不必要的文件了。
在Hive中支持靜態(tài)分區(qū)(即你導(dǎo)數(shù)據(jù)的時(shí)候指定分區(qū)字段的值)、動(dòng)態(tài)分區(qū)(按照字段的值來(lái)定分區(qū)的名稱)。需要注意的是,動(dòng)態(tài)分區(qū)會(huì)有很多潛在的風(fēng)險(xiǎn),比如太多了!所以一定要合理規(guī)劃你的表存儲(chǔ)的設(shè)計(jì)。
在hive0.7.0+的版本中,也是支持索引的。比如:
CREATE INDEX table02_index ON TABLE table02 (column3) AS 'COMPACT' WITH DEFERRED REBUILD; CREATE INDEX table03_index ON TABLE table03 (column4) AS 'BITMAP' WITH DEFERRED REBUILD;
你也可以自定義索引的實(shí)現(xiàn)類,只要替換AS ''里面的東西,變成自己的包名類名就行。
不過(guò)一樣的,添加索引雖然會(huì)加快索引。可是也意味著增加了存儲(chǔ)的負(fù)擔(dān)...所以自己衡量吧!
Python交流群
635448130點(diǎn)擊加入群聊UI設(shè)計(jì)交流群
579150876點(diǎn)擊加入群聊Unity交流群
495609038點(diǎn)擊加入群聊HTML5交流群
645591648點(diǎn)擊加入群聊