HCNP-Big Data-Developer V1.0試題及答案

1.(判斷題) HDFS採用的是“一次寫入、多次讀取”的文件訪問模型。所以推薦一個文件經過創建、寫入和關閉之後,就不要再去修改。

HCNP-Big Data-Developer V1.0試題及答案

A. True B. False

2.(多選題) HDFS的應用開發中,下列哪些是HDFS服務支持的接口?

A. e

B. h

C. te

D. nd

3. (多選題) 關於kinit操作命令,如下哪些説法是錯誤的?

A. 只能使用人機賬號。

B. 只能使用機機賬號。

C. 一個客户端不支持多個賬號同時使用。

D. 執行此命令得到的票據在24小時後會超時,需再次執行kinit命令去重新登錄。

4.(多選題)對於HBase Rowkey的設計原則,如下描述正確的是?

A. 訪問權重高的屬性值放在Rowkey前面。

B. 訪問權重高的屬性值放在Rowkey後半部分。

C. 離散度好的屬性值放在Rowkey前半部分。

D. 離散度好的屬性值放在Rowkey後半部分。

5.(單選題)HBase表的Rowkey設計是一個很重要的開發設計環節。假設存在如下場景,最頻繁的查詢場景是基於手機號查詢每個月、每半年的歷史通話記錄,以下哪個Rowkey設計是最優的?

A. 姓名+手機號 B. 日期+手機號

C. 手機號+日期 D. 手機號+姓名

6.(單選題) FusionInsight HD中,關於Hive的分區(partition)功能,如下描述錯誤的是?

A. 分區字段要在創建表時定義。

B. 分區字段只能有一個,不可以創建多級分區。

C. 使用分區,可以減少某些查詢的數據掃描範圍,進而提高查詢效率。

D. 分區字段可以作為where字句的條件。

7.(判斷題) FusionInsight HD系統的V100R002C60版本中,Hive僅支持基於MapReduce引擎的查詢服務,不支持基於Spark引擎的查詢服務。

A. True

B. False

8.(單選題) FusionInsight HD中,對Solr各類資源的創建和讀寫權限使用,以下説法錯誤的`是?

A. Solr用户組用户可以創建配置集,並在創建Collection時指定該配置集。

B. Solr用户組的用户可以創建Collection。

C. Collection創建者、對該Collection具有讀寫權限的角色以及Solr admin角色可以對Collection進行更新。

D. 只有Collection創建者和Solr admin角色可以刪除Collection。

9.(多選題) 在Solr的應用查詢場景中,當對查詢結果深度翻頁時,需使用遊標進行深度翻頁。下面對遊標説法正確的是?

A. 必須對查詢字段進行排序。

B. 必須對uniqueKey字段進行排序。

C. 第一次查詢請求時,需指定查詢參數,操作方法如下:

(OR_MARK_PARAM, OR_MARK_START);

D. 查詢時,請求中不能帶有start參數。

E. Solr的返回結果中會有nextCursorMark,在下次調用時使用這個值作為cursorMark。

10.(多選題)關於Kafka的Producer,如下説法正確的是?

A. Producer是消息生產者。

B. Producer生產數據需要指定Topic。

C. 可以同時起多個Producer進程向同一個Topic進行數據發送。

D. Producer生產數據時需要先連接ZooKeeper,而後才連接Broker。

11.(單選題) 在FusionInsight HD產品中,關於Kafka安全和非安全端口描述錯誤的是?

(注:舊API是指舊Producer API和舊Consumer API。其中,舊Consumer API:是指umerConnector中定義的接口;舊Producer API:是指ucer中定義的接口。)

A. Kafka集羣安全訪問端口默認為21007,非安全訪問端口默認為21005。

B. 舊API通過21005端口訪問某個Topic的前提是:服務端參數d設置為true,且此Topic未設置ACL屬性。

C. 舊API僅支持訪問21005端口;新API兼容訪問非安全端口21005和安全端口21007。

D. 對於設置了ACL的Topic,可以使用舊API連接21005端口進行訪問。

12.(判斷題)在一個MapReduce應用程序中,map函數的輸出經由MapReduce框架處理後,發送到reduce函數。這個處理過程是基於鍵值對進行排序和分組的。

A. True

B. False

13.(判斷題)在FusionInsight HD中,Spark默認採用YARN作為集羣資源管理系統。

A. True

B. False

14.(單選題)Spark應用的計算邏輯會被解析成DAG,這個解析操作由以下哪個功能模塊完成?

A. Client

B. ApplicationMaster

C. Executor

D. Driver

15.(單選題)在Flume中,source功能模塊的主要作用是?

A. 獲取數據,並將原始數據轉化成自己處理的數據對象。

B. 緩存數據,根據不同的可靠性策略,將數據保存在內存或文件上。

C. 輸出數據到目的地,支持多種輸出協議。

D. 拆分數據,根據數據的特性,將數據發送到不同的目的地。

16.(單選題) 關於Streaming的拓撲(Topology),下面描述錯誤的是?

A. 一個Topology是由一組Spout組件和Bolt組件通過Stream Groupings進行連接的有向無環圖(DAG)。

B. Topology會一直運行,直到它被顯式kill。

C. 業務邏輯都被封裝進Topology中。

D. 一個Topology只可以指定啟動一個Worker進程。

17.(單選題) 假設一個應用有10個表,每個表記錄數為千萬級別,字段數約20個。現使用Redis來緩存這10個表的數據,對其數據結構的設計,以下哪一項是最佳設計?

A. 採用hash結構,且一個表使用一個hash KEY,表中一行記錄對於hash KEY的一個field。

B. 採用hash結構,每個表的每一行記錄使用一個hash KEY,hash KEY的field對應表記錄的字段,且設計KEY時每個表添加不同的前綴進行區分。

C. 採用string結構,每個表的每一行記錄的每個字段使用一個KEY。

D. 採用string結構,每個表的每一行記錄使用一個KEY,value為表中一行記錄的所有字段拼接後的值。

18.(多選題) FusionInsight HD中,在使用Streaming的ACK機制時,下列哪些説法是正確的?

A. 啟用了Acker之後,Streaming會識別發送失敗的Tuple並自動重發,無需人為干預。

B. Acker會標識處理超時或者處理失敗的消息為fail。

C. 從spout開始,形成的Tuple樹中任何一個環節失敗都會標記整棵樹失敗。

D. 應用需要在spout的fail()接口方法中實現消息重發邏輯。

19.(多選題)在Spark中,關於廣播變量以下説法正確的是?

A. 廣播變量在每個Task中保存一份 。

B. 廣播變量在每個Executor中保存一份。

C. 廣播變量是隻讀的。

D. 廣播變量通過dcast()方法生成。

20.(單選題)在Spark中,假設lines是一個DStream對象,filter語句可以過濾掉80%的數據,針對以下兩個語句説法正確的是:

X: er(...)pByKey(...)

Y: pByKey(...)er(...)

A. X比Y的性能更高

B. X比Y的性能更低

C. X和Y和性能一樣

D. 無法確性X和Y的性能差異

  【參考答案】

1. A 3. ABC 5.C 6.B 7.A 8.A 9. BCDE 10. ABC 11.D 12.A 13.A 14.D 15.A 16.D 17.B 18. BCD 19. BCD 20.A