IT培訓(xùn)網(wǎng)
IT在線學(xué)習(xí)
大數(shù)據(jù)時(shí)代,許多工作都要依靠海量的數(shù)據(jù),尤其是IT行業(yè),那么做大數(shù)據(jù)工程師需要掌握哪些呢?以下就是一些大數(shù)據(jù)面試題:
1、怎么解決kafka的數(shù)據(jù)丟失
2、fsimage和edit的區(qū)別?
3、列舉幾個(gè)配置文件優(yōu)化?
4、datanode 首次加入 cluster 的時(shí)候,如果 log 報(bào)告不兼容文件版本,那需要namenode 執(zhí)行格式化操作,這樣處理的原因是?
5、MapReduce 中排序發(fā)生在哪幾個(gè)階段?這些排序是否可以避免?為什么?
6、hadoop的優(yōu)化?
7、采集nginx產(chǎn)生的日志,日志的格式為user ip time url htmlId 每天產(chǎn)生的文件的數(shù)據(jù)量上億條,請(qǐng)?jiān)O(shè)計(jì)方案把數(shù)據(jù)保存到HDFS上,并提供一下實(shí)時(shí)查詢的功能(響應(yīng)時(shí)間小于3s)
8、有 10 個(gè)文件,每個(gè)文件 1G,每個(gè)文件的每一行存放的都是用戶的 query,每個(gè)文件的query 都可能重復(fù)。要求你按照 query 的頻度排序。 還是典型的 TOP K 算法,
9、在 2.5 億個(gè)整數(shù)中找出不重復(fù)的整數(shù),注,內(nèi)存不足以容納這 2.5 億個(gè)整數(shù)。
10、騰訊面試題:給 40 億個(gè)不重復(fù)的 unsigned int 的整數(shù),沒排過序的,然后再給一個(gè)數(shù),如何快速判斷這個(gè)數(shù)是否在那 40 億個(gè)數(shù)當(dāng)中?
相關(guān)推薦:
【優(yōu)就業(yè)大數(shù)據(jù)培訓(xùn)】從小白到大咖 打造大數(shù)據(jù)精英人才
【大數(shù)據(jù)培訓(xùn)教程】把握時(shí)代風(fēng)口,做大數(shù)據(jù)架構(gòu)師
更多內(nèi)容
>>本文地址:http://liujunjsxg.cn/jiuye/2019/47376.html
聲明:本站稿件版權(quán)均屬中公教育優(yōu)就業(yè)所有,未經(jīng)許可不得擅自轉(zhuǎn)載。
1 您的年齡
2 您的學(xué)歷
3 您更想做哪個(gè)方向的工作?