海量数据面试题笔试题_题来了

海量数据

热门公司

热门职位

排序热度· 时间· 经典指数

1

0

3783

以下描述错误的是？ JobTracker 是一个master服务，软件启动之后JobTracker接收Job，负责调度Job的每一个子任务tast运行于TaskTracker上，并监控他们，如果发现有失败的Task就重新运营它。一般情况应该把JobTracker部署在单独的机器上。 JobClient会在用户端通过JobClient类将应用已经配置参数打包成jar文件存储到hdfs，并把路径提交到Jobtracker，然后由JobTracker创建每一个Task(即MapTask和ReduceTask） HDFS默认Block Size为32M Nagios 不可以监控Hadoop 集群，因为它不提供Hadoop支持。 ... 阅读题目

百度 2016 研发工程师海量数据 Hadoop

多选题经典指数
1

0

1838

一个文件记录中有50M个URL, 另一个有 500URL个，找出相同的记录 ... 阅读题目

查找海量数据

问答题经典指数
1

0

1278

假设我们通过对凤凰新闻日志的清理获取到一亿条新闻的URL地址，现在需要统计出一亿条新闻URL中最热门的五十条新闻URL（这些新闻URL重复度比较高，虽然总数是一亿，如果去重之后，大约有三千万条新闻URL,URL去重过程不需要考虑，一条新闻URL的重复度越高，说明阅读该新闻的用户越多，也就是越热门，每条新闻URL长度限制不超过255字节），要求使用的内存不超过8G，请写出基本思路与步骤。（该题不计入试卷得分，有时间则完成） ... 阅读题目

海量数据 2017

问答题经典指数
1

0

1184

A、 B 文件中各存放50亿条URL，每条URL占用64字节，在内存限制是4G的情况下，以下哪种方法能够找到A、B文件之间的重复URL（）哈希表布隆过滤器字典树红黑树 ... 阅读题目

海量数据 2017

单选题经典指数
1

0

1095

如下关于hive的描述，哪些是对的？（） hive是hadoop的数据库 hive不支持行级更新 hive可以替代OLTP系统 hive不支持分区 ... 阅读题目

海量数据

单选题经典指数
1

0

1041

hive的源数据可以存在哪里（） mysql hdfs 本地文本文件中 derby ... 阅读题目

海量数据

单选题经典指数
1

0

833

如下哪种数据类型在hive中是不支持的（） datetime bigint string double ... 阅读题目

海量数据

单选题经典指数
1

0

784

给定a，b两个文件，各存放50亿个url，每个url各占64个字节，内存限制是4G，让你找出a,b文件共同的url。 ... 阅读题目

海量数据

wen_da 经典指数
1

0

747

用户使用淘宝的过程中，会在淘宝产生大量的行为数据，我们应该如何应用好这些积累的数据，为用户提供更佳优质的服务？ ... 阅读题目

海量数据

wen_da 经典指数
1

0

527

MapReduce正确的流程顺序是什么？（） Map->Reduce->Combine Reduce->Combine-> Map Map->Combine-> Reduce Combine-> Reduce-> Map ... 阅读题目

海量数据

单选题经典指数

1
2