百度的机器学习面试题笔试题_题来了

百度

机器学习

排序热度· 时间· 经典指数

0

0

3820

我们对一批一维数组进行回归拟合，给定训练数据集D = (xi, yi) ，i = 1……n，其中xi∈R是一个实数，yi∈R是xi对应的回归目标。我们拟使用线性，二次，高次函数对yi进行拟合：线性函数：f(x) = ax+b 二次函数：f(x) = ax2+bx+c 三次函数：f(x) = ax3+bx2+cx+d … （1）我们设定最小均方误差为损失函数，请写出损失函数的具体形式。（2）以二次函数拟合为例，请使用随机梯度下降（stochastic gradient decent）对损失函数进行优化，给出参数a,b,c的梯度推导并写出算法。（3）下面三图分别是一次函数，二次函数，七次函数拟合的结果，同时给出它们在D上损失函数值依次是：0.76，0.15,0.01。在选择用什么函数作为最终拟合函数的时候，你会有哪些考虑。本例中你会选择那个函数。 ... 阅读题目

2015 百度数据挖掘机器学习

问答题经典指数
0

0

2698

请写出贝叶斯公式，请描述朴素贝叶斯分类方法的原理和步骤。 ... 阅读题目

百度机器学习数理统计

问答题经典指数
0

0

2044

我们对一批一维数据进行回归拟合。给定训练数据D=（xi，yi），i=1…n，其中xi∈R是一个实数，yi∈R是xi对应的回归坐标。我们拟使用线性，二次，高次函数对yi进行拟合：线性函数：f(x)=ax+b 二次函数：f(x)=ax2+bx+c 三次函数：f(x)=ax3+bx2+cx+d … ①我们设定最小均方误差为损失函数，请写出损失函数的具体形式。 ②以二次函数拟合为例，请使用随机梯度下降（stochastic gradient decent）对损失函数进行优化，给出参数a，b，c的梯度推倒并写出算法。 ③下面三图分别是一次函数，二次函数，七次函数拟合的结果，同时给出它们在D上的损失函数值依次是0.760.15,0.01。在选择用什么函数作为最终拟合函数的时候，你会有哪些考虑。本例中你学会选择哪个函数？ ... 阅读题目

百度机器学习

问答题经典指数
0

0

2203

假设张三的mp3里有1000首歌，现在希望设计一种随机算法来随机播放。与普通随机模式不同的是，张三希望每首歌被随机抽到的概率是与一首歌的豆瓣评分（0~10分）成正比的，如朴树的《平凡之路》评分为8.9分，逃跑计划的《夜空中最亮的星》评分为9.5分，则希望听《平凡之路》的概率与《夜空中最亮的星》的概率比为89:95,。现在我们已知这1000首歌的豆瓣评分：（1）请设计一种随机算法来满足张三的需求。（2）请写代码实现自己的算法。 ... 阅读题目

百度机器学习推荐

问答题经典指数
1

0

3584

下面哪些是基于核的机器学习算法?() Expectation Maximization Radlal Basis Function Linear Discrimimate Analysis Support Vector Machine ... 阅读题目

百度研发工程师机器学习 2016

多选题经典指数
1

0

3004

小王在用svm做一个垃圾邮件分类器，如果一个邮件为垃圾邮件，则y=1，否则y=0. （1）小王应该提取哪些特征？（2）在小王的训练集合中，有99%都是非垃圾邮件，1%是垃圾邮件，如果最后训练的模型为对所有的邮件都判定为非垃圾邮件，请问在训练集中，准确率为多少，召回率为多少？（3）如果在应用场景中，希望能尽可能的召回垃圾邮件，应该怎么办？ ... 阅读题目

百度机器学习

问答题经典指数
1

0

2614

在一个无线大平面上，有两组平行线，互相间垂直，每组平行线的间隔都为t，将一根长度为l（l ... 阅读题目

百度机器学习概率统计

问答题经典指数
1

1

2056

韩梅梅和李雷是百度的实习生，他们刚入职就接受了一项任务，用机器学习的方法来预测某个行业query和广告之间的点击率。该模型将会用于对广告展现时，根据点击率，对展现的广告做重排序。他们两个都采用了LR方法来解决问题，具体的做法是：（1）根据一个月该行业的日志，找到每次搜索时，当时展现的所有广告（一次展现固定出三条广告）。他们把每个广告的每次展现当作样本，当时是否点击为LR的y值：0或者1。这样一共获得了50w个样本（比如在一次搜索queryA下展现了三条广告a，b，c，其实a被点击了一次，那么这次搜索一共对应3个样本，其中第一个样本的y为1，后面两个样本的y为0）（2）对样本做均匀抽样分成两份，70%为训练样本，30%为测试样本，抽取了100种特征，其中一个特征是当时广告在网页中的排序（1，2或者3）（3）使用公司的LR在训练样本上进行训练，在测试样本中进行检测，认为LR模型给出的p即为广告的点击率，其中 a.对于广告在网页中的排序，韩梅梅使用的方法是离散乘0-1特征，即将排序离散成（是否为第一名，是否为第二名，是否为第三名），如果样本的排序是第一名，对应的特征为（1,0, ... 阅读题目

百度机器学习

问答题经典指数
1

0

3262

对于logistic regession问题（prob（t|x）=1/（1+exp（w*x+b））且label y=0或1）请给出loss function和权重w的更新公式及推导。 ... 阅读题目

百度机器学习数理统计

问答题经典指数
1

0

6560

影响聚类算法效果的主要原因有：（　）？特征选取模式相似性测度分类准则已知类别的样本质量 ... 阅读题目

百度机器学习 2016 研发工程师

多选题经典指数

1
2