面試經驗分享之機器學習與大資料問題

才智咖 人氣:6.67K

本人的專業方向是機器學習、資料探勘,就業意向是網際網路行業與本專業相關的工作崗位。各個企業對這類崗位的命名可能有所不同,比如資料探勘/自然語言處理/機器學習演算法工程師,或簡稱演算法工程師,還有的稱為搜尋/推薦演算法工程師,甚至有的併入後臺工程師的範疇,視崗位具體要求而定。

面試經驗分享之機器學習與大資料問題

機器學習、大資料相關崗位的職責

自己參與面試的.提供演算法崗位的公司有 BAT、小米、360、飛維美地、宜信、猿題庫 等,根據業務的不同,崗位職責大概分為:

1、平臺搭建類資料計算平臺搭建,基礎演算法實現,當然,要求支援大樣本量、高維度資料,所以可能還需要底層開發、平行計算、分散式計算等方面的知識;

2、演算法研究類文字挖掘,如領域知識圖譜構建、垃圾簡訊過濾等;推薦,廣告推薦、APP 推薦、題目推薦、新聞推薦等;排序,搜尋結果排序、廣告排序等;廣告投放效果分析;網際網路信用評價;影象識別、理解。

3、資料探勘類商業智慧,如統計報表;使用者體驗分析,預測流失使用者。

以上是根據本人求職季有限的接觸所做的總結。有的應用方向比較成熟,業界有足夠的技術積累,比如搜尋、推薦,也有的方向還有很多開放性問題等待探索,比如網際網路金融、網際網路教育。在面試的過程中,一方面要盡力向企業展現自己的能力,另一方面也是在增進對行業發展現狀與未來趨勢的理解,特別是可以從一些剛起步的企業和團隊那裡,瞭解到一些有價值的一手問題。

以下首先介紹面試中遇到的一些真實問題,然後談一談答題和麵試準備上的建議。

面試問題1、你在研究/專案/實習 經歷中主要用過哪些機器學習/資料探勘的演算法?2、你熟悉的機器學習/資料探勘演算法主要有哪些?3、你用過哪些機器學習/資料探勘工具或框架?4、基礎知識

無監督和有監督演算法的區別?SVM 的推導,特性?多分類怎麼處理?LR 的推導,特性?決策樹的特性?SVM、LR、決策樹的對比?GBDT 和 決策森林 的區別?如何判斷函式凸或非凸?解釋對偶的概念。如何進行特徵選擇?為什麼會產生過擬合,有哪些方法可以預防或克服過擬合?介紹卷積神經網路,和 DBN 有什麼區別?採用 EM 演算法求解的模型有哪些,為什麼不用牛頓法或梯度下降法?用 EM 演算法推導解釋 Kmeans。用過哪些聚類演算法,解釋密度聚類演算法。聚類演算法中的距離度量有哪些?如何進行實體識別?解釋貝葉斯公式和樸素貝葉斯分類。寫一個 Hadoop 版本的 wordcount。