任何一家企業都不想要員工頻繁的流動,這樣會無形中提升企業的培訓成本,還會降低企業的運營能力。下面文章運用R語言,隨機分析員工離職的數據,探究員工離職的因素,企業可據此判斷離職概率及制定出相應的挽留措施,也可以分析出員工離職的真正動機,發現企業運用中的問題,為企業更好的留出員工,避免造成不必要的損失。
關鍵詞:R語言,隨機森林模型,滿意度,離職傾向
一、引言
離職傾向是員工個體經歷了不滿意之后,想要離開組織的態度和意向,它被認為是預測離職行為最佳變量。綜合國內外已有文獻,離職傾向概念提出時間較早,但是其影響因素的探索一直沒有停滯,由于社會文化變遷,勞動力結構的變化,離職傾向的動因也在發生著變化。員工離職意向形成基本源于兩個方面因素:一是員工自身的人格特質因素,如突出個性、價值觀多元化等;二是其他外部因素,比如工作設置、組織支持等。
國外學者提出的離職傾向動因模型為本研究開展提供了重要的理論依據。近幾年,國內對新生代知識型員工關注越來越多,其離職傾向的探索也形成了一定程度積累,但仍存在一些不足:第一,已有文獻僅涉及了處于發展成熟期的民營企業和國企,缺乏以高員工流動率公司為對象展開的研究;第二,研究框架受國外模型限制較大,系統地探索離職傾向的實證研究少。
另外,隨著大數據時代的到來,運用數據挖掘方法分析已離職人員數據,挖掘員工離職影響因素,對在職員工進行離職傾向預測,依據離職概率大小及離職影響因素采取針對性的挽留措施,將更有效可行。eBay,包括沃爾瑪、瑞士信貸集團和Box等都正在通過大數據“算”出最有可能跳槽的員工。這些公司的HR部門會收集員工的工作任期、員工調查、溝通模式甚至性格測試等一系列數據,這些數據往往能夠揭示員工去留的動機,從而分析判斷員工的離職傾向性。沒有一種單一的數據可以預測員工去留。離職背后的動機通常很復雜,收入多寡、同事關系、公司前景、職業規劃等等,在不同公司,這些變量的影響力又有很大的差異。對于企業而言,通過數據算法分析的目的并不在于驅趕有離心的員工,而在于挽留人才以及搞清楚背后的動機,解決公司弊病。
正如沃爾瑪負責人員分析的全球副總裁Elpida Ormanidou所述:“如果我們能夠提前三個月,我們就能夠盡快地組織招聘和培訓,沒有人希望職位一直空缺著。”從數據中能夠看到更深的層次,挖掘出企業運營體系的內在問題,從而提前采取措施,可以避免造成更多的損失。綜上所述,本文以連鎖餐飲業作為研究焦點,參照已有研究思路,根據大樣本統計研究,借助R語言隨機森林模型,對員工的離職概率進行預測,并辨識哪些因素影響該群體離職意向及不同因素的影響強度。
二、員工入職前期離職傾向預測
(一)預測模型——隨機森林模型。隨機森林算法的實質是基于決策樹的分類器集成算法,其中每一棵樹都依賴于一個隨機向量,隨機森林的所有向量都是獨立同分布的。隨機森林就是對數據集的列變量和行觀測進行隨機化,生成多個分類樹,最終將分類樹結果進行匯總。隨機森林相比于神經網絡,降低了運算量的同時也提高了預測精度,而且該算法對多元共線性不敏感以及對缺失數據和非平衡數據比較穩健,可以很好地適應多達幾千個解釋變量數據集。
隨機森林的組成——隨機森林是由多個CART分類決策樹構成,在構建決策樹過程中,不進行任何剪枝動作,通過隨機挑選觀測(行)和變量(列)形成每一棵樹。對于分類模型,隨機森林將根據投票法為待分類樣本進行分類;對于預測模型,隨機森林將使用單棵樹的簡單平均值來預測樣本的Y值。
隨機森林的估計過程:(1)指定m值,即隨機產生m個變量用于節點上的二叉樹,二叉樹變量的選擇仍然滿足節點不純度最小原則;(2)應用Bootstrap自助法在原數據集中有放回地隨機抽取k個樣本集,組成k棵決策樹,而對于未被抽取的樣本用于單棵決策樹的預測;(3)根據k個決策樹組成的隨機森林對待分類樣本進行分類或預測,分類的原則是投票法,預測的原則是簡單平均。
隨機森林性能因素:(1)每棵樹生長越茂盛,組成森林的分類性能越好;(2)每棵樹之間的相關性越差,或樹之間是獨立的,則森林的分類性能越好。
(二)指標體系的確定。為了實現預測,首先我們需要收集一些歷史數據。針對S公司的實際情況,該公司當前的數據庫中相關數據與我們期望相比存在一些不完善,我們決定確定一個新的指標重新建立數據庫。首先我們采用文獻法和開放式問卷收集相關指標條目,通過幾輪刪除,最終確定指標。相關指標可以分為三類:(1)個人信息。包括“姓名、性別、年齡、政治面貌、學歷、職業資格”;(2)綜合測評。綜合測評是招聘員工時對員工的綜合能力進行問卷測評,測評指標包括“言語理解、邏輯、常識、成就導向、抗壓能力、社交能力、外向性、心里感受性、情緒穩定性、敬業”;(3)在職情況。在職情況是指員工在一段時間內是否離職,我們用數字表示,“0”代表在職,“1”代表已經離職。
(三)樣本數據的收集。為了獲得更加科學的數據并且檢驗預測模型的實用性,我們聯系了S公司,讓該公司對最近入職的一批員工共170人進行了相關指標數據的收集。首先在招聘員工入職前,通過問卷和測評,獲得每位員工的個人信息和綜合測評成績,并且在之后的3個月時間里對這一批員工進行在職情況的跟蹤。得到數據如表1所示。
(四)預測。當我們完成了歷史數據的收集之后,便可以對新一批員工進行離職概率預測了。為了便于將數據導入模型,我們可以直接在170位員工的歷史數據后面添加新一批員工的數據。我們以新一批員工其中一位員工為例,他在表中的數據為第171條,需要預測的數據為“是否3個月內離職”,暫時用“NA”表示數據空缺。
第一步,需要我們打開R語言程序,下載隨機森林數據包;
第二步,我們將歷史數據(訓練樣本)和需要預測數據(預測樣本)導入模型;
第三步,將歷史數據(訓練樣本)單獨提取出來供模型學習,訓練模型;
第四步,對預測數據(預測樣本)進行預測:
library(randomForest)#下載隨機森林數據包#
d1<-read.csv(“~/Desktop/員工數據2.csv”)#讀取訓練樣本和預測樣本#
d2<-d1[1:170,3:16]#提取訓練樣本#
d3<-d1[171,3:16]#提取測試樣本#
d2[,“是否3個月內離職”]<-factor(d2[,“是否3個月內離職”])
levels(d2[,“是否3個月內離職”])<-list(在職=0,離職=1)
set.seed(101010)
m1<-randomForest(是否3個月內離職~.,data=d2,proximity=TRUE,
importance=TRUE,na.rm=TRUE)#訓練模型#
p1<-predict(m1,d3,type="prob")#預測#
p1#預測結果#
在職 離職
0.666 0.334
attr(,“class”)
[1]“matrix”“votes”
(五)結果解釋及預測效果檢驗。根據預測結果的顯示,該名員工在接下來3個月內離職的概率為33.4%,在職的概率為66.6%。
同時,我們可以增加一個對模型預測效果檢驗的步驟。以歷史數據作為檢驗標準,將歷史數據導入模型進行模擬“預測”,再將“預測”的結果與實際情況進行對比,檢驗過程如下:
p1<-predict(m1,d2)#用原始數據進行預測顯示結果#
table(d2$是否3個月內離職,p1)(表3)
從表3中可以看出,預測結果與實際情況完全一致,誤判率為0,模型的預測效果非常好。 三、員工入職中期工作滿意度分析
當員工入職一段時間后,雖然他們暫時沒有離職,但是他們都有潛在的離職傾向。根據現有的研究成果我們可以知道,離職傾向與工作滿意度成負相關,也就是說,工作滿意度越高,離職傾向越小;工作滿意度越低,離職傾向越大。
于是我們便設計了“員工入職中期工作滿意度測評”問卷,同樣采用文獻法和開放式問卷收集相關指標條目,通過幾輪刪除,最終確定指標為:“勞動強度、工作壓力、與同事的關系、崗位性質、職業地位、企業體制、企業類型、組織文化、管理水平、薪酬水平、發展機會、請假調休、職業興趣、職業意向、自尊、情感穩定性、工作技能、工作安全感、工作卷入、組織承諾”。對應不同指標,我們設計了相關問題。例如,與“薪酬水平”對應的問題為“您對目前的薪酬待遇是否意?”;與“工作安全感”對應的問題為“現在的工作是否讓您感受到安全感?”。受試者在每個問題后進行打分,分數區間為“0~10”分,分數越高表示滿意度越高。在問卷最后,設置了一項總體滿意度評價——“您對當前工作總體是否滿意?”,“0”表示滿意,“1”表示不滿意。最終得到132位受試者的評價數據如表4所示。(表4)
同樣的,我們可以隨機森林模型對員工滿意度數據進行分析,并且對各自變量重要性進行排序:
d4<-read.csv(“~/Desktop/員工滿意度分析.csv”)
d4[,“對當前工作總體是否滿意”]<-factor(d2[,“對當前工作總體是否滿意”])
levels(d2[,“對當前工作總體是否滿意”])<-list(滿意=0,不滿意=1)
set.seed(101010)
m1<-randomForest(對當前工作總體是否滿意~.,data=d4,proximity=TRUE,
importance=TRUE,na.rm=TRUE)
Importance<-importance(x=m1)
Importance
varImpPlot(m1)#重要度排序#
對員工工作整體滿意度影響的各因素重要性分析如圖1所示。左邊圖形是根據Mean Decrease Accuracy來判斷自變量的重要程度。Mean Decrease Accuracy是衡量指標,衡量把一個指標的取值變為隨機數,隨機森林模型預測準確性降低的程度。數字越大表示該指標的重要性越大。根據這個指標,薪酬水平、工作壓力、職業興趣、發展機會4個變量是影響員工工作整體滿意度的主要因素。右邊圖形是根據Mean Decrease Gini來判斷自變量的重要程度。Mean Decrease Gini指數是計算出每個變量對分類樹每個節點觀測值異質性的影響程度,從而反映變量的重要性。該值越大表示該變量的重要性越大。根據這個指標,薪酬水平、發展機會、職業興趣、與同事的關系4個變量是影響員工工作整體滿意度的主要因素。
四、結論及建議
(一)結論
1、對S餐飲連鎖公司來說,在員工入職前期,我們可以對員工在入職后一段時間內的離職概率進行預測,預測要建立在模型對歷史數據的學習之上。對于如何建立相應的歷史數據庫,我們提出了3類數據指標,即個人信息、綜合測評、在職情況并且詳細分為17個子指標,該指標構建合理、主題明確、層次清楚、操作性強,可以方便和準確地進行統計。
2、從對S餐飲連鎖公司員工入職中期的工作滿意度分析可以看出,影響員工工作整體滿意度的因素主要是薪酬水平、職業興趣、發展機會、工作壓力、與同事的管理系這幾項。根據分析結果,公司可以有針對性地去改善,提高員工在這幾個方面的滿意度,從而快速提升員工工作的整體滿意度,減小離職傾向。
(二)建議
1、針對不同行業和企業,要建立起合理、合適的指標體系。不同行業和企業員工的工作崗位和工作性質存在差異,可以根據員工的工作特點對數據指標體系進行更改和替換。
2、為了保證預測的精度,歷史數據要盡可能越多越好。預測模型通過對大樣本的學習,會進一步提高預測的準確性。
3、雖然預測模型有很高的準確性,但仍然是建立在統計學的基礎之上,因此仍然存在誤判率。在實際的運用過程中,可以將預測結果作為一項參考因素,而不應完全依賴預測結果,作為絕對的標準。
主要參考文獻:
[1]王雪莉,馬琳,張勉.基于獨生子女的調節作用的個人-工作匹配、工作滿意度與員工離職傾向研究[J].管理學報,2014.11.5.
[2]柯江林,孫健敏.心理資本對工作滿意度、組織承諾與離職傾向的影響[J].經濟與管理研究,2014.1.
[3]李潔,呂康銀,熊順朝.職業成長、工作滿意度和離職傾向關系的實證研究[J].理論經濟學,2012.1.
[4]劉順祥.基于R語言的隨機森林算法運用[EB/OL].
[5]蔡治.大數據時代的人力資源管理[M].北京:清華大學出版社,2016.
推薦閱讀:企業在發展中如何利用人力資源管理的作用
這篇人力資源管理論文發表了企業在發展中如何利用人力資源管理的作用,企業文化是企業全人員言行的集合,好的企業文化可以助推企業保持競爭優勢,論文介紹了企業文化建設與人力資源管理的相互關系,就如何將企業文化建設與人力資源開發的有機融合提出了相應的對策,進一步提升企業的競爭力。
相關閱讀