MOOC作為一種新的教學模式正在快速發展中,但是學員退課率卻非常高,這對于 MOOC教師及這個平臺的發展非常不利。下面以學堂在線平臺學員的學習行為數據為基礎,對影響退課的因素進行分析,為了避免多重指標帶來的共線問題,根據較少的原則選擇五種學習行為。在文章結尾采用二元邏輯回歸模型進行建模并預測學員的退課情況,選取的五種學習行為對退課影響明顯,預測準確率較高。本研究為MOOC教師盡早采取教學干預提供了一定的理論依據。
關鍵詞: MOOC,學習行為,相關性分析,二元邏輯回歸, 退課預測
MOOC(Massive Open Online Courses),大型開放式網絡課程,簡稱“慕課”,是近幾年由美國一些著名大學發起的網絡學習平臺。與傳統的課堂學習相比,MOOC具有如下特點:①采用各種社交網絡工具,形式多樣化;②課程的學習不受空間和時間的限制;③課程對學員的學歷沒有任何限制;④更強調學員的學習自主性。
目前對MOOC的研究基本可以歸結為三類。
?、?通過分析學習行為發現規律,改善MOOC教學活動以及評價體系。
Yousef等通過對在線課程、遠程課程和MOOC的相關文獻分析,提出了一套包含75個評價指標的MOOC質量保障標準[1]。童小素等在借鑒已有評價規范的基礎上,采用文獻調研法和專家訪談法,建立了一套質量評價指標體系,其中包括3個一級指標和26個二級指標[2]。秦瑾若等通過MOOC與傳統網絡課程教學活動的對比,提出基于深度學習理論的MOOC學習活動設計,并將其應用于“現代教育技術”課程中[3]。樊超等從人類動力學的角度對MOOC在線學習行為進行分析發現,用戶的選課量和選課人數存在很大差異,在線學習具有陣發和重尾的特征,以及在線學習時間和次數服從冪律分布[4]。
?、?通過對學習行為進行統計分析,進而提出整改意見。
李帥等以東北大學MOOC平臺上的《高級語言課程設計》課程為數據集,對學生的知識點學習情況、在網站上的逗留時間以及觀看視頻的行為動作(快進/退、全屏、跳轉課程、暫停、滾動條滾動、文本模塊間跳轉)進行了統計分析[5]。吳江等分別從選課、退課、課程參與和成績四個方面對愛課程網絡平臺上的一門課程的學習者行為進行統計分析[6]。王萍等基于edX平臺的數據集,采用統計分析方法,對學習者類型、特征、行為進行分析研究[7]。徐舜平等借鑒數據挖掘中的回歸分析方法,對“學堂在線”平臺的一門課程“電路原理”學習行為數據進行研究[8]。
⑶ 通過對學習行為與學習效果之間的關系進行分析,建立模型對學習效果進行預測。
蔣卓軒等針對北京大學在Coursera上開設的6門慕課,通過分析學習行為特點將學習者進行分類,并通過學習者的若干典型行為特征對學習成果進行預測[9]。伍杰華等以edX在線學習網站上2012-2013年學生學習的信息為基礎,對學習者的性別、學歷、國籍、課程交互次數、課程訪問天數、播放視頻次數、學習章節數做了統計分析,最后采用機器學習的SVM和KNN算法進行建模并對完課率進行了預測[10]。李曼麗等以“學堂在線”平臺的一門課程的學習數據為基礎,采用Tobit和Logit兩個定量分析模型,分別對MOOC學習者的課程參與和完成情況進行深入分析[11]。Jiang, S.等以學習者第一周的MOOC完成課后作業和在線討論為研究對象,采用邏輯回歸方法預測學習者獲得證書的概率[12]。
綜上所述,目前關于學習行為對退課影響的研究比較少, MOOC較高的退課率嚴重影響了MOOC的持續發展。本文試圖通過分析學員的七種學習行為與退課的關系,采用二元邏輯回歸模型對學員的退課進行預測,為MOOC的教學改革提供一定的理論依據。
1 邏輯回歸模型
邏輯回歸模型是機器學習中一種重要的分類模型,由于其算法簡單、高效且容易被推廣而被廣泛應用。例如預測用戶點擊某商品后是否會購買,預測學生成績及格與否等。這些都屬于二分類問題。除此之外,邏輯回歸也被推廣至多類的分類問題。本文主要研究MOOC的學員是否會退課,故選擇邏輯回歸模型的二元邏輯回歸方法。
一般地,線性回歸函數為:y=f(x)=θTX,其中X=(x1,x2,…,xm)T為樣本點,θ=(θ1,θ2,…,θm)T為參數向量。函數是樣本X的各個屬性的線性組合,參數θ表示了X中各個屬性對結果的影響程度。
二元邏輯回歸模型可以表示為:,其中y∈{0,1},。決策函數為:。
為了找到參數θ,可以采用最大似然估計,即使得最大。
2 實例研究
本文選取“學堂在線”MOOC平臺的學員學習記錄(包括選課記錄和行為記錄)為數據集,采用二元邏輯回歸模型對學員的退課情況進行分析,并對退課進行預測。
2.1 MOOC數據描述
“學堂在線”MOOC平臺于2013年10月10日正式向全球發布,是教育部在線教育研究中心的研究交流和成果應用平臺。本文采用的數據集為“學堂在線”為KDD-2015 CUP競賽提供的公開數據。
數據記錄了2013年10月27日至2014年8月1日“學堂在線”MOOC平臺的部分學員的選課記錄和行為記錄,其中包括112,448名學員、39門課程、200,905人次選課記錄和13,545,124條行為記錄,且每個學員至少選修過一門課程。
其中,行為記錄包括七種學習行為:完成課后作業(problem)、觀看課程視頻(video)、訪問課程內容(access)、訪問課程wiki(wiki)、參與課程論壇討論(discussion)、訪問課程其他部分(navigation)和關閉網頁(page_close)。為了研究七種不同學習行為對退課的影響,本文對每個學員在整個學習期間的七種學習行為分別進行匯總,得到每個學員每種行為的總次數,分別記為:X1、X2、X3、X4、X5、X6和X7。
2.2 變量選擇
首先研究不同學習行為與退課(1表示退課,0表示繼續學習)的線性相關性。七種學習行為與退課的皮爾遜積矩相關系數如表1所示。
從表1可以看出,七種學習行為與退課的相關系數都是負數,即學習行為發生的總次數越多,退課率越低,與實際情況相符。按相關系數的絕對值進行排序,X4(wiki)和X5(discussion)與退課相關性最小,說明訪問課程wiki和參與論壇討論對退課影響較小。
其次,為了避免變量之間的多重共線性問題,本文對七種學習行為兩兩計算皮爾遜積矩相關系數,將相關系數≥0.8認定為高度相關的變量,應將高度相關的一對變量中的一個予以排除。七種學習行為之間的皮爾遜積矩相關系數如表2所示。
從表2可以看出,X2(video)和X3(access)之間的相關系數為0.81,因為觀看課程視頻可能會涉及課程內容,如觀看課程視頻與閱讀教材相結合,所以觀看視頻越多,訪問課程內容也會越多。X2(video)和X7(page_close)之間的相關系數為0.82,因為觀看課程視頻與關閉網頁高度相關,課程視頻位于一個網頁上,觀看完視頻會關閉網頁,所以觀看視頻越多,關閉網頁自然越多。
這里我們排除X3(access)和X7(page_close)這兩個變量,下一節我們將選取X1(problem)、X2(video)、X4(wiki)、X5(discussion)和X6(navigation)這五個變量(學習行為)對退課進行建模。
2.3 預測模型建立
本文采用二元邏輯回歸模型,預測MOOC學員的退課情況。假設P(P∈[0,1])為學員的退課率,則(1-P)為不退課率。P/(1-P)為學員退課的邏輯回歸比,對其取自然對數為ln[P/(1-P)]。
假設自變量為Z1(problem)、Z2(video)、Z3(wiki)、Z4(discussion)和Z5(navigation),因變量為P,則邏輯線性回歸方程為:,其中θi(i=0,1,2,3,4,5)為邏輯回歸系數。則根據上式可得,學員退課發生的概率為:。根據決策函數(見1.邏輯回歸模型)可知,當P>0.5時,預測為學員退課(結果為1);否則,預測為學員不退課(結果為0)。
2.4 預測結果
為了評價二元邏輯回歸模型對MOOC退課的預測性能,本文采用的評價指標有準確率(accuracy)、查準率(precision)、查全率(recall)、F1和AUC。
為了計算指標值,本文引入二分類混淆矩陣。即把退課(1)作為正類,不退課(0)作為負類。則分類結果的混淆矩陣如表3所示。
從表4可以看出,盡管MOOC數據集存在類別偏斜的情況,即正例與負例的數量之比為95581:24961,但accuray仍然達到了0.84。同時,precision值與recall值比較接近,所以F1值較接近最大值,說明二元邏輯回歸模型較好地對MOOC的退課情況進行了預測。
為了評價預測模型的泛化能力,本文引入ROC曲線。ROC曲線的橫坐標為假正例率、縱坐標為真正例率。ROC曲線下面積(AUC)的大小決定了模型的泛化能力,AUC越大說明模型的泛化能力越強。
從圖1可以看出,實線即為二元邏輯回歸模型的ROC曲線(AUC=0.78,即陰影區域面積),虛線為隨機模型對應的ROC曲線(AUC=0.5,即虛線下方區域面積)。由于0.78>0.5,說明二元邏輯回歸模型較好地預測了實例。同時也說明了本文選取的五個變量(學習行為)是比較合適的,它們較好地反映了數據集的特征。
3 總結與討論
本文研究七種不同學習行為對退課的影響,通過相關分析,選擇其中對退課影響最顯著的五種,然后建立預測模型——二元邏輯回歸模型并對退課情況作出預測。在這五種學習行為中,①訪問課程的其他部分(navigation)、觀看課程視頻(video)以及完成課后作業(problem)對退課影響最大??梢酝茢?,要完整學完一門課程,除了觀看課程視頻,還要做課后作業,以及參考課程的其他內容。為了提高課程的完課率,MOOC平臺可以針對觀看視頻次數少,完成課后作業少的學員實施教學干預。②參與課程論壇討論(discussion)對退課影響較小,原因可能是MOOC平臺提供的是文字形式的討論方式,不利于有效交流與溝通。為此,MOOC平臺可以設置視頻或語音形式的討論模式。
本文的不足之處是,MOOC數據集對學員以及課程信息進行隱藏,使得本文無法深入理解學員的不同學習行為對課程退課的影響以及影響程度。今后將選取不同MOOC學習平臺以及多學科課程數據作為研究對象,探索學習行為對不同學科課程退課情況的影響,為MOOC教學干預提供借鑒和參考。
參考文獻(References):
[1] Yousef A M F, Chatti M A, Schroeder U, et al. What Drives
a Successful MOOC? An Empirical Examination of Criteria to Assure Design Quality of MOOCs[C]// IEEE, International Conference on Advanced Learning Technologies. IEEE,2014:44-48
[2] 童小素,賈小軍.MOOC質量評價體系的構建探究[J].中國遠
程教育:綜合版,2017.5:63-71
[3] 秦瑾若,傅鋼善.基于深度學習理論的MOOC學習活動設計
——以“現代教育技術”課程為例[J].現代教育技術,2017.5:12-18
[4] 樊超,宗利永.MOOC在線學習行為的人類動力學分析[J].開
放教育研究,2016.22(2):53-58
[5] 李帥,張巖峰,于戈等.MOOC平臺學習行為數據的采集與分
析[J].中國科技論文,2015.20:2373-2376
[6] 吳江,馬磐昊.MOOC學習者行為分析研究——以愛課程平
臺的一門慕課為例[J].知識管理論壇,2015.3.
[7] 王萍.基于edX開放數據的學習者學習分析[J].現代教育技
術,2015.25(4):86-93
[8] 徐舜平,趙慶剛,許健等.基于數據挖掘的MOOC學習過程監
測指標分析——以“電路原理”課程為例[J]. 現代教育技術,2017.27(3):119-126
[9] 蔣卓軒,張巖,李曉明.基于MOOC數據的學習行為分析與預
測[J].計算機研究與發展,2015.52(3):614-628
[10] 伍杰華,付慧平.MOOC學習行為的統計、預測與展望[J].工業和信息化教育,2017.2:81-89
相關閱讀:高級統計師需要發表幾篇論文啊
統計專業職稱分類主要有三級:初級(助理統計師、統計員);中級(統計師);高級(高級統計師),高級統計師是通過考評結合的方式才能入選高級職稱,獲得高級統計師的人會由省級人事部門頒發證書,那么高級統計師需要發表幾篇論文呢?
相關閱讀