摘要[目的/意義]作為城市化進程中的“頑疾”,群租房屢禁不止,群租房引發的社會問題層出不窮。這一系列問題引發了微博熱議,群租房微博輿情文本分析有助于獲悉群租房存在的問題,從受眾角度探討政府群租房治理成效。[方法/過程]利用網絡大數據爬取與分析技術,以群租房為研究對象,通過文本聚類分析與情感分析,進行熱點評估,補充現有文獻中忽視的群租房治理輿論研究。[結果/結論]研究發現,微博網民對群租房話題的關注明顯呈波動趨勢,討論話題主要包括群租房產生的社會問題、政府對群租房的整治行動評價以及透過群租房現象折射出的中低收入群體的焦慮感。大多數微博網民在輿論場中的情感趨勢為負面,認為有必要對群租房展開治理。本文的創新之處在于分析政府治理群租房所面對的輿論環境,并將其可視化呈現,為政府深入了解民情,制定適應民意的政策作鋪墊。
關鍵詞:群租房,社會輿情,文本聚類,情感分析
1引言
微博作為Web2.0時代的產物,為人們發布信息、發表觀點提供了較為自由的社交場景。輿情(PublicOpinion)即公眾輿論,是指公眾對于各種社會現象、問題從信念、態度、意見和情緒等角度所作出的表達[1]。微博作為重要的輿論場,諸多社會問題均在微博中得以反應。我國城市化的快速發展促使大批非城市戶籍人口涌入城市。大城市因其豐富的就業機會和資源吸引大量外來務工人員,然而,一線城市高昂的生活成本成為困擾他們的難題之一。
為降低居住成本,他們紛紛選擇群租方式,群租房亦日漸成為大都市生活形態中一個揮之不去的組成部分,“蝸居”、“鴿子籠”、“房中房”成為大城市居住空間中的一種新形態。不容忽視的是,在享受群租房低廉租金的同時,外來人員還必須面對群租所帶來的一系列安全風險。而每一起突發事件都會成為輿情爆點,引發人們的熱烈探討。群租房作為社區管理的重大隱患之一,迫切需要政府采取有效措施加以規范與管理。不過從實踐效果來看,群租房治理卻陷入困境。
北京、上海、廣州等國內一線城市紛紛出臺出租房屋條例和規定,限制乃至取締群租。政府各部門也先后多次開展集中整治群租房行動。各地政府的每一次整治行為便會引發社會媒體的廣泛關注。然而,面對眾多的自媒體討論,要全面了解民眾對群租房的看法與態度存在諸多挑戰。圍繞群租房整治行動,一部分群體抨擊政府整治行動的強硬、粗暴,忽視弱勢群體利益,而另一部分群體又強烈支持政府各項整治行動以消除群租房帶來的社會風險。目前圍繞群租房整體輿論趨勢的研究鮮有學者涉及。因此,本文期望利用大數據爬取技術,對社交領域使用用戶最多的新浪微博中關于群租房的討論進行爬取,并借助文本聚類分析和情感分析整體分析網絡輿情,探尋治理群租房所面臨的宏觀輿論環境。
2群租房問題與微博輿情文獻綜述
截至目前,學者已經對群租房相關問題進行大量研究,主要研究群租房概念、群租房產生的問題以及群租房治理對策等。目前比較一致的觀點認為群租是一種租賃關系[2]。群租雖然為大城市低收入階層提供了居住場所,但無序的群租行為也帶來大量的治理問題。學者對于群租房引發的問題探討主要集中在群租房引起的社會安全[3]、消防安全[4-8]、鄰里矛盾[9]、物業管理困難[10-11]等方面。面對群租帶來的一系列治理問題,實務界和學界對群租房的治理路徑也進行了探析。
從政府實際行為看,運動式治理是政府治理群租房的主要手段[6,12]。但運動式治理面臨著治理成本高、效率低,難以達到根治效果[15]。從學者們的建議看,多中心治理[13]、協同治理[14]是治理群租房較有效的方式。雖然學者已經意識到群租房存在的社會問題,并探討了群租房治理方式,但是,目前還沒有學者對群租房輿情進行過研究。黑格爾曾言“無論哪個時代,公共輿論總是一支巨大的力量”,微博輿情可以較大程度的反映民眾心聲,是政府治理不可忽視的重要部分。民眾對群租房治理問題持怎樣的態度、觀點,直接影響著群租房治理成效。
目前,學者對微博輿情的研究多集中在新聞傳播、管理學和計算機科學等領域。計算機科學領域對微博輿情文本分析的研究多是以算法為支撐為微博輿情信息獲取[15]、關鍵詞提取[16]、文本聚類[17]、情感分析[18]、輿情可視化[19-20]等提供方法論基礎,本文是建立在這些方法基礎之上的。對群租房問題引發的輿情的研究鮮有學者涉及,微博輿情文本分析及其可視化方法已日漸成熟。
基于既定熱點“群租房”進行的微博輿情文本分析也是一種新的研究視角和研究問題。將文本聚類、微博輿情分析方法運用到對群租房微博輿情的分析中既是將微博輿情文本分析方法用于公共治理研究的有益實踐,也拓展了研究途徑,豐富了群租房治理問題的研究方法。
3數據基礎與研究方法
3.1數據獲取
本文利用網絡數據爬取技術提取微博輿情數據,挖掘社會民眾對群租房治理的態度,嘗試分析群租房治理過程中展現出來的社會輿論特點,建構治理的輿論大背景。微博輿情數據具體搜集情況如下:雖然新浪微博提供了開放的API,但是其提供的API當中的話題搜索高級API,能夠搜索到的微博信息只有503條,并不滿足研究的需求。故我們采用自行爬取的方法對微博平臺進行關鍵字的爬取。
本文通過使用Python開源框架Scrapy,以“群租房”為關鍵詞,采用深度優先的策略對網頁數據進行爬取,以下是爬取關鍵字的偽代碼:Begindefcrawler_key_words(key_words):Getpage_dataGeturlsIfmatch(key_words)
crawler_key_words(key_words)End在爬取過程中遇到了三個問題:(1)微博需要登錄后才能瀏覽相應的搜索結果;(2)微博設置了搜索結果顯示的上限,限定為1000條,而與群租房有關的微博數量超過十萬條;(3)微博的Web端采用了動態獲取的方式加載信息,加大了信息獲取難度。為解決這三大問題,我們采取了以下應對措施。針對登錄問題,我們采用模擬登錄的方式解決。一般而言,模擬登錄有兩種方式:一是在程序中向網站發出登錄請求,也就是提交包含登錄信息的表單(用戶名、密碼等),然后從響應中得到Cookie,以后在訪問其他頁面時也帶上這個Cookie,這種方式可以打開只有登錄后才能看到的頁面。
但是該也會遇到諸如反爬加密、驗證碼等一系列復雜而且麻煩的問題。第二種方式是使用無頭瀏覽器訪問,在Python中可以使用Selenium庫來調用瀏覽器,從而達到模擬人為登錄的操作,登錄之后獲取到Cookie就能進行爬取工作。考慮到第一種方式的弊端,本文采取了第二種方式進行模擬登錄。
針對微博搜索上限限定的問題,實際處理中采用高級搜索功能,按照時間跨度進行搜索。將時間跨度調整到適當的大小,使得每次搜索顯示的條數在1000條以內,通過對不同時間跨度的搜索,得到所有的微博信息。針對微博動態加載問題,通過采取爬取微博Wap端,而不是Web端來解決。微博的Wap端沒有采用動態加載的方式,可以直接獲取所有的微博信息。通過以上解決方案,我們能夠利用Python對新浪微博進行關鍵詞爬取。
但自2018年開始,微博的反爬機制會自動識別爬蟲程序,對爬取所用的賬號甚至是IP限制訪問,因此每次爬取速度不宜過快。再加上在爬取的過程中,也有一定概率被識別成爬蟲,需要重新定向到登錄頁面。這都導致對微博爬取的過程耗時長,成功率較低。鑒于以上情況,我們爬取了2011至2018年所有時間段的部分數據,重點針對北京群租房大火事件等一些特殊時間節點進行了多次爬取。最終成功獲取了2011年至2018年1月以“群租房”為關鍵字的16294條微博信息,作為后續研究的輿情數據。
3.2研究方法
本文主要采用R語言分析工具進行微博輿情分析。隨著R版本的逐漸成熟和穩定,R在行業里的應用得到了飛速發展。R語言可在Windows、MacOS、Linux等多種操作系統使用,擁有強大的數據分析功能和豐富的數據可視化效果。實驗中運用R主要進行中文文本分析,包括聚類分析與情感分析[21]。
3.2.1文本聚類分析
聚類分析是指將物理或抽象對象的集合分組為由類似的對象組成的多個類的分析過程,目標是在相似的基礎上收集數據來分類。聚類的各指標之間具有一定的相關關系,常見的聚類有層次聚類與非層次聚類。本文的聚類主要是利用R語言結合K-means算法對中文分詞之后的詞語進行主題詞聚類,挖掘分詞之間的共現關系。中文分詞主要利用R語言編程軟件,主要利用開源包jiebaR中的segment函數對文本進行分詞,并利用tibble包的as_data_frame函數將分詞了的文本轉化為標準化格式,以備后期文本聚類分析使用。
4群租房輿情分析
自媒體時代,微博為公眾賦予了充分的話語權,微博也因其獨有的便攜性、匿名性和共享自由成為網絡輿情的重要發源地[23]。對微博輿情的分析主要從三個方面進行:(1)群租房微博數據處理和討論概況;(2)群租房微博文本內容分析;(3)群租房微博情感分析。
4.1群租房微博數據處理和分布趨勢
利用網絡爬蟲技術對群租房信息進行扒取,共獲得16294條數據。對爬取到的數據為空白的無效數據進行刪除,對獲取數據的時間、ID、內容等進行篩選后的重復數據進行刪除,共獲得14053條數據。為了了解群租房輿情熱點分布情況,對群租房微博數量按照月份進行統計。
4.2群租房微博輿情內容文本分析
為明確群租需求與群租社會問題的主要內容,我們嘗試利用計量工具R的詞頻統計和聚類功能對微博輿情中具體內容進行分析。
4.3微博文本情感分析
本文將2011-2018年的微博文本按月份進行拆分,通過計算每個月的微博文本中正向情感詞與負向情感詞,對整月的文本情感貢獻的差值繪圖,得到2011-2018年微博文本的整體情感傾向,其中橫軸代表時間,從2011年1月至2018年1月共81個月,排列順序從1至81;縱軸表示情感傾向,數值等于積極情感詞數減去消極情感詞數。
從中可以看出,近八年來,公眾的情感差值基本維持在較負面消極的水平。導致這種現象的原因主要有三個,一是大部分群租房都存在違法行為,政府取締群租房引發群租房群體的住房焦慮;二是群租房事故頻發,給群租租房者、房東抑或是鄰里帶來很大困擾;三是長期以來有關群租房的負面新聞不斷,這使得公眾對群租房的整體印象較差。雖說公眾情感整體呈現較為負面的水平,但仍有部分月份呈現出積極的情感傾向,這多與政府的治理舉措有關。
政府在治理群租房的過程中并非僅僅是運動式搜索、取締,也會進行諸如群租房整改、打擊黑中介、群租房安全知識宣傳與消防安全檢查等行為,這些行為本質上對租客與業主雙向利好,因此會引發群眾積極的評論。除此之外,政府在整治群租房過程中并非只堵不疏,如2017年7月住建部等九部委下發了《關于在人口凈流入的大中城市加快發展住房租賃市場的通知》,積極推行租購同權、試點商改租、大力治理群租房。這些舉措得到群眾較大支持,在圖中呈現出正面的情感傾向。
加快大中城市住房租賃市場發展讓更多底層人民租得起正常的住房更是解決群租房問題最根本的措施,獲得較多積極評價。政府對群租房的治理雖具有一定成效,但目前房租如房價一般居高不下,高額房租使他們不得不選擇群租房,群租房整體狀況仍舊堪憂,輿情整體呈現出較為負面的傾向。
5結論
本文利用R語言分析工具,結合詞頻分析、聚類分析和情感分析等方法,對北京市群租房的微博輿情狀況進行了研究,討論了微博網民對群租房話題的關注度與情感傾向。通過研究發現2011-2018年網絡對群租房的關注呈波動趨勢且與群租房熱點事件密切相關,而2013、2014、2017年相關話題的討論最多,分析發現討論的具體話題包括群租房產生的社會安全、消防治安問題,政府對群租房的整治行動與措施等,揭示出群租房背后反映的中低收入住房群體焦慮現狀。
通過情感分析發現網民雖然認為群租房存在有其必然性,但由于群租房容易導致諸多安全隱患,所以大眾普遍認為對群租房的整治也必不可少,其中民眾對政府的安全教育、消防檢查、發展租賃市場保障租戶權益等持支持態度。但整體而言,微博網民的情感趨勢為負向,反映出在這一治理領域基本的社會情緒。
本文的創新之處在于通過大數據爬取和R語言分析手段在宏觀層面分析政府治理群租房所面對的輿論環境,為政府開展治理行動奠定輿論基礎,增加政府對群租房治理的行動信心,使政府行為真正成為民之所向。同時本文的分析方法也為群租房問題的研究提供了新的視角,有利于更全面地分析群租房問題。此外,本文仍存在一定的不足之處,文中對群租房微博輿情的分析僅對群租房折射出的社會問題、政府治理難題進行了一定程度的分析,并對民眾對政府行為持積極態度的方面進行了分析,但對于如何因地制宜治理群租房還需要全面深入的研究與探索。
參考文獻:
[1]周金元,張莎莎.國內微博輿情研究的文獻計量分析[J].圖書情報研究,2014,7(2):45-49.
[2]宋安成.禁止“群租”關鍵看執法[N].房地產時報,2007-01-29(A07).
[3]張孟佳,萬發文.“群租房”刑法屬性的實踐分析[J].上海公安高等??茖W校學報,2013(2):82-85.
[4]郭駿峰.“群租房”建筑消防安全存在的問題及處置對策[J].門窗,2016(09):238.
[5]丁偉.淺談群租房的消防安全問題及管理對策[J].湖北科技學院學報,2016(7):143-144.
[6]劉艷敏.群租房整治的反向思考[J].新安全東方消防,2008(9):72.
[7]王婷涵.淺談某轄區群租房消防安全突出問題及整治對策[J].消防技術與產品信息,2016(12):69-71.
[8]林震.對群租房相關消防安全問題的思考[J].消防技術與產品信息,2010(4):22-24.
相關刊物推薦:《消防技術與產品信息》(月刊)創刊于1988年,由中國消防協會主辦。本刊是一體集資料性、實用性、信息性為一體的專業雜志。其辦刊宗旨是:傳番消防學術研究成果,宣傳國內外先進消防技術和經驗,及時溝通信息,為發展消防技術,提高消防產品質量,減少火災損失服務。
相關閱讀