-
>
妙相梵容
-
>
基立爾蒙文:蒙文
-
>
我的石頭記
-
>
心靈元氣社
-
>
女性生存戰爭
-
>
縣中的孩子 中國縣域教育生態
-
>
(精)人類的明天(八品)
信息系統學報 第26輯 版權信息
- ISBN:9787030708779
- 條形碼:9787030708779 ; 978-7-03-070877-9
- 裝幀:一般膠版紙
- 冊數:暫無
- 重量:暫無
- 所屬分類:>>
信息系統學報 第26輯 本書特色
適讀人群 :信息系統領域的研究人員本期《信息系統學報》為總第26輯,共收錄7篇研究論文和2篇領域綜述。7篇研究論文呈現了高度多樣化的研究視角和方法。
信息系統學報 第26輯 內容簡介
《信息系統學報》是我國信息系統科學研究領域內專享的專門學術出版物,被信息系統協會中國分會指定為會刊。《信息系統學報》倡導學術研究的科學精神和規范方法,鼓勵對信息系統與信息管理領域中的理論和應用問題進行原創性探討和研究,旨在發表信息系統研究領域中應用科學嚴謹的方法論、具有思想性與創新性的研究成果。本書內容包括相關的理論、方法、應用經驗等方面,涵蓋信息系統各個研究領域,注重結合我國國情進行探討,從而對我國和世界信息系統的研究與應用做出貢獻。 《信息系統學報》主要面向信息系統領域的研究人員,其作為我國信息系統領域學術研究探索與發展的重要交流平臺,為相關研究工作創造了一個友好而廣闊的交流空間,推動著我國信息系統研究、應用及學科建設不斷前進。
信息系統學報 第26輯 目錄
主編的話 XI
研究論文
一種基于深度強化學習的直播推薦方法/王瀟,劉紅巖,車尚錕 1
數據驅動的心血管疾病門診量多步組合預測研究/顧福來,白朝陽,郭林霞,劉曉冰,孫永亮 19
移動學習情境下口碑生成的影響因素研究—基于八個論壇的真實評論數據/羅霄,蔣玉石,王燁娣,苗苗 32
在線用戶創新社區創意采納機理研究—基于整合理論視角/秦敏,許安琪 47
個性化社交媒體廣告對消費者廣告回避的影響機制研究/羅江,范婷睿,苗苗 62
智慧健康產品試用中好奇與信念兩者不同作用機制的分析與比較/孫凱,左美云,孔棟,吳一兵 81
空間距離信息對游客出行決策行為的影響研究/郝遼鋼,霍佳樂,劉健西 97
電子廢棄物情境下的用戶信息安全保護動機研究/陳昊,呂途,張嵩 109
數字經濟產業集聚對創新驅動因素的影響研究—基于省級面板數據的實證分析/金鑫,李曉雯,張敏,王魯濱,孫廣華 121
審稿專家 133
China Journal of Information Systems
Issue 26
CONTENTS
EDITORS’NOTES XI
ARTICLES
A Supervised Deep Reinforcement Learning Based Live Streaming Recommendation Method/WANG Xiao,LIU Hongyan,CHE Shangkun 1
Research on Data-driven Multi-step Combined Forecast of Cardiovascular Disease Outpatient Volume/GU Fulai,BAI Zhaoyang,GUO Linxia,LIU Xiaobing,SUN Yongliang 19
Research on the Influencing Factors of Word-of-Mouth Generation in Mobile Learning Context —Based on Real Comments Data from Eight Forums / LUO Xiao,JIANG Yushi,WANG Yedi,MIAO Miao 32
Research on the Ideas Adoption Mechanism of Online User Innovation Community:Based on Integration Theory/QIN Min,XU Anqi 47
Research on the Influence Mechanism of Personalized Advertising in Social Media on Consumers’ Advertising Avoidance/LUO Jiang,FAN Tingrui,MIAO Miao 62
Analysis and Comparison of Mechanism Between Curiosity and Beliefs in Smart Health Test Product Trial/SUN Kai,ZUO Meiyun,KONG Dong,WU Yibing 81
Study of the Effects of Spacial Distance Information on Tourists’Decision-Making / HAO Liaogang,HUO Jiale,LIU Jianxi 97
Research on User Information Protection Motivation in the Context of E-waste / CHEN Hao,LYU Tu,ZHANG Song 109
Research on the Influence of Digital Economy Industry Agglomeration on the Driving Factors of Innovation/JIN Xin,LI Xiaowen,ZHANG Min,WANG Lubin,SUN Guanghua 121
PEER REVIEWERS 133
信息系統學報 第26輯 節選
一種基于深度強化學習的直播推薦方法* 王瀟,劉紅巖,車尚錕 (清華大學經濟管理學院,北京 100084) 摘要 近年來,在線直播行業快速興起,而給用戶推薦其感興趣的直播是提升用戶體驗的關鍵。直播推薦有著更強的動態性,直播內容和用戶偏好時刻在變化中。現有推薦算法沒有針對此特點進行建模。本文基于強化學習理論,提出了一種新型的直播推薦模型。該模型從三個角度構建用戶的狀態表示。同時,將基于排序的有監督學習策略引入強化學習模型,使得模型在探索學習的同時保證推薦質量。在真實的數據集上的實驗評估結果驗證了所提模型的有效性。 關鍵詞 推薦系統,深度強化學習,在線直播,有監督學習 中圖分類號 TP391.3 1 引言 近年來,在線直播行業快速興起,觀看在線直播成為大眾娛樂的重要方式之一。根據艾媒咨詢的研究報告[1],2019年中國在線直播市場用戶規模達到5.04億人,增長率為10.5%;2020年中國在線直播市場用戶規模達到5.87億人,增長率為16.5%;2021年用戶預計達6.35億人,增長率為8.2%。一方面,用戶規模的快速提升促進了主播數量的增加、直播內容的豐富,同時也給用戶選擇感興趣的直播帶來可能;另一方面,用戶規模雖逐年提升,但增速已經逐步放緩,當直播平臺的用戶量趨于穩定后,提升用戶體驗、增強用戶黏性成為平臺運營的關鍵環節。推薦系統的引入可以有效減少用戶的搜索時間,幫助用戶發現感興趣的內容,從而提升用戶體驗。 但是在線直播的推薦面臨著諸多挑戰:①在線直播具有實時性,主播直播的內容在動態變化,用戶也會在主播間隨時切換以觀看其*喜歡的內容。直播推薦系統必須有能力捕捉用戶和主播動態變化的狀態。②直播推薦面對的是主播、直播內容和用戶的三元組,其中兩兩之間都具有關聯關系,同一個主播不同時段的直播具有共性和特性,同時用戶的興趣既有針對特定主播的也有針對某類內容的,因此合理表示這三者及其之間的關系是直播推薦的重要步驟。已有推薦系統的相關研究沒有針對直播的這些特點進行建模,性能上存在著改進的空間。 為解決上述問題,本文將直播領域中的推薦建模轉化為一個強化學習問題,提出了一種用于直播推薦的深度強化學習(deep reinforcement learning,DRL)模型。該模型將推薦系統作為智能體,通過系統與用戶不斷交互的過程探索用戶的真實偏好,*大化用戶的長期收益。模型采用深度確定性策略梯度算法解決推薦系統問題中動作空間維度高、計算量過大的難題,同時解決了一般的強化學習策略只能推薦一個物品的問題[2]。另外,強化學習通過探索過程*大化用戶長期收益,短期通過探索策略會推薦一些與當前偏好不完全吻合的目標,因此會犧牲部分短期收益,可能造成短期用戶體驗差的問題。為此,本文提出了將基于排序的有監督學習策略引入強化學習模型,使得推薦列表能在原有基礎上使用監督策略進行改進,緩解這一問題。同時,提出了對用戶狀態的建模方法,通過靜態、動態和實時特征三個角度進行建模,全面反映用戶的偏好特征。 本文內容安排如下:第2部分總結分析相關研究;第3部分定義研究問題;第4部分描述所提出的模型;第5部分通過實驗評估所提模型的性能;*后第6部分總結全文。 2 相關研究 推薦模型可以分為協同過濾(collaborative filtering,CF)[3]、基于內容的推薦(content-based recommendation)[4]及混合方法。下面對經典的通用推薦模型以及與本文工作相關的視頻推薦、直播推薦和基于強化學習的推薦模型進行總結分析。 2.1 通用推薦方法 在通用推薦模型中,比較經典的方法是協同過濾和基于內容的推薦。 協同過濾的基本思想是向用戶推薦與其有著相似喜好的用戶所喜歡的物品[3]。該方法基于用戶的歷史行為信息,如用戶購買哪些商品或者用戶對已有商品的打分信息計算用戶之間的相似度。然后將相似用戶購買過的商品推薦給目標用戶。 基于內容的推薦是向用戶推薦其喜好物品的相似物品[4]。如果用戶喜歡某個物品,則與該物品類似的物品也會被推薦給用戶。該方法的難點在于需要找到準確的特征以描述物品,同時該方法可能推薦的都是與已消費物品類似的物品。 經典的協同過濾方法和基于內容的推薦方法沒有考慮用戶行為的時序特點,因此,考慮用戶行為的序列模式的推薦方法即序列推薦(sequential recommendation)吸引了很多研究者進行研究。早期的序列推薦方法利用馬爾科夫鏈建模用戶的序列行為[5],建立在較強的馬爾科夫性質的假設前提下。隨著深度學習的發展,研究者提出了許多基于神經網絡模型的推薦方法,例如,Hidasi等研究者[6]采用循環神經網絡(recurrent neural networks,RNN)模型來建模會話中的用戶點擊序列。Wu等研究者[7]采用圖神經網絡建模,將全局偏好和當前會話偏好結合,對下一物品進行預測。Ying等研究者[8]采用基于層級的注意力網絡,結合了用戶長短期的偏好進行預測,將用戶長期的偏好的變化加入考慮。 近年來,強化學習在游戲領域和自動控制領域取得了良好的效果[9~11]。因此深度強化如何應用于推薦系統也成為研究熱點。Zhao等學者提出基于深度強化學習的用于電商平臺的商品推薦算法,讓推薦系統智能地學習*優推薦策略[12~14]。區別于其他應用中智能體每一步與環境的交互都可以得到反饋[15],在推薦系統中,獲得任意一步動作的反饋的代價是較高的。因此已有深度強化推薦工作中采用了環境模擬器來根據協同過濾的思想來預測反饋值。但該方法的不足之處在于,若環境模擬器的預測值與真實反饋值有偏差,則會影響到強化學習的學習效果。在同樣的框架下,Zhao等學者研究在電商平臺下如何為用戶推薦多個商品并排版成網頁的問題,但該研究主要側重于使用Encoder-Decoder模型進行商品頁面的生成[13]。Zheng等構建了基于深度強化學習的框架進行新聞的推薦,側重解決推薦物品過于相似和重復的問題[16]。 Wang等學者的研究結合了監督學習和強化學習,采用Actor-Critic模型來克服僅采用強化學習模型時在探索時期推薦不準確的缺陷[17]。但該方法的不足之處在于,其定義的動作空間維度與物品維度相同,在應用于直播領域時,由于待推薦的物品數量很多,會造成計算復雜度很高,同時網絡的參數也會隨動作維度的增大而增大,使得模型求解復雜。Liu等同樣采用了深度確定性策略梯度算法,提出了三種狀態表示模型來建模物品之間的聯系以及用戶和物品之間的聯系[18]。Chen等學者提出兩種算法來緩解由用戶、物品分布變化引起的反饋不準確的問題,提出分層抽樣回放和近似悔恨反饋法來有效地估計反饋值[19]。 2.2 視頻推薦 在視頻推薦領域,基于協同過濾的思想根據用戶的行為進行分析,從相似用戶的角度對用戶進行推薦。基于內容的推薦則利用了視頻的一些元信息,如標題和風格;或者視頻中的信息,如色彩和明暗。 Davidson等分析了YouTube的視頻推薦系統,該系統采用的輸入包括了內容相關信息和用戶相關信息,后者包括了直接和間接的回饋。直接回饋包括喜愛和厭惡等行為,間接回饋包括瀏覽和觀看等行為[20]。隨著深度學習的發展,Covington等應用了深度學習進行視頻推薦,深度神經網絡的優點在于可以方便地處理離散和連續變量,可將用戶觀看歷史、搜索記錄、場景信息及用戶畫像共同作為輸入,并輸出用戶的向量表示[21]。基于內容的推薦還可以利用視頻信息,如Mei等在研究中利用了視頻的文本信息如描述和標簽等[22]。Deldjoo等同樣采用基于內容的推薦,提出了一種能分析視頻風格特征的推薦方法[23]。 2.3 直播推薦 由于直播行業近些年才流行起來,目前直播推薦相關的研究還很少。根據Yang等的研究[24],直播平臺Twitch采取了*多觀看(most viewed)的推薦手段,該方法的缺陷是沒有考慮到用戶的個人偏好,即每個用戶的不同點。由此該文章提出了HyPAR(hybrid preference-aware recommendation)算法,加入了對用戶歷史觀看記錄信息的利用,包括觀看頻道、觀看時長,以此來分析用戶的喜好。Liu等的研究[25]著重考慮了直播平臺中的關注列表信息,該方法首先對用戶觀看記錄進行分析并用k-means方法聚類,而后基于用戶群進行推薦。 由此可見,目前已有的針對直播的推薦方法沒有充分利用直播推薦的特點。如果采用已有的視頻推薦算法做直播推薦,則忽略了直播內容實時變化的特點,直播視頻的動態變化影響著用戶的選擇,但是在視頻推薦中沒有考慮這點。此外,直播視頻都是實時的,這使得直播推薦算法無法利用完整的視頻信息。另外,深度強化推薦模型這類新方法仍然主要應用于商品推薦,沒有針對直播場景進行優化,同時,已有模型采用的離散動作空間的定義方式使得在推薦的場景下計算復雜度很高[19]。此外,部分已有強化推薦系統采用深度Q學習在每一步只能推薦一個物品,以及采用基于分類的監督學習算法[17]不能很好地解決本質上是多個物品排序的推薦問題。因此,本文針對直播推薦的應用場景,研究上述問題的解決方法。 3 問題定義 3.1 直播場景下的推薦問題 假設在推薦系統中有M個用戶,用集合U表示;有N個主播用集合V表示。令 Ut、Vt分別表示t時刻在線的用戶和主播集合。對于任何一個用戶u∈U ,給定其歷史觀看行為記錄,推薦問題是預測其下一時刻可能感興趣的直播,為其生成一個長度為K的主播推薦列表。 3.2 直播推薦的強化學習建模 強化學習的目的是教會智能體(agent)如何去決策(action),每一個決策會影響智能體未來的狀態(state),智能體采取的每一步決策會產生反饋(reward),反饋值越高即表示收益越高。在直播推薦領域中,推薦系統可以看作類似的一個智能體,可以由圖1來表示,推薦系統收到用戶當前的狀態表示,并根據策略做出決策,推薦用戶喜好的直播列表(在圖中對應動作),用戶將對推薦系統的每個決策做出反饋 ,此時,用戶達到下一個狀態。 圖1 強化學習與推薦系統交互模型 給定某用戶t時刻的狀態后,假設其未來的狀態與過去的狀態是獨立的,當前時刻的推薦行為只與當前狀態有關,而與之前的狀態無關,則此過程符合馬爾科夫決策過程(Markov decision process)的定義,因此我們可以將直播推薦問題建模為一個馬爾科夫決策過程,由狀態、動作和反饋的序列組成,可以由五元組(S,A,P,R,)表示,定義如下。 狀態空間S:用戶當前狀態的向量表示,用戶在時刻t的狀態為。 動作空間A:推薦系統在時刻t的動作記為。在本文中,為了提升計算效率,將動作空間建模為連續空間。為了得到推薦列表,將建模為由稠密向量表達的用戶當前偏好。基于該向量與各個主播偏好向量的匹配可以得到推薦列表。本文采用的連續動作空間有著計算效率的優勢,如果將動作空間定義為離散空間,計算復雜度很高[22]。 反饋R:S×A→R表示反饋函數r(s,a),表示在狀態s下采用動作a得到的反饋。推薦系統根據動作a推薦一個主播列表后,若用戶觀看了列表中的主播,則反饋取值為正。 狀態轉移概率P:定義了由狀態采取動作,達到狀態的概率。 折現因子(discount factor)γ:γ是[0,1]區間的實數,表示未來收益的折現率。特別地,若γ=1,意味著未來得到的收益與當前價值等同。若γ=0,則意味著未來得到的回報在現在毫無價值,智能體可被看作“短視”的。 為了衡量推薦系統在一段較長時間內的推薦效果,定義模型的總期望收益為Q函數(state action value function):表示在時刻t狀態s下執行動作
- >
中國人在烏蘇里邊疆區:歷史與人類學概述
- >
苦雨齋序跋文-周作人自編集
- >
二體千字文
- >
史學評論
- >
【精裝繪本】畫給孩子的中國神話
- >
新文學天穹兩巨星--魯迅與胡適/紅燭學術叢書(紅燭學術叢書)
- >
莉莉和章魚
- >
推拿