云音樂用戶增長(zhǎng)預(yù)測(cè)之Prophet模型
導(dǎo)讀:Prophet模型是Meta公司開發(fā)并應(yīng)用于Facebook/Twitter等產(chǎn)品的開源時(shí)間序列模型,適用于MAU/DAU和新增的預(yù)測(cè)。在云音樂的業(yè)務(wù)中,此模型不僅能用于DAU預(yù)測(cè),也能用于評(píng)估活動(dòng)和波動(dòng)分析等多種場(chǎng)景。
本文將從Prophet模型的原理出發(fā),基于對(duì)云音樂實(shí)際業(yè)務(wù)的思考,優(yōu)化和改良了原模型,提高了模型預(yù)測(cè)準(zhǔn)確性,并探究了優(yōu)化后該模型在多種業(yè)務(wù)場(chǎng)景中的應(yīng)用。
1
關(guān)于Prophet
Prophet模型是Meta公司開發(fā)并應(yīng)用于Facebook/Twitter等產(chǎn)品的開源時(shí)間序列模型,適用于MAU/DAU和新增的預(yù)測(cè)。它僅僅使用序列的自相關(guān)性就能產(chǎn)生高質(zhì)量的預(yù)測(cè)結(jié)果,不依賴其他的參數(shù),所以使用起來非常簡(jiǎn)單便利,需要的計(jì)算資源也非常小。主要特點(diǎn)包括:
簡(jiǎn)單易用,使用者只需懂得簡(jiǎn)單的時(shí)間序列知識(shí)就可以使用
泛用性高,能廣泛應(yīng)用于多個(gè)業(yè)務(wù)場(chǎng)景,也可以根據(jù)具體需要微調(diào)
解釋性好,模型易于解釋
不僅如此,了解Prophet最重要的不在于使用Prophet本身,而在于通過這一綜合的預(yù)測(cè)模型來了解預(yù)測(cè)時(shí)間序列的模式和方法,并將業(yè)務(wù)產(chǎn)生的價(jià)值和日常的波動(dòng)分離開。
例如,通過將長(zhǎng)期趨勢(shì)、季節(jié)因素、節(jié)假日分離開,Prophet可以幫助我們回答以下幾個(gè)其他模型難以回答的業(yè)務(wù)問題:
一些活動(dòng)經(jīng)常與節(jié)假日重合,例如元旦活動(dòng)會(huì)帶來活躍但用戶在元旦本身就會(huì)更活躍,如何剝離元旦本身的影響來評(píng)估元旦活動(dòng)帶來的額外價(jià)值?
一到9月,受開學(xué)影響,活躍會(huì)下降,但定量來說,開學(xué)的影響到底有多大?
在解釋DAU波動(dòng)時(shí),今年和去年同期都上升或下降但幅度不同,為什么?
原版Prophet模型只需要輸入時(shí)間戳和對(duì)應(yīng)的值就可以輸出預(yù)測(cè),但準(zhǔn)確性偏低;我們通過結(jié)合業(yè)務(wù)特點(diǎn),改良了Prophet模型,使得模型預(yù)測(cè)6個(gè)月DAU準(zhǔn)確度從 ~85%提升到了 ~95%
2
Prophet 的原理
首先根據(jù)Harvey & Peters (1990),Prophet模型將輸入的時(shí)間序列拆分為三個(gè)部分
其中g(shù)(t)表示整體趨勢(shì),并不包含任何周期性的因素,例如長(zhǎng)期增長(zhǎng)或者下跌;s(t) 表示周期性因素,例如季節(jié)性的因素,一周內(nèi)的波動(dòng)等等;h(t)代表重復(fù)的但非周期性的因素,例如假期;最后的μt則表示測(cè)量誤差(error term)。這一形式和Generalized Additive Model (GAM) 有非常多類似的地方,但是在Prophet模型中,這些關(guān)系間都是線性的,但是在每個(gè)因素內(nèi)部則允許非線性的回歸。
如下圖所示,對(duì)于許多線上app來說,時(shí)間與日期往往對(duì)DAU或MAU有顯著的影響,例如在假期中MAU,DAU可能會(huì)有快速的增長(zhǎng),而在一般的工作日中DAU又可能會(huì)下跌。Prophet模型剝離出了日常的波動(dòng)與長(zhǎng)期的趨勢(shì),這使得該模型不僅能夠更準(zhǔn)確的預(yù)測(cè)波動(dòng),也能夠幫助剝離日常的波動(dòng)而關(guān)注長(zhǎng)期的趨勢(shì)。
通過上述的式子,Prophet模型將時(shí)間序列問題轉(zhuǎn)換為了曲線擬合的問題。
2.1長(zhǎng)期趨勢(shì)
在業(yè)務(wù)的不同的階段,長(zhǎng)期趨勢(shì)的表現(xiàn)可能是不同的,在app上線的初期可能會(huì)有非?焖俚脑鲩L(zhǎng),但是隨著時(shí)間的推移增長(zhǎng)會(huì)逐漸趨于0。與之對(duì)應(yīng),在運(yùn)營(yíng)動(dòng)作上,當(dāng)業(yè)務(wù)快速增長(zhǎng)時(shí),拉新可能是最重要的,但是當(dāng)增長(zhǎng)逐漸放緩時(shí),老客運(yùn)營(yíng)與召回可能有逐漸變得更有意義,所有準(zhǔn)確的預(yù)測(cè)長(zhǎng)期趨勢(shì),不僅能夠反映目前的業(yè)務(wù)狀態(tài),也能夠幫助業(yè)務(wù)同學(xué)找到目前的重點(diǎn)。
對(duì)于許多業(yè)務(wù)而言,長(zhǎng)期增長(zhǎng)一般與自然界人口增長(zhǎng)的模式比較接近,都有快速增長(zhǎng)期,也存在著某一天花板例如上網(wǎng)人數(shù)。針對(duì)這些特征,一個(gè)常用的模型是 logistic growth model:
C就是capacity,也就是增長(zhǎng)的天花板,k是增長(zhǎng)速率,m則是抵消增長(zhǎng)速率的參數(shù)。
2.2 季節(jié)因素
Prophet模型使用傅里葉級(jí)數(shù)來預(yù)測(cè)季節(jié)因素
這一公式的優(yōu)點(diǎn)在于可以不需要任何輸入就進(jìn)行預(yù)測(cè),但因?yàn)椴恍枰魏屋斎胨栽陂L(zhǎng)周期的預(yù)測(cè)中會(huì)不準(zhǔn)確。
3
模型在云音樂業(yè)務(wù)中的應(yīng)用&改良
根據(jù)云音樂的業(yè)務(wù)特點(diǎn),我們對(duì)Prophet模型進(jìn)行了如下改進(jìn):
結(jié)合市場(chǎng)及新業(yè)務(wù)板塊,設(shè)置了隨時(shí)間變化的天花板 C(t)
結(jié)合重大業(yè)務(wù)動(dòng)作及市場(chǎng)事件,設(shè)置了關(guān)鍵的轉(zhuǎn)折點(diǎn)s
結(jié)合業(yè)務(wù)規(guī)律,為周期性因素預(yù)測(cè)引入了新的模型
以某模擬的業(yè)務(wù)數(shù)據(jù)為例,預(yù)測(cè)其DAU,準(zhǔn)確率95%以上
3.1 模型改進(jìn)一:業(yè)務(wù)轉(zhuǎn)折點(diǎn)&天花板
單純的logistic growth model并不適用于云音樂:
這個(gè)模型假定了一個(gè)固定的市場(chǎng)天花板C,但云音樂能觸達(dá)到人群并不是一成不變的,從單純的音樂播放到直播,社區(qū)等新業(yè)務(wù),云音樂能觸達(dá)到的人群也在不斷擴(kuò)大;
云音樂業(yè)務(wù)增長(zhǎng)的速度k并不是不變的,隨著市場(chǎng)狀態(tài)的改變和不同的業(yè)務(wù)動(dòng)作,增長(zhǎng)速率在不斷改變。
針對(duì)上述兩個(gè)缺點(diǎn):
以隨時(shí)間變化的C(t)代替常數(shù)C
定義業(yè)務(wù)的轉(zhuǎn)折點(diǎn) s∈S,即當(dāng)k發(fā)生改變的時(shí)候:
定義基礎(chǔ)的增長(zhǎng)k和修正參數(shù)δ∈R s , 其中 δj 是轉(zhuǎn)折點(diǎn) sj 的修正參數(shù),那么對(duì)任意時(shí)刻,總的增長(zhǎng)速率是
定義集合a(t),上式可以寫為 k + a(t)^Tδ ,其中
因?yàn)樵鲩L(zhǎng)速率k在轉(zhuǎn)折點(diǎn)會(huì)變化,相應(yīng)的參數(shù)m也會(huì)變化來保證曲線是連續(xù)的并最終趨向0,定義
經(jīng)調(diào)整的logistic growth model可以表示成
轉(zhuǎn)折點(diǎn)選擇
一般在預(yù)測(cè)中,轉(zhuǎn)折點(diǎn)出現(xiàn)的頻率并不會(huì)很高,通常可以選擇一個(gè)范圍,例如:一周可能會(huì)有一次轉(zhuǎn)折,一月一轉(zhuǎn)折等等)在選擇完范圍后可以通過拉普拉斯分布進(jìn)行判斷是否存在大于0的轉(zhuǎn)折點(diǎn),即假設(shè),τ是一個(gè)控制分布的參數(shù),當(dāng)τ越高時(shí)模型會(huì)選擇出更多的轉(zhuǎn)折點(diǎn),反之亦然。轉(zhuǎn)折點(diǎn)也可以根據(jù)業(yè)務(wù)進(jìn)行人工輸入。
轉(zhuǎn)折點(diǎn)選擇的標(biāo)準(zhǔn)是:可能對(duì)長(zhǎng)期增長(zhǎng)產(chǎn)生永久性影響的業(yè)務(wù)動(dòng)作或者事件。例如,音樂領(lǐng)域反壟斷的出臺(tái)以及重大版權(quán)回歸。在選擇了可能的轉(zhuǎn)折點(diǎn)之后,還需要判斷轉(zhuǎn)折點(diǎn)是否顯著,我們用了兩種做法:
1)與歷史上類似的轉(zhuǎn)折點(diǎn)比較,觀察轉(zhuǎn)折點(diǎn)前后是否有明顯不同,依賴主觀判斷
2)比較R^2 ,比較加入該轉(zhuǎn)折點(diǎn)后預(yù)測(cè)準(zhǔn)確性有沒有顯著的提升
天花板的確定
對(duì)于一個(gè)業(yè)務(wù)來說,能觸達(dá)到的用戶數(shù)是有限的,我們采用了三種方法確定天花板:1)成熟的業(yè)務(wù),如音視頻等,直接采用研報(bào)和調(diào)研數(shù)據(jù);
2)成長(zhǎng)期的業(yè)務(wù),以自身指標(biāo)及調(diào)研的市場(chǎng)份額進(jìn)行估計(jì);
3)對(duì)于初創(chuàng)期的業(yè)務(wù),結(jié)合業(yè)務(wù)經(jīng)營(yíng)和市場(chǎng)調(diào)研的結(jié)果,對(duì)整體市場(chǎng)的成長(zhǎng)率進(jìn)行曲線擬合,得到整體市場(chǎng)的增長(zhǎng)趨勢(shì)在應(yīng)用于天花板。
最后,會(huì)根據(jù)app內(nèi)不同業(yè)務(wù)的用戶重合度以及得到的天花板進(jìn)行折算,最終計(jì)算出全站dau的天花板。
3.2 模型改進(jìn)二:周期性因素的處理
對(duì)于云音樂來說,受到開學(xué),放假等周期事件的影響較大,所以在通常情況下,我們只用傅里葉級(jí)數(shù)預(yù)估周末/周中的影響,即P = 7;對(duì)于月的周期影響會(huì)在排除了長(zhǎng)期趨勢(shì),周內(nèi)周期后,結(jié)合其他的參數(shù)進(jìn)行估計(jì),例如9月上學(xué)的影響會(huì)與當(dāng)年學(xué)生人數(shù),7月放假時(shí)dau提升及其他因素有關(guān)可以表示為:
除去長(zhǎng)期趨勢(shì),季節(jié)因素(周,月),Prophet 模型也提供了假期的估計(jì)方法:
v 是控制假期影響的一個(gè)參數(shù),模型內(nèi)默認(rèn)是10,但因?yàn)槲覀兏鶕?jù)業(yè)務(wù)特點(diǎn),在之前的周期預(yù)測(cè)的時(shí)候?qū)嶋H上可能已經(jīng)考慮了一部分節(jié)假日的因素,所以實(shí)際上應(yīng)用中通常設(shè)置v=8。
4
其他應(yīng)用場(chǎng)景拓展&總結(jié)
預(yù)測(cè)DAU/MAU僅僅是該模型一個(gè)功能,在不同的業(yè)務(wù)中,Prophet可以有很多變體和表現(xiàn)形式,例如:
4.1評(píng)估活動(dòng)影響
通過模型來評(píng)估活動(dòng)影響有兩種方式:
1)將每重復(fù)的活動(dòng)視為一個(gè)節(jié)假日,例如云音樂的年度歌單發(fā)布視為一個(gè)節(jié)假日;這種方式的優(yōu)點(diǎn)在于比較容易處理,但缺點(diǎn)也顯而易見,就是當(dāng)活動(dòng)與節(jié)假日重合的時(shí)候沒有辦法分離出節(jié)假日與活動(dòng)影響,而且沒有辦法觀察活動(dòng)的長(zhǎng)尾影響。
2)將實(shí)際DAU減去長(zhǎng)期趨勢(shì),季節(jié)因素,節(jié)假日因素,最后得出活動(dòng)帶來的增量,即
4.2 波動(dòng)分析
該模型的每一部分都是獨(dú)立的,這使得我們可以結(jié)合業(yè)務(wù)特點(diǎn),針對(duì)DAU的各個(gè)成分進(jìn)行分析。
針對(duì)長(zhǎng)期趨勢(shì)的分析可以找到各個(gè)關(guān)鍵的轉(zhuǎn)折點(diǎn),一方面可以評(píng)估某一事件對(duì)指標(biāo)長(zhǎng)期的影響,另一方面也可以發(fā)現(xiàn)目前指標(biāo)下降是否是之前某個(gè)事件的累積效應(yīng)。對(duì)比今年和之前的長(zhǎng)期趨勢(shì),則可以更科學(xué)的判斷目前業(yè)務(wù)的狀態(tài)。
針對(duì)季節(jié)性波動(dòng)和節(jié)假日的分析則可以更精確的拆分波動(dòng)的來源。不僅如此,在實(shí)踐中,通過對(duì)不同端的周中,周末的波動(dòng)分析,我們甚至發(fā)現(xiàn)了一些使用不同手機(jī)用戶的特點(diǎn),幫助業(yè)務(wù)團(tuán)隊(duì)進(jìn)行更精準(zhǔn)的運(yùn)營(yíng)投放。
5
Prophet 模型的局限性&思考
業(yè)界對(duì)Prophet的評(píng)價(jià)褒貶不一,因?yàn)镻rophet 模型的輸入非常少,所以Prophet 模型的準(zhǔn)確性非常依賴大量的數(shù)據(jù)進(jìn)行預(yù)測(cè)。在實(shí)踐中,Prophet模型對(duì)DAU這類比較密集的指標(biāo)預(yù)測(cè)往往能取得比較好的效果,但是對(duì)于MAU這類相較稀疏的指標(biāo)預(yù)測(cè)則表現(xiàn)的比較差。
Prophet模型綜合了許多預(yù)測(cè)方法,通過Prophet拋磚引玉可以調(diào)整出適合自己業(yè)務(wù)的模型。
來源:一個(gè)數(shù)據(jù)人的自留地
以上是關(guān)于用戶增長(zhǎng)師的相關(guān)信息,以供大家查看了解。想要了解更多用戶增長(zhǎng)師信息,第一時(shí)間了解用戶增長(zhǎng)師相關(guān)資訊,敬請(qǐng)關(guān)注唯學(xué)網(wǎng)用戶增長(zhǎng)師欄目,如有任何疑問也可在線留言,小編會(huì)為您在第一時(shí)間解答!