在線對(duì)照實(shí)驗(yàn)中,一個(gè)非常常見的困惑是你需要多少時(shí)間來對(duì)實(shí)驗(yàn)結(jié)果做出結(jié)論。
使用p值作為實(shí)驗(yàn)停止的標(biāo)準(zhǔn),這是個(gè)簡(jiǎn)單的方法,但它的問題在于,給出p值的假設(shè)是你在設(shè)計(jì)實(shí)驗(yàn)時(shí)就已經(jīng)考慮好了樣本和效應(yīng)量的大小。但如果你持續(xù)監(jiān)測(cè)一個(gè)測(cè)試項(xiàng)目的進(jìn)程和p值的變化,那么你就很有可能能夠看到某種有顯著性的“影響”——即使并不存在顯著效應(yīng)的時(shí)候。另一個(gè)常見的錯(cuò)誤是,由于沒有及時(shí)觀察到有顯著性的結(jié)果,而過早地停止了實(shí)驗(yàn)。
下面是Airbnb所進(jìn)行的一個(gè)實(shí)際實(shí)驗(yàn)的例子。我們測(cè)試了將搜索頁面上的價(jià)格過濾器(將金額范圍從300改為1000美元),顯示效果如下:
在下面的圖5中,展示了本項(xiàng)實(shí)驗(yàn)的進(jìn)程。藍(lán)色的曲線顯示了改版效果(新版/舊版-1),紅色的曲線顯示了隨時(shí)間變化的p值。正如你所看到的那樣,p值曲線在7天后達(dá)到了常用的顯著標(biāo)準(zhǔn)0.05,這時(shí)新版的效應(yīng)量為4%。如果我們就此打住,那么就會(huì)得出結(jié)論:改版對(duì)預(yù)訂的可能性有強(qiáng)烈而顯著的影響。但當(dāng)我們持續(xù)進(jìn)行實(shí)驗(yàn)后,我們發(fā)現(xiàn)實(shí)際上實(shí)驗(yàn)結(jié)果最終的表現(xiàn)是中性的。最終的效應(yīng)量幾乎為0,此時(shí)的p值表明,無論剩下的效應(yīng)量是多大,都應(yīng)該被視為統(tǒng)計(jì)噪音。
為什么我們知道在p值達(dá)到0.05時(shí)不要停止實(shí)驗(yàn)?事實(shí)證明,這種提前達(dá)到所謂的"顯著性",然后又收斂歸于中性結(jié)果的情形,在我們的系統(tǒng)中其實(shí)是很常見的。
造成這種情況的原因有很多。比如,用戶往往需要很長(zhǎng)的時(shí)間來預(yù)訂,所以測(cè)試早期快速完成的預(yù)約會(huì)對(duì)整個(gè)測(cè)試結(jié)果有著明顯的影響。另外,在線上實(shí)驗(yàn)環(huán)境中,即使是小樣本量,放在經(jīng)典統(tǒng)計(jì)學(xué)中規(guī)模也可以稱得上是相當(dāng)巨大的,因而傳統(tǒng)的p值統(tǒng)計(jì)方法可能并不完全適用這種超級(jí)大樣本量的情形。由于統(tǒng)計(jì)檢驗(yàn)是樣本和效應(yīng)量的函數(shù),如果通過自然變異的早期效應(yīng)量很大,那么早期的p值很可能低于0.05。但最重要的原因是,每次計(jì)算p值時(shí),你都實(shí)際上仍在進(jìn)行統(tǒng)計(jì)測(cè)試,每多測(cè)算p值一次,就會(huì)有較大的概率獲得一個(gè)低于0.05的p值。
順便提一下,熟悉Airbnb的人可能會(huì)注意到,在寫這篇文章的時(shí)候,我們事實(shí)上已經(jīng)上線了新版的價(jià)格過濾器。盡管如前文所說,A/B測(cè)試的結(jié)果是中性的,但我們發(fā)現(xiàn),確實(shí)有一部分用戶會(huì)希望有這樣的篩選器能夠更快找到高端房源,因此我們決定在不損害已有體驗(yàn)的情況下,仍然為有這樣需求的用戶提供此種更好的體驗(yàn)。
那么實(shí)驗(yàn)應(yīng)該運(yùn)行多長(zhǎng)時(shí)間?為了防止統(tǒng)計(jì)學(xué)中的第二類錯(cuò)誤(取偽),最好的做法是在實(shí)驗(yàn)之前就確定改版所要達(dá)到的最低效果,并根據(jù)樣本量(每日新增訪問)和期望的顯著值,來計(jì)算出實(shí)驗(yàn)需要運(yùn)行的時(shí)間。evanmiller.org網(wǎng)站上提供了一個(gè)樣本和實(shí)驗(yàn)時(shí)長(zhǎng)計(jì)算器,可以模擬和計(jì)算一下。提前設(shè)定時(shí)長(zhǎng)還可以最大限度地減少在沒有效果的情況下卻錯(cuò)誤地“發(fā)現(xiàn)”效果的誤判。
但這里還有一個(gè)問題是,我們通常很難確定新版應(yīng)該要有多大的效果或者會(huì)有怎樣的效果。由于A/B測(cè)試是先測(cè)試、再應(yīng)用,因而這往往會(huì)導(dǎo)致,某次改版很可能是非常成功的,但由于測(cè)試時(shí)間過長(zhǎng),就影響了新版的及時(shí)上線,這會(huì)導(dǎo)致潛在利益的巨大損失;蛘,A/B測(cè)試也可能會(huì)導(dǎo)致產(chǎn)品在使用方面的bug,因此發(fā)現(xiàn)這樣的問題后應(yīng)當(dāng)立即停止測(cè)試,否則就會(huì)對(duì)用戶體驗(yàn)造成更多的傷害。
在實(shí)驗(yàn)時(shí),有時(shí)預(yù)先設(shè)定的時(shí)間結(jié)束之前,便會(huì)獲得具有顯著性的結(jié)果。在前文的價(jià)格過濾器例子中,你可以看到,當(dāng)?shù)谝淮芜_(dá)到預(yù)設(shè)的顯著性水平時(shí),效應(yīng)量曲線(藍(lán)色曲線)的走勢(shì)看起來還沒有完全收斂。有時(shí)候直覺思維會(huì)幫助我們做出判斷,某個(gè)顯著性結(jié)果是否達(dá)到了穩(wěn)態(tài)呢?因此我們要在實(shí)驗(yàn)進(jìn)程中不斷檢查,而不是機(jī)械地依靠單一的p值。
如果想在預(yù)設(shè)時(shí)間之前停止實(shí)驗(yàn),我們可以利用這一洞察來更正式地確定何時(shí)停止實(shí)驗(yàn)。如果你確實(shí)希望對(duì)正在測(cè)試的更改是否表現(xiàn)得特別好進(jìn)行自動(dòng)判斷,這將非常有用,尤其是當(dāng)你同時(shí)運(yùn)行多個(gè)實(shí)驗(yàn)而無法系統(tǒng)地手動(dòng)檢查實(shí)驗(yàn)的進(jìn)程時(shí),這也非常有幫助。這種所謂的直覺思維通常要以懷疑的眼光來看待早期的測(cè)試結(jié)果。這就意味著,在測(cè)試的早期,可以采用較低的p值來判斷測(cè)試結(jié)果的顯著性,當(dāng)隨著實(shí)驗(yàn)的進(jìn)行,積累了更多的測(cè)試數(shù)據(jù),便可以隨之接受更高的p值了,因?yàn)檫@時(shí)候犯二類錯(cuò)誤的概率要低得多。
Airbnb通過模擬測(cè)試獲得動(dòng)態(tài)的p值曲線,來判斷一個(gè)早期的顯著性結(jié)果是否真的值得信任,從而解決了如何確定停止實(shí)驗(yàn)的p值取值問題。我們編寫了一個(gè)程序,通過引入不同的變量,來模擬不同的效應(yīng)量和置信度結(jié)果,并以此來判斷改版對(duì)于轉(zhuǎn)化效果是否真的存在顯著影響。在圖6中,我們展示了某個(gè)測(cè)試模擬中得到的決策邊界:
這里要提請(qǐng)注意的是,這條曲線是基于某些特定變量而生成的曲線,未必適用其它的實(shí)驗(yàn)場(chǎng)景和實(shí)際情況。
來源:SMEI官方
以上是關(guān)于用戶增長(zhǎng)師的相關(guān)信息,以供大家查看了解。想要了解更多用戶增長(zhǎng)師信息,第一時(shí)間了解用戶增長(zhǎng)師相關(guān)資訊,敬請(qǐng)關(guān)注唯學(xué)網(wǎng)用戶增長(zhǎng)師欄目,如有任何疑問也可在線留言,小編會(huì)為您在第一時(shí)間解答!