做用戶研究,新手常犯的那些錯誤
筆者在過往的從業(yè)經(jīng)歷中,經(jīng)常體會到的一點就是,因為種種研究往往小公司進行用戶研究的時候過于草率和缺乏方法,最后得出的結論并不具備代表性。雖然筆者也沒有進行過專業(yè)訓練,只是自學了一些統(tǒng)計學和用戶研究方法,但還是有些心得總結給到新人。
一、調查方式用對了么?
筆者供職于某社交平臺的時候,受命去某新區(qū)域拓荒,下飛機就接到了產(chǎn)品組的任務,要求測試該產(chǎn)品在該區(qū)域的網(wǎng)絡連接情況。面對這種問題,筆者只能花了半天時間,盡量在不同網(wǎng)絡環(huán)境下,用自己的手機打開APP,然后用秒表記錄APP各個模塊API的拉取時間。
雖然最后的結論確定是確實慢,延遲大。
但我的測試樣本并不具備代表性,
從地域上,我一直在該國首都測試,理論上大部分國家首都都是當?shù)赝ㄐ艞l件最好的區(qū)域之一,并不代表其他區(qū)域的網(wǎng)絡狀況。
從網(wǎng)絡環(huán)境上,我雖然盡量測試了該國的所有運營商的電話卡,和好幾個公共WIFI,但都是在酒店、露天、餐廳等環(huán)境中測試的,潛在用戶自己家里的網(wǎng)絡環(huán)境是什么樣的呢?無從得知。
第三,測試設備是我自己帶的港版手機,其實和該國的網(wǎng)絡頻段并不完全重疊,并不具備代表性。其次,我只能用卡秒表的方式進行觀測,本身就有誤差;再次,因為觀測對象是返回的動畫,所以卡頓完全沒法分清是手機性能卡頓還是網(wǎng)絡環(huán)境造成的卡頓。
在移動互聯(lián)網(wǎng)時代,這種調查完全不應該由前線人員操作,而是應該產(chǎn)品本身部署firebase performance monitoring之類的網(wǎng)絡探針直接由用戶端上報和業(yè)務服務器api接口通信時間來達成,這樣才能解決覆蓋的廣度和精確性問題。
二、注意不回復問卷的人
無反應誤差是問卷調查中特別容易出現(xiàn)的問題,1989年美國達拉斯的調查員進行了一個關于人們對于艾滋病看法的調查,被抽樣的個體被要求完成一份自填式問卷,并由現(xiàn)場抽取血樣。這項研究取得了驚人的84%的響應率:一些人可能認為這個比率明顯表明高質量。但為了確定是否存在非響應偏差,研究人員回頭對非響應者的隨機樣本進行了再次調查,并成功讓其中一些人參與。
這一努力揭示,在最初的數(shù)據(jù)收集工作中,HIV風險行為 (如靜脈注射毒品和男男性行為) 的流行率被低估了。最初參與者中只有3%報告從事過靜脈注射毒品,而在后續(xù)參與者中這一比例為7%。同樣,最初參與者中只有約5%報告從事過男男性行為,而后續(xù)參與者中這一比例約為17%。
因為當時美國南方還是相對保守的,恐艾心理的作用下,有過高風險行為的人更傾向于不參加這個調查。
同樣的例子,如果將對于自己產(chǎn)品的調查問卷放到banner位之類的地方,你很難獲得負向反饋。因為不喜歡你產(chǎn)品的大多數(shù)人更喜歡直接卸載,離開完事兒,你獲得的反饋更有可能來自于你的重度用戶。
三、樣本特性
筆者在負責語音房類產(chǎn)品早期推廣的時候,剛上的Bigo ads渠道沒過幾天就受到了數(shù)據(jù)部門和運營部門質疑,懷疑是流量造假,理由是新用戶注冊登錄率比FB/GG高了10%,但是最核心的次日留存和使用時長都比FB/GG的表現(xiàn)差。
但這個時候只需要匯總兩個數(shù)據(jù)就能解答這個問題,首先是往下拆分的運營數(shù)據(jù)里,Bigo ads渠道首日注冊的進房率、上Mic率、公屏聊天率都是高于其他渠道的,結合前面的注冊登錄率偏高,說明活躍度很高。
詢問bigo的am, 該平臺歷史上的產(chǎn)品廣告消耗占比,視頻直播/語音房等泛社交產(chǎn)品在當時超過了7成。
同時邏輯上,我們當時因為剛開始推廣測試,日均消耗不過200、300美金,廣告平臺犯不著為了這點小錢專門為我們這個產(chǎn)品設計一套作弊方案,甚至連上Mic和公屏打字都模擬出來。
那么答案呼之欲出,因為Bigo本身就是泛社交平臺出身,所以他們廣告平臺上吸引的客戶也大多是同類客戶,但是Bigo ads畢竟是小平臺,覆蓋的人群有限,廣告庫存有限。所以會用語音房產(chǎn)品的用戶都已經(jīng)經(jīng)歷過多款不同產(chǎn)品的洗禮了,且語音房平臺本來產(chǎn)品設計同質化就嚴重。所以對于bigo ads的受眾而言,今天無非又多了一個新語音房可以玩,這些老司機駕輕熟路的注冊登陸,上mic,聊天,發(fā)現(xiàn)這個早期產(chǎn)品也沒什么和別的不一樣的賣點,于是直接卸載走人。這就造成了首日活躍行為很強,但是時長、留存均不理想的情況。
同樣的情況,筆者在很多工具產(chǎn)品上也觀察到過,雖然可能以Android和iOS用戶進行整體對比,發(fā)現(xiàn)用戶各項數(shù)據(jù)相差較大的情況。但如果我們拆出高端Android手機,比如三星S系列旗艦機,用戶行為就會和iOS用戶很相似,因為這兩款產(chǎn)品本身就互為競品,在很多國家這兩個系列用戶間的特征差別僅僅只是操作系統(tǒng)偏好。
四、問卷設計是門科學和技術
設計一份合理的問卷是很難,很多用戶研究專家一輩子可能最大的成就就是設計出一套經(jīng)典問卷。
首先是人類本來的特性:比如你有一款泛受眾產(chǎn)品,你在街上隨機詢問路人產(chǎn)品體驗大概率只會得到正回饋,第一,他可能正有事情做,想要快速結束對話 (這種情況只能察言觀色的時候不把對方的回答視為有效) 。第二,除了少部分反社會人格,人類通常,特別是對陌生人,在不損害自己利益的情況下,給予褒揚。人群總體會傾向于給你面子,給你的產(chǎn)品更高的反饋。
其次,響應式謬誤,和前面達拉斯對于HIV的調查相反,人類對于很多問題會積極給予錯誤的響應。
最近的知名例子就是總統(tǒng)選舉前川普的支持率是遠遠被低估的,因為MAGA運動的排外反移民傾向,在有移民傳統(tǒng)的美國是非常政治不正確的,很多川普的支持者都是沉默選民,并不會公開表達自己的政治傾向,但會真的投出那一票。
筆者遇到的例子是,筆者曾經(jīng)做過一個外出打工青年和家里長輩互聯(lián)網(wǎng)互動行為的調查。其中需要一個參數(shù)來判斷該青年和家庭的親密度,但我直接問“你和你家里人關系好么?”是個完全沒有用的偽響應,因為我們東亞儒家文明里,“關系不好”很大程度上等于不孝順,而孝這個概念在傳統(tǒng)道德里是個絕大的政治正確,特別是在這些青年出身的農村地區(qū)。
所以筆者換成了,“你父母生日是哪年幾月幾號?”( 還好那個時候電詐還不猖獗,不然也是無效問題) ,“你多久跟家里聯(lián)系一次”“上次跟家里人聯(lián)系是什么時候”,這三個問題,側面計算和家里的親密度。
本文來自微信公眾號: 老海盜的小酒館 ,作者:老海盜