數(shù)據(jù)大盜:小米與拼多多的電商數(shù)據(jù)是如何被賣到華爾街的?
本文授權(quán)轉(zhuǎn)載自公眾號“阿爾法工場”(ID:alpworks),作者為美股寶貝。
就在小米上市前夜,華爾街的一位華裔基金經(jīng)理點開了一封未讀郵件,郵件寫道:
想知道小米的銷售數(shù)據(jù)嗎?我們提供實時數(shù)據(jù),按照品牌和產(chǎn)品分類。線上的數(shù)據(jù)是從天貓和京東獲取的;產(chǎn)品數(shù)據(jù)包括手機、掃地機器人等。而且,我們還提供小米和其他品牌廠商的對比。如果感興趣,請點擊回復。
神秘郵件瞬間激起了這位基金經(jīng)理的興趣。
畢竟,華爾街玩的就是一場信息游戲。在股票市場,誰能提前得知消息,誰就可以預先布局,從而產(chǎn)生 “阿爾法”(超額收益)。
正在疑惑這封郵件來自哪里,他的目光正好掃到了署名處:Sandalwood。
登錄 Sandalwood 官網(wǎng),這家公司的主業(yè)看起來像是投資咨詢。而事實上,Sandalwood 是一家數(shù)據(jù)交易商。
“數(shù)據(jù)大盜”
今年以來,越來越多涉及中概股的投資者,開始聽說并談論起 “數(shù)據(jù)大盜” 這個神秘的存在。
狹義地說,所謂 “數(shù)據(jù)大盜”,是指那些通過特定互聯(lián)網(wǎng)網(wǎng)絡技術(shù)手段,從電商公司的平臺上獲取相關(guān)上市公司銷售數(shù)據(jù),繼而將這些數(shù)據(jù) “清洗” 整理后,出售給機構(gòu)投資者的 “另類數(shù)據(jù)公司”。
在他們的工作流程中,主要分為這幾個步驟:收集數(shù)據(jù),清洗數(shù)據(jù),分析數(shù)據(jù),銷售數(shù)據(jù)。
作為其中的典型代表之一,Sandalwood 系由一位名為 Tony 的華裔創(chuàng)立于 2015 年,自稱是亞洲最大的上市公司數(shù)據(jù)公司之一。
▲ Sandalwood 只是另類數(shù)據(jù)的玩家之一
Sandalwood?的主要工作,除了主動爬取相關(guān)電商平臺的數(shù)據(jù)之外,還從多家原始數(shù)據(jù)公司買入原生數(shù)據(jù)或清洗好的數(shù)據(jù),進行銷售。
不同于那些初級 “數(shù)據(jù)大盜”,Sandalwood 本身還是一個數(shù)據(jù)平臺,并號稱客戶可以通這個平臺訪問 7 個獨特的數(shù)據(jù)源。
Sandalwood 的客戶,一般是資本市場中的買方,也就是那些代表他人投資股票和債券的基金——他們是尋求超額回報最積極的參與者。
更詳細地說,Sandalwood 最看重的客戶,是美國對沖基金中的量化基金。他們多看重并使用數(shù)據(jù)來產(chǎn)生 “阿爾法”。
眾所周知,華爾街對于 “阿爾法” 的追求從來沒有停下過腳步。在過去的 150 年中,“阿爾法” 的來源平均每 10-20 年就要變化一次。
在 20 世紀 50 年代,最初的對沖基金發(fā)明了多頭 / 空頭股票策略。在 20 世紀 80 年代,數(shù)學和計算機比手持式計算器更具優(yōu)勢。在 21 世紀初,阿爾法是高頻交易。
這些策略或工具一度讓那些能夠首先使用它們的人比其他人更有優(yōu)勢。但隨著它們變得越來越普遍,它們的優(yōu)勢消失了,投資者不得不尋找新的策略工具。
目前看來,在如今的數(shù)字經(jīng)濟中,使用那些由海量數(shù)據(jù)掩蓋下的獨特的、金融市場以前不知道的信息內(nèi)容,是 “阿爾法” 的下一個來源。
客戶希望從數(shù)據(jù)中獲得優(yōu)勢,這便對 Sandalwood 所代表的另類數(shù)據(jù)公司們提出了更高的要求。他們需要數(shù)據(jù)比現(xiàn)在使用的更快或更準確,或者它必須提供以前無法獲得的獨特見解。
Sandalwood 們常見的數(shù)據(jù)采集手段,包括比如網(wǎng)絡爬蟲,信用卡跟蹤,電子郵件破解,地理位置軟件,衛(wèi)星,主流 APP 應用等——這些我們會在下文逐一揭示。
但是為了區(qū)別于對手,所有 “數(shù)據(jù)大盜” 都必須拼命去尋找更快更準確的數(shù)據(jù)來源。為此,其中的部分從業(yè)者選擇了直接和電商平臺進行交易,直接獲取第一手的產(chǎn)品銷售數(shù)據(jù)。
有利潤的地方就會有交易。對于數(shù)據(jù)交易商而言,還有什么從電商平臺獲取的直接數(shù)據(jù)更好呢;對于電商平臺而言,身坐在價值連城的海量電商數(shù)據(jù)之上,為什么不變現(xiàn)呢?
有了第一手的領(lǐng)先數(shù)據(jù),數(shù)據(jù)交易商便可以輕而易舉地打敗其他對手,也幫助對沖基金贏得了 “阿爾法。
風險:內(nèi)幕交易與隱私保護
對于這樣的好用的信息,對沖基金往往一擲千金,數(shù)據(jù)公司幾十萬美金的年費似乎不在話下。
摩根大通估計,投資管理行業(yè)對大數(shù)據(jù)的支出在 20 億 – 30 億美元,而且這個數(shù)字的年增長率,在以每年兩位數(shù)的速度狂奔。
如此火爆的數(shù)字交易產(chǎn)業(yè)合法嗎?
之前,美國證券交易委員會(SEC)已成功起訴涉及數(shù)據(jù)公司的內(nèi)幕交易案件。該案件涉及兩名數(shù)據(jù)分析師通過分析信用卡交易獲取重大非公開信息。
由于他們未經(jīng)數(shù)據(jù)所有者同意而獲得訪問權(quán),因內(nèi)幕交易而被起訴,并被迫支付超過 1800 萬美元的罰款。
SEC 曾指控美國第一資本投資國際集團(Capital One)雇傭的兩名數(shù)據(jù)分析師,在 2013 年 11 月至 2015 年 1 月期間,對至少 170 家上市公司有關(guān)的信用卡交易專有數(shù)據(jù)庫進行搜索。被告人 Bonan Huang 和 Nan Huang 使用這些數(shù)據(jù),在上市公司財報發(fā)布前利用期權(quán)交易股票。
內(nèi)幕交易是指,知悉證券交易內(nèi)幕信息的知情人和非法獲取內(nèi)幕信息的人,利用內(nèi)幕信息自己買賣證券、建議他人買賣證券,或者泄露內(nèi)幕信息使他人利用該信息買賣證券,從中牟利或者避免損失的行為。
這其中涉及到幾個關(guān)鍵的概念,包括可以影響市場價值的重要信息(Materiality)、未公開(Dissemination)的以及信托責任(Fiduciary Duty)。
數(shù)據(jù)交易產(chǎn)業(yè)鏈中的內(nèi)幕交易風險在于,有相當體量的數(shù)據(jù)是能夠帶來優(yōu)勢的,也就是產(chǎn)生出影響市場價值的信息。
問題在于,由于數(shù)據(jù)集需要購買,一些機構(gòu)有渠道購買,但普通投資者則無法獲取該信息。
所以盡管理論上數(shù)據(jù)集是可以公開采集和購買的,但事實上并非如此。所以,在某些情況下,如果使用或出售某些數(shù)據(jù),特別上市公司季報公布前的銷售數(shù)據(jù),將涉嫌構(gòu)成內(nèi)幕交易。
在美國,對內(nèi)幕交易的定罪不僅要求證明信息是重要的和非公開的,還要證明違反了信托責任(Fiduciary Duty),也就是說信息是在未經(jīng)所有者同意的情況下獲得的。
由于許多電話和信用卡公司在其合同中包含允許其出售信息的條款,因此該條件很少得到滿足。但是隨著數(shù)據(jù)的不斷增多,同意不充分的可能性增加,從而增加了違反受托人義務的風險。
在歐洲,雖然不需要這一條來證明內(nèi)幕交易,但其他方面的標準更高。
除此之外,隱私則是一個更大的問題——難道你忘了當前仍令臉書(Facebook;NASDAQ:FB)焦頭爛額額那檔子事?
數(shù)據(jù)采集手段:從爬蟲到衛(wèi)星
為了能夠得到買家的青睞,數(shù)據(jù)公司的采集數(shù)據(jù)的手段可謂無所不用其極,其獲取渠道至少包括:網(wǎng)絡爬蟲,信用卡跟蹤,電子郵件破解,地理位置軟件,衛(wèi)星,主流 APP 應用……
1.爬蟲數(shù)據(jù)
網(wǎng)絡爬蟲是一種常用的收集數(shù)據(jù)的手段,許多的原始數(shù)據(jù)采集公司,都在公共網(wǎng)站、社交媒體、在線社區(qū)、郵件插件上搜索可能有價值的信息。
例如從應用程序和用戶評論的下載,到航空公司和酒店通過票務網(wǎng)站接收預訂的信息。而通過社交媒體網(wǎng)站,則可以獲取有關(guān)消費者觀點和趨勢的提示。
網(wǎng)絡爬蟲可以跟蹤很多東西,從雜貨到汽車銷售的價格趨勢。分析師可以通過抓取消費者網(wǎng)站上產(chǎn)品的評論,來評估新產(chǎn)品的推出和產(chǎn)品生命周期。
比如下圖所展示的一家叫做 Thinknum 的數(shù)據(jù)銷售公司,不僅提供多家在美上市公司的領(lǐng)先數(shù)據(jù),還提供相關(guān)的投資分析服務:
包括特斯拉車的庫存數(shù)據(jù),以及各社交網(wǎng)絡上和用戶的交互數(shù)據(jù)。
以及剛剛在香港上市的小米的社交網(wǎng)站的數(shù)據(jù)。當然,這是免費版的界面,相信付費版中提供的內(nèi)容會更加豐富。
而這家名為 Yipit Data 的數(shù)據(jù)分析公司,不但覆蓋多家已經(jīng)上市的中概股,就是連剛剛遞交招股說明書的拼多多的數(shù)據(jù),它都有!
2.信用卡追蹤數(shù)據(jù)
這里面另一個重要的數(shù)據(jù)來源,便是對消費者信用卡的跟蹤。這些數(shù)據(jù)可以直接顯示消費者真實的身份信息,以及在哪些產(chǎn)品上花錢的信息。
雖然它只能描繪出局部的銷售趨勢,但結(jié)合其他數(shù)據(jù)集,它們可以為機構(gòu)投資者提供非常重要的判斷依據(jù)。
于是,信用卡公司便成為了一座金礦。信用卡交易數(shù)據(jù)是最有價值的細分市場之一,是消費類公司收入的頭等指標。
3.數(shù)據(jù)廢氣(exhaust data)
數(shù)據(jù)廢氣指公司記錄保存的副產(chǎn)品數(shù)據(jù)。許多科技公司都產(chǎn)生了數(shù)據(jù)廢氣,作為其核心活動的副產(chǎn)品,例如銀行記錄,超市掃描儀數(shù)據(jù)或供應鏈數(shù)據(jù)。
這些數(shù)據(jù)廢氣是由一些可存儲的選項產(chǎn)生的,操作和首選項,例如日志文件,插件,臨時文件,甚至是為數(shù)字化完成的每個流程或事務生成的信息。
其中最有價值的莫過于接口廢氣。這是指網(wǎng)站從前使用的數(shù)據(jù)接口,后來不用了也沒有刪除。一些數(shù)據(jù)公司便可以介入這些接口,獲取上市公司的數(shù)據(jù)。
4.地理定位信息
智能手機配備了位置服務,允許我們使用地圖或天氣功能,但也讓移動運營商隨時了解我們的位置。
這些數(shù)據(jù)對于希望了解我們正在訪問的商店、酒店或餐館,以及尋找消費趨勢線索的機構(gòu)投資者來說,非常的有價值。
5.傳感器及衛(wèi)星數(shù)據(jù)
無論是來自衛(wèi)星、智能手機、物聯(lián)網(wǎng)還是其他,傳感器產(chǎn)生的數(shù)據(jù)都是增長最快、價值越來越高的另類數(shù)據(jù)。傳感器產(chǎn)生的數(shù)據(jù)包括衛(wèi)星圖像數(shù)據(jù),行人步行和汽車交通,船舶位置。
傳感器數(shù)據(jù)通常是非結(jié)構(gòu)化的,并且比個人或流程生成的數(shù)據(jù)流要大得多。衛(wèi)星成像可能是最常見的例子,但地理位置數(shù)據(jù)越來越重要,因為它用于跟蹤零售店的步行流量。
傳感器數(shù)據(jù)將變得越來越重要,因為物聯(lián)網(wǎng)正在變得更加普及,尤其是將微處理器和網(wǎng)絡技術(shù),嵌入個人和商業(yè)電子設(shè)備。
林林總總贅述了這么多,想必你仍好奇開頭那位基金經(jīng)理,對于數(shù)據(jù)大盜與 “另類數(shù)據(jù)” 最終作何處理。根據(jù)他的陳述,就在當晚,他已將郵件打印了出來,并放入了第二天會議的文件夾中。