編譯/齊葉
每當一項科技日益進步,通常也會逐漸變得普及,但在機器投資領域卻非如此。投資人想擁有能幫自己贏過市場的電腦選股模型,短時間內恐怕仍難實現。
這並非因華爾街對此欠缺興趣。華爾街為投資市場打造科學化模型的努力,從1980年代中期就已開始,不僅吸引各方具有數學和電腦科學背景頂尖人才投身,且包括Renaissance Technologies、PDT Partners、D.E. Shaw等一小撮避險基金經理人已藉此取得出色回報。
現今許多績效領先的基金業者,與當初主導創建科學投資模型的,恰是同一批人,但你的財力和人脈或許不足以和這些人一起投資。
機器投資仍屬於少數精英層級的理由之一很明顯。事實證明,為你投資比預測你會在亞馬遜買什麼東西更難。哥倫比亞大學商學院教授兼Bourbaki量化策略開發者莫雷米(Ciamac Moallemi)說:「這是機器學習應用上最大的難題之一。」
以金融工程師試圖解決的某些困難為例:
市場數據瞬息萬變
用量化術語來說就是「非穩態」──除非做了整形手術,否則你的眼睛離鼻子多遠,應是具穩定性的數據,這代表投放數百張你的照片來訓練機器後,它有很高機率能辨識出你。但市場數據卻非如此。
在金融市場,數據有可能以劇烈且無前例可考的方式變化。例如,2013年歐洲大部分地區和日本前所未見地採行負利率;或1998年美股價位由分數轉為小數。這對電腦來說要調整不難,但可能使一些人類交易員感到慌亂。
Renaissance前研究員惠尼說:「那改變了市場部分結構,同時可能也改變了一些行為。」
雜訊比信號多
股市永遠在變動,且不一定有理由。大部分市場內行為都是經濟學家所謂的「雜訊交易」。用圖像辨識來類比,想像一台電腦試圖辨識出在黑暗中拍攝的照片裡的人物,照片所提供絕大部分數據都是雜訊,即無用的黑色畫素。
而且從數據集的角度來說,股市歷史資料相對短淺。假設你想預測未來1年股價的變動,但美股可回溯的良好紀錄僅到1900年,代表只有118筆非重疊數據可參考,完全比不上1天處理照片量就達3.5億張的社群平台龍頭臉書。在圖像辨識訓練中,只需將照片轉向或改變顏色就能創造出新數據,但要人為擴增金融數據集很困難。
能尋覓的優勢很小
一個明顯的信號用處不大,例如在每月第1天買進股票。若過去這個策略有效,不過是僥倖,就算不是僥倖,也很快會被別人發現。因此,專業研究員反而更專注非常微弱的信號,但就算用於預測未來股價,確定性也可能僅51%,意味能由此獲得的「優勢」其實很小。