這套算法的基本邏輯就是:根據相似電影的票房規律預測新電影的票房,相似電影的選取會有若干條件(如類型、評分、所處檔期、票房體量、近期走勢等),然后基于這些相似電影,構建預測天級票房或總票房的機器學習模型。
以預測《哪吒》票房為例,貓眼在前期參考其類型、評分因素,以《大圣歸來》為參考影片,后期《哪吒》的票房走勢出來后,貓眼發現他與《戰狼2》的走勢相像,參考《戰狼2》的走勢調整接下來的票房預測。在《哪吒》上映期間,根據多部上映影片的表現情況實時調整其預測票房。
在國外,谷歌也有一套自己的算法預測模型。谷歌的算法模型主要利用搜索、廣告點擊數據以及院線排片來預測票房。2013年,谷歌就宣布其模型預測票房與真實票房的吻合程度達到了94%。
與此同時,谷歌通過分析自身的數據還發現,在上映前四周時,大部分電影的預告片都是這個時間發布并開始密集的投放廣告,因此,這個階段的用戶搜索信息與票房的相關性會更加緊密。
DataHunter也提到了算法大數據預測票房的難點所在:很多大數據分析工具并不考慮因果性,只考慮相關性,經常會帶來“虛假相關”的問題,也就是無法對于數據變化的真正原因進行歸因。在大多數場景下,這樣的預測并沒有什么問題,但是在特定的場景下,偏離預測的情況仍有可能會發生。
此外不成熟的市場環境,以及潛在的風險因素,也會對票房預測產生關鍵影響。比如影片檔期選擇、宣發策略的一招失誤,就可能導致整個影片的票房成幾倍的誤差。而某個關鍵演員的負面新聞也同樣會帶來不可預期的影響,例如某位主演丑聞,導致《情圣2》撤檔。