如何用數據分析來預測奧斯卡最佳影片獎
一年一度的奧斯卡頒獎又要開始了。 2005年, 李安導演憑藉《斷背山》獲得最佳導演獎,可惜與最佳影片獎失之交臂。 這次, 李安導演又一次攜《少年派的奇幻漂流》再次衝擊奧斯卡。
在一週前的金球獎, 《逃離德黑蘭》爆冷擊敗了《林肯》和《少年派的奇幻漂流》獲得最佳影片獎。 這讓很多人都覺得不可思議。 雖然藝術評委的思維模式往往與大衆相左(參考閱讀:社會化輿情分析,你信奧斯卡還是IBM), 但實際上數據分析仍然有可能爲我們“劇透”今年的奧斯卡最佳影片獎得主。 好吧, 以下本人就試着用R分析一下吧。
奧斯卡的原始數據可以到去下載這個文件, 這個文件包括了從1927年到2010年奧斯卡提名和獲獎的所有數據。
有了這個原始數據集, 我們就可以開始我們的數據分析項目了。
首先確定項目的目標: 我希望能夠分析從最佳影片提名中預測最後產生的獲獎影片。 首先要做得是確定預測樣本的特徵值, 觀察了一下原始數據集, 我們可以把一些肯定與最佳影片無關的獎項去掉(比如最佳動畫長片, 最佳短片, 最佳外語片等)。 最後 我選擇了下面這些獎項:
最佳男主角, 最佳男配角, 最佳女主角, 最佳女配角, 最佳藝術指導, 最佳攝影, 最佳服裝設計, 最佳導演, 最佳影片剪輯, 最佳化妝, 最佳原創音樂, 最佳原創歌曲, 最佳混音, 最佳音效, 最佳視覺效果和最佳劇本。
其中, 奧斯卡的最佳劇本其實分最佳原創劇本和最佳改編劇本, 但是原始數據把二者合併了。 (這也是數據分析中常常會碰到的情況。 不過對我們來說影響不大)。
然後, 就是根據這些特徵值, 對數據集進行整理。 這部分工作, 其實在一般的數據分析項目裏, 大約佔到60%的時間。 確實沒有搞模型什麼的有意思, 不過很多數據分析項目實施的好壞和數據整理其實有很大的關係。
我在這裏主要是把特徵值進行擴展, 把獲得提名和獲得最後獎項做爲兩個特徵來看, 對每個獎項, 如果獲得提名, 則獲得提名定值爲1, 否則爲0。 如果該獎項沒有獲得提名, 則獲得最後獎項的值爲0 , 如果獲得提名並得獎, 則爲1。 同時還需要把歷年的“最佳影片”的提名和獲獎數據從原始數據集中取出來。 這些工作可以用R語言來完成,見附件中的代碼。 總共最後整理成了一個共有 485個觀察樣本, 每個樣本有32個特徵值的數據集。 接着, 把這485個樣本進行分組, 我按照80:20原則, 把80%的樣本作爲訓練樣本組, 20%的樣本作爲驗證預測模型的驗證組。
接下來就是進行預測模型的選擇。 由於我們是個分類問題, 所以可以選擇分類模型。 這個數據集相對較小, 因此不同模型的差別應該不大。 這裏我先選擇用迴歸樹來做分析。 用R裏面的迴歸樹的包, 可以很容易的進行決策樹的構建。 最後的決策樹模型的ROC是0.877. 下圖是決策樹的示意。
決策樹的一個好處就是比較直觀, 這個決策樹簡單來說, 就是這樣進行預測判斷的, 首先是判斷是否獲得“最佳導演獎”, 如果獲得最佳導演, 則判斷是否有“最佳影片剪輯提名”。 如果沒有, 則獲獎概率爲38%, 如果有最佳影片剪輯提名, 看是否獲得“最佳劇本”獎, 如果沒有, 則得獎概率爲63%, 如果獲得了, 則繼續看是否獲得“最佳混音”提名。 如此類推。
如此看來, 獲得奧斯卡最佳影片獎的關鍵是獲得奧斯卡最佳導演獎。 如果沒有導演獎, 那麼獲最佳影片獎的概率頂多就是37%。
好, 我們來看看《少年派》, 少年派獲得了導演獎的提名, 而如果獲得了導演獎, 那麼由於它本身已經是“最佳影片剪輯”提名, 所以即便不能拿到“最佳劇本”獎, 獲獎概率也能達到63%, 而如果再拿到“最佳劇本獎”, 由於已經獲得“最佳混音”提名, 所以幾乎就能夠鐵定獲獎了。
而對《林肯》來說也是這樣的, 因爲林肯也獲得了最佳導演, 最佳剪輯和最佳劇本的提名, 所以, 《少年派》和《林肯》之間的`對決主要是在最佳導演的爭奪上了。 至於《逃離德黑蘭》, 由於沒有獲得最佳導演獎的提名, 所以, 它的獲獎概率最多可以到37%。 當然, 這個概率也比5選1的20%的概率要高。
爲了看一看各個特徵值對於最終獲獎的影響, 我們也可以用邏輯迴歸的模型看一下, 下面是邏輯迴歸的出來的各特徵值的權重, (ROC = 0.873,和決策樹差不多)。
這裏面可以看到, 最佳導演獲獎依然是影響最大的因素, 其次是最佳化妝獎。 有意思的是, 有些提名或者獲獎反而會降低得“最佳影片獎”的概率。 比如說“最佳音效獎得獎”或者“最佳視覺效果提名”。 也可能這些是對“最佳影片”的落榜影片的“安慰獎”。
“數據可視化是科學, 也是藝術”,指出數據可視化是科學藝術和設計的結合,而我們現在做的,則是用數據分析預測藝術市場。 在我們觀看奧斯卡頒獎典禮的時候, 因爲最佳影片是最後一個頒獎的, 所以大家可以把決策樹拿出來, 對照着前面頒獎的情況進行觀看, 是不是會更有意思呢。
對數據分析愛好者來說, 我的R代碼和整理過的數據集見附件(請登錄下載), 讀者也可以自己研究一下, 也許還能發現更好的模型。 或者還可以把金球獎的數據包括進來。 看看《逃離德黑蘭》獲得金球獎對它獲得奧斯卡獎有多大影響。
Via:IT經理網
最佳導演獲獎 | 3.826687 |
最佳化妝獲獎 | 3.036705 |
最佳音效提名 | 1.908622 |
最佳男主角獲獎 | 1.641444 |
最佳服裝獲獎 | 1.611889 |
最佳劇本獲獎 | 1.27472 |
最佳影片剪輯提名 | 0.838309 |
最佳原創歌曲提名 | 0.763278 |
最佳男配角提名 | 0.644326 |
最佳藝術指導獲獎 | 0.558941 |
最佳影片剪輯獲獎 | 0.471427 |
最佳女配角獲獎 | 0.454053 |
最佳服裝提名 | 0.383574 |
最佳混音獲獎 | 0.343589 |
最佳混音提名 | 0.295055 |
最佳化妝提名 | 0.198427 |
最佳原創音樂提名 | 0.188186 |
最佳藝術指導提名 | 0.171621 |
最佳女主角獲獎 | 0.108964 |
最佳導演提名 | 0.094558 |
最佳女配角提名 | 0.083959 |
最佳視覺效果獲獎 | -0.02597 |
最佳男配角獲獎 | -0.19262 |
最佳攝影獲獎 | -0.32458 |
最佳原創音樂獲獎 | -0.37605 |
最佳女主角提名 | -0.39106 |
最佳男主角提名 | -0.59084 |
最佳攝影提名 | -0.71286 |
最佳原創歌曲獲獎 | -0.75752 |
最佳劇本提名 | -0.78589 |
最佳視覺效果提名 | -0.86435 |
最佳音效獲獎 | -2.07864 |
-
【精】實用的西遊記作文7篇
在平凡的學習、工作、生活中,許多人都寫過作文吧,藉助作文人們可以實現文化交流的目的。那麼你有了解過作文嗎?以下是小編整理的西遊記作文7篇,僅供參考,希望能夠幫助到大家。西遊記作文篇1《西遊記》我已經讀了好幾遍了,它在四大名著中是最生動活潑的,每次讀他,面...
-
(熱)西遊記學生作文10篇
在日常學習、工作和生活中,說到作文,大家肯定都不陌生吧,藉助作文人們可以實現文化交流的目的。爲了讓您在寫作文時更加簡單方便,以下是小編幫大家整理的西遊記學生作文10篇,歡迎閱讀與收藏。西遊記學生作文篇1《西遊記》第三回:大鬧天宮,悟空拿着金箍棒回到了花果山,...
-
數學評課稿【精】
作爲一名教學工作者,很有必要精心設計一份評課稿,評課的類型很多,有同事之間互相學習、共同研討評課;有學校領導診斷、檢查的評課;有上級專家鑑定或評判的評課等。我們該怎麼去寫評課稿呢?以下是小編整理的數學評課稿,僅供參考,大家一起來看看吧。數學評課稿1宋老師的...
-
讀西遊記作文400字共10篇
在平時的學習、工作或生活中,許多人都有過寫作文的經歷,對作文都不陌生吧,作文一定要做到主題集中,圍繞同一主題作深入闡述,切忌東拉西扯,主題渙散甚至無主題。如何寫一篇有思想、有文采的作文呢?以下是小編爲大家整理的讀西遊記作文400字10篇,僅供參考,歡迎大家閱讀。...