一個人如何準確地進行機器學習/人工智能的研究?該研究是否基于對算法的開發和改進?還是更專注于將算法應用于解決特定的科學問題?
今年6月,我慶祝兩個杰出成就:我在這個星球上完成了第六個十年,也是我在AI / ML領域進行活躍研究和學術出版物的第35年。我的第一篇學術論文發表在1985年的IJCAI上,我們剛剛獲悉,關于將強化學習擴展到非平穩的馬爾可夫決策過程的2020 ICML提交已被接受進行演示和出版。在過去的35年中,我在AI和ML上發表了150多篇論文,這給了我一些回答您重要問題的觀點。
那么,如何進行AI和ML研究呢?因此,如何在任何領域進行研究?什么是“研究”?它與其他活動(例如,編寫Python編譯器或在汽車中換油)有何不同?
所有基礎研究的核心都是一個問題。最好用一個例子來說明。多年來,我一直以開創性的女性天文學家塞西莉亞·佩恩·卡波什金(Cecilia Payne-Gaposchkin)的故事作為我為研究生做博士學位論文的榜樣。在這個博士論文中,很少有研究能像這位杰出的女性一樣重要。
塞西莉亞·佩恩(Cecilia Payne-Gaposchkin)-維基百科

25歲時,她在哈佛大學的博士學位論文回答了以下問題:宇宙中最常見的化學元素是什么?她認為這是氫,違背了普遍的科學智慧,也違背了博士導師的個人觀點,她的論文通過測量證明了自己是對的。las,我的第一篇學術論文無法與如此驚人的貢獻相提并論。
將AI和ML與物理學相提并論可能不公平。畢竟,人工智能和機器學習是更多的工程嘗試,研究人員傾向于構建軟件工件來證明某些智能行為,而不是像塞西莉亞那樣發現宇宙的某些基本特性。但是,任何研究領域的科學目標之間都有廣泛的相似之處。
研究中最重要且被忽略的部分是提出正確的問題。las,沒有人在課程或教科書中教您這一點。教科書包含知識。正如愛因斯坦常說的:

想象力使人們提出正確的問題。在AI和ML中,它們始終構成計算算法的形式化形式。我以一個最著名的博士生為例,他于1984年從我的前UMass Amherst實驗室畢業:理查德·薩頓(Richard Sutton)在安德魯·巴托(Andrew Barto)的指導下做了開創性的博士論文,探討了代理商如何學習解決“時間分配”問題。他的問題很簡單,但意義深遠:如果您只獲得延遲的反饋,例如在最后才知道的一場比賽中輸贏,那么在不知道最終判決的情況下,您如何在比賽中學習如何與對手比賽。
他不是第一個提出這個基本問題的人。IBM的開創性研究人員Arthur Samuel在1959年提出了相同的問題,并提出了第一個ML程序,該程序學會了在沒有鍵盤或顯示屏的IBM 701電子管上通過自彈奏跳棋的方法,并提出了相同的問題。或編程語言!

塞繆爾(Samuel)和薩頓(Sutton)都研究了相同的問題,時間信用分配和相同的算法,時間差異學習,但里奇·薩頓(Rich Sutton)通過更深入的分析將TD學習的研究推向了新的數學高度。值得注意的是,以我的經驗,這是史無前例的,Rich在36年后繼續致力于他的博士學位論文問題。在我看來,他比其他任何機器學習研究人員都更能舉例說明計算科學家的理想,他對智能行為的基本問題深感興趣。

因此,人們實際上是如何進行ML或AI研究的。最重要的是,您需要熱情和奉獻精神。沒有多余的空間。Rich體現了這種奉獻精神。在過去的36多年中,他每天都在考慮TD學習。我保證你比其他任何人都更了解它,甚至包括他的前博士學位顧問和我的前UMass同事安德魯·巴托(Andrew Barto),我有幸與他共同領導了自主學習實驗室超過15年。沒有Rich的見解,Deep Mind在Alpha Go和Atari視頻游戲上使用深度強化學習所做的所有出色工作都不可能實現。
另一杰出的博士學位論文將增強學習的研究推向新的高度,由英格蘭國王學院的克里斯·沃特金斯(Chris Watkins)完成。克里斯的博士論文簡稱為“從延遲獎勵中學習”。Chris研究了與Samuel和Sutton相同的問題,但是將TD學習與運籌學,動態規劃和Markov決策過程聯系起來至關重要。他的論文貢獻了基本的Q學習算法,這是第一種無模型的最優控制方法。這說明了研究的另一個重要組成部分:將思想從一個領域連接到另一個領域。在Watkins博士論文發表30年后,Q學習仍然是強化學習中使用最廣泛的算法。在過去的三十年中,已經撰寫了成千上萬篇有關Q學習的論文。
最后,我要最后談一談如何進行研究。許多科學家深信簡單的重要性。愛因斯坦說得最好:一切都應該盡可能簡單,但不要簡單。這通常被稱為Occam的剃刀。

Q學習的一個基本問題是,即使與簡單的線性函數逼近結合使用,Q學習也不可靠地收斂,更不用說Deep Mind的工程師喜歡使用的龐大的非線性神經網絡了。我對這個問題的研究導致提出了一種新的Q學習公式,該理論探索了如何使用優化理論中的強大工具(例如近端梯度)為該問題提供新的見解。我的前博士生在2015年的著名AI不確定性(UAI)會議上獲得了Facebook最佳學生論文獎,這是因為他關于該問題的論文,這導致了《 AI Research》上更長的期刊文章。
梯度TD的這種新公式在數學上是優雅的,但不容易理解。您需要深入了解優化算法才能了解算法。不用說,這種復雜性與薩頓等計算科學家背道而馳。他提出了一種更簡單的TD公式,稱為TD,在線性函數逼近下更穩定。
這說明了科學是如何工作的。科學家不是冷血而是熱情。他們爭論很多。他們持有強烈的意見。愛因斯坦直到臨終之日都拒絕相信量子力學。他最喜歡的評論是:

他在與量子理論先驅尼爾斯·布爾(Nils Bohr)的辯論中經常這樣說,他最終激怒了愛因斯坦:不要告訴上帝該怎么做!
任何領域的科學研究最終都是一種精神體驗。對于任何經歷過靈感的人來說,那一刻的靈感都是一種提升。一生無休無止的辛勞,終生沒有更好的回報。
我生動地記得大約15年前,當時我試圖了解強化學習主體如何通過反復試驗探索其環境,從而發現其潛在的對稱性。簡而言之:結構如何從隨機性中出現?這就是我一直在努力理解的問題。我的解決方案是一個稱為“原型值函數”的想法,與Q學習估計的常規值函數不同,它不是從特定于任務的獎勵中獲得的,而是與任務無關的領域幾何結構派生的。基礎數學使用了拉普拉斯算子的優美思想,它被稱為數學和物理學中最美麗的物體。
拉普拉斯算子以其各種表現形式是所有數學中最美麗,最中心的對象。概率論,數學物理學,傅立葉分析,偏微分方程,李群理論和微分幾何都圍繞著太陽旋轉,它的光甚至穿透了諸如數論和代數幾何之類的晦澀區域。”—尼爾森,張量分析。
其他研究人員以許多有趣且新穎的方式擴展了我關于原型值函數的ICML 2005論文。Deep Mind和阿爾伯塔大學的研究人員最近發表的一篇論文表明,與繼任表示有著很好的聯系,海馬中存在來自神經科學的證據。
如您所見,數學,物理學,神經科學,人工智能和機器學習有時在研究中完美地結合在一起,而我很幸運地通過自己的研究看到了這種情況。
為了使故事走到盡頭,研究最終是關于對美麗和真理的追求,這是許多科學家的同義詞。沒有人比傳說中的詩人濟慈更擅長寫這首詩,這首著名的詩作是《希臘頌》。最后的節激勵了許多科學家。
“美麗是真理,真理是美麗,這就是全部
你們在地球上知道,你們需要知道的一切。”



















