一個人如何準確地進行機器學習/人工智能的研究？該研究是否基于對算法的開發和改進？還是更專注于將算法應用于解決特定的科學問題？

今年6月，我慶祝兩個杰出成就：我在這個星球上完成了第六個十年，也是我在AI / ML領域進行活躍研究和學術出版物的第35年。我的第一篇學術論文發表在1985年的IJCAI上，我們剛剛獲悉，關于將強化學習擴展到非平穩的馬爾可夫決策過程的2020 ICML提交已被接受進行演示和出版。在過去的35年中，我在AI和ML上發表了150多篇論文，這給了我一些回答您重要問題的觀點。

那么，如何進行AI和ML研究呢？因此，如何在任何領域進行研究？什么是“研究”？它與其他活動（例如，編寫Python編譯器或在汽車中換油）有何不同？

所有基礎研究的核心都是一個問題。最好用一個例子來說明。多年來，我一直以開創性的女性天文學家塞西莉亞·佩恩·卡波什金（Cecilia Payne-Gaposchkin）的故事作為我為研究生做博士學位論文的榜樣。在這個博士論文中，很少有研究能像這位杰出的女性一樣重要。

塞西莉亞·佩恩（Cecilia Payne-Gaposchkin）-維基百科

25歲時，她在哈佛大學的博士學位論文回答了以下問題：宇宙中最常見的化學元素是什么？她認為這是氫，違背了普遍的科學智慧，也違背了博士導師的個人觀點，她的論文通過測量證明了自己是對的。las，我的第一篇學術論文無法與如此驚人的貢獻相提并論。

將AI和ML與物理學相提并論可能不公平。畢竟，人工智能和機器學習是更多的工程嘗試，研究人員傾向于構建軟件工件來證明某些智能行為，而不是像塞西莉亞那樣發現宇宙的某些基本特性。但是，任何研究領域的科學目標之間都有廣泛的相似之處。

研究中最重要且被忽略的部分是提出正確的問題。las，沒有人在課程或教科書中教您這一點。教科書包含知識。正如愛因斯坦常說的：

想象力使人們提出正確的問題。在AI和ML中，它們始終構成計算算法的形式化形式。我以一個最著名的博士生為例，他于1984年從我的前UMass Amherst實驗室畢業：理查德·薩頓（Richard Sutton）在安德魯·巴托（Andrew Barto）的指導下做了開創性的博士論文，探討了代理商如何學習解決“時間分配”問題。他的問題很簡單，但意義深遠：如果您只獲得延遲的反饋，例如在最后才知道的一場比賽中輸贏，那么在不知道最終判決的情況下，您如何在比賽中學習如何與對手比賽。

他不是第一個提出這個基本問題的人。IBM的開創性研究人員Arthur Samuel在1959年提出了相同的問題，并提出了第一個ML程序，該程序學會了在沒有鍵盤或顯示屏的IBM 701電子管上通過自彈奏跳棋的方法，并提出了相同的問題。或編程語言！

塞繆爾（Samuel）和薩頓（Sutton）都研究了相同的問題，時間信用分配和相同的算法，時間差異學習，但里奇·薩頓（Rich Sutton）通過更深入的分析將TD學習的研究推向了新的數學高度。值得注意的是，以我的經驗，這是史無前例的，Rich在36年后繼續致力于他的博士學位論文問題。在我看來，他比其他任何機器學習研究人員都更能舉例說明計算科學家的理想，他對智能行為的基本問題深感興趣。

因此，人們實際上是如何進行ML或AI研究的。最重要的是，您需要熱情和奉獻精神。沒有多余的空間。Rich體現了這種奉獻精神。在過去的36多年中，他每天都在考慮TD學習。我保證你比其他任何人都更了解它，甚至包括他的前博士學位顧問和我的前UMass同事安德魯·巴托（Andrew Barto），我有幸與他共同領導了自主學習實驗室超過15年。沒有Rich的見解，Deep Mind在Alpha Go和Atari視頻游戲上使用深度強化學習所做的所有出色工作都不可能實現。

另一杰出的博士學位論文將增強學習的研究推向新的高度，由英格蘭國王學院的克里斯·沃特金斯（Chris Watkins）完成。克里斯的博士論文簡稱為“從延遲獎勵中學習”。Chris研究了與Samuel和Sutton相同的問題，但是將TD學習與運籌學，動態規劃和Markov決策過程聯系起來至關重要。他的論文貢獻了基本的Q學習算法，這是第一種無模型的最優控制方法。這說明了研究的另一個重要組成部分：將思想從一個領域連接到另一個領域。在Watkins博士論文發表30年后，Q學習仍然是強化學習中使用最廣泛的算法。在過去的三十年中，已經撰寫了成千上萬篇有關Q學習的論文。

最后，我要最后談一談如何進行研究。許多科學家深信簡單的重要性。愛因斯坦說得最好：一切都應該盡可能簡單，但不要簡單。這通常被稱為Occam的剃刀。

Q學習的一個基本問題是，即使與簡單的線性函數逼近結合使用，Q學習也不可靠地收斂，更不用說Deep Mind的工程師喜歡使用的龐大的非線性神經網絡了。我對這個問題的研究導致提出了一種新的Q學習公式，該理論探索了如何使用優化理論中的強大工具（例如近端梯度）為該問題提供新的見解。我的前博士生在2015年的著名AI不確定性（UAI）會議上獲得了Facebook最佳學生論文獎，這是因為他關于該問題的論文，這導致了《 AI Research》上更長的期刊文章。

漸近時間差異學習：具有多項式樣本復雜度的穩定強化學習

梯度TD的這種新公式在數學上是優雅的，但不容易理解。您需要深入了解優化算法才能了解算法。不用說，這種復雜性與薩頓等計算科學家背道而馳。他提出了一種更簡單的TD公式，稱為TD，在線性函數逼近下更穩定。

這說明了科學是如何工作的。科學家不是冷血而是熱情。他們爭論很多。他們持有強烈的意見。愛因斯坦直到臨終之日都拒絕相信量子力學。他最喜歡的評論是：

他在與量子理論先驅尼爾斯·布爾（Nils Bohr）的辯論中經常這樣說，他最終激怒了愛因斯坦：不要告訴上帝該怎么做！

任何領域的科學研究最終都是一種精神體驗。對于任何經歷過靈感的人來說，那一刻的靈感都是一種提升。一生無休無止的辛勞，終生沒有更好的回報。

我生動地記得大約15年前，當時我試圖了解強化學習主體如何通過反復試驗探索其環境，從而發現其潛在的對稱性。簡而言之：結構如何從隨機性中出現？這就是我一直在努力理解的問題。我的解決方案是一個稱為“原型值函數”的想法，與Q學習估計的常規值函數不同，它不是從特定于任務的獎勵中獲得的，而是與任務無關的領域幾何結構派生的。基礎數學使用了拉普拉斯算子的優美思想，它被稱為數學和物理學中最美麗的物體。

拉普拉斯算子以其各種表現形式是所有數學中最美麗，最中心的對象。概率論，數學物理學，傅立葉分析，偏微分方程，李群理論和微分幾何都圍繞著太陽旋轉，它的光甚至穿透了諸如數論和代數幾何之類的晦澀區域。”—尼爾森，張量分析。

其他研究人員以許多有趣且新穎的方式擴展了我關于原型值函數的ICML 2005論文。Deep Mind和阿爾伯塔大學的研究人員最近發表的一篇論文表明，與繼任表示有著很好的聯系，海馬中存在來自神經科學的證據。

海馬作為預測圖

如您所見，數學，物理學，神經科學，人工智能和機器學習有時在研究中完美地結合在一起，而我很幸運地通過自己的研究看到了這種情況。

為了使故事走到盡頭，研究最終是關于對美麗和真理的追求，這是許多科學家的同義詞。沒有人比傳說中的詩人濟慈更擅長寫這首詩，這首著名的詩作是《希臘頌》。最后的節激勵了許多科學家。

約翰·濟慈的希臘c上的頌詩歌基金會

“美麗是真理，真理是美麗，這就是全部

你們在地球上知道，你們需要知道的一切。”

寶寶起名起名

本站所有相關知識僅供大家參考、學習之用，部分來源于互聯網，其版權均歸原作者及網站所有，如無意侵犯您的權利，請與小編聯系，我們將會在第一時間核實并給予反饋。

相關期刊推薦