<video id="rew6m"><dfn id="rew6m"></dfn></video>

<b id="rew6m"><address id="rew6m"></address></b>

<source id="rew6m"><address id="rew6m"><ol id="rew6m"></ol></address></source>

<b id="rew6m"><small id="rew6m"></small></b>

<b id="rew6m"></b>

<b id="rew6m"></b>

人工智能幫助揭開海洋和我們腸道中病毒的奧秘

病毒是微生物生態系統中一種神秘且知之甚少的力量。研究人員知道，它們可以感染、殺死和操縱人類和細菌細胞幾乎每個環境，從海洋到你的腸道。

但科學家們還沒有全面了解病毒如何影響周圍的環境，這在很大程度上是因為它們具有非凡的多樣性和快速進化的能力.

微生物群落很難在實驗室環境中進行研究。許多微生物的培養具有挑戰性，它們的自然環境已經更多功能影響他們的成功或失敗比科學家在實驗室中可以復制的要多。

所以像我這樣的系統生物學家通常對樣本中存在的所有 DNA 進行測序——例如，來自患者的糞便樣本——分離出病毒DNA序列然后批注各部分編碼蛋白質的病毒基因組。

這些關于基因的位置、結構和其他特征的注釋有助于研究人員了解病毒在環境中可能執行的功能，并幫助識別不同種類的病毒。

研究人員通過將樣本中的病毒序列與先前注釋的序列進行匹配來注釋病毒公共數據庫病毒基因序列.

然而，科學家們正在鑒定從環境中收集的DNA中的病毒序列遠遠超過的速度我們注釋這些基因的能力。這意味著研究人員正在使用不可接受的一小部分可用數據來發表有關微生物生態系統中病毒的發現。

為了提高研究人員在全球范圍內研究病毒的能力，我和我的團隊已經開發了一種新穎的方法使用以下方法注釋病毒序列人工智能.

通過類似于 ChatGPT 等大型語言模型但特定于蛋白質的蛋白質語言模型，我們能夠對以前看不見的病毒序列進行分類。這為研究人員打開了大門，不僅可以更多地了解病毒，還可以解決當前技術難以回答的生物學問題

使用 AI 注釋病毒

大型語言模型使用大型文本數據集中單詞之間的關系，為未明確“教”出答案的問題提供潛在答案。

例如，當你問聊天機器人“法國的首都是什么？”時，該模型不會在首都城市表中查找答案。相反，它正在利用其對大量文件和信息數據集的訓練來推斷答案：“法國的首都是巴黎。

同樣地蛋白質語言模型是經過訓練的人工智能算法，可以識別來自世界各地環境的數十億個蛋白質序列之間的關系。通過這種訓練，他們可能能夠推斷出一些關于病毒蛋白的本質及其功能的信息。

我們想知道蛋白質語言模型是否可以回答這個問題：“給定所有注釋的病毒基因序列，這個新序列的功能是什么？

在我們的概念驗證，我們在預先訓練的蛋白質語言模型中對先前注釋的病毒蛋白序列進行神經網絡訓練，然后使用它們來預測新病毒蛋白序列的注釋。

我們的方法使我們能夠探測模型在導致特定注釋的特定病毒序列中“看到”的內容。這有助于根據它們的特定功能或它們的基因組排列方式來識別感興趣的候選蛋白質，從而篩選出大量數據集的搜索空間。

原綠球菌是研究人員以前從未見過的具有蛋白質的眾多海洋細菌之一。(Anne Thompson/Chisholm 實驗室，麻省理工學院，通過 Flickr）

通過識別更遠相關的病毒基因功能，蛋白質語言模型可以補充當前的方法，為微生物學提供新的見解。

例如，我和我的團隊能夠使用我們的模型來發現一個以前未識別的整合酶– 一種可以將遺傳信息移入和移出細胞的蛋白質 – 在全球豐富的海洋皮藍藻中原綠球菌和聚球菌.

值得注意的是，這種整合酶可能能夠將基因移入和移出海洋中的這些細菌種群，并使這些微生物能夠更好地適應不斷變化的環境。

我們的語言模型還識別了一個新型病毒衣殼蛋白這在全球海洋中很普遍。我們制作了第一張關于其基因如何排列的圖片，表明它可以包含不同的基因集，我們認為這些基因表明了這一點病毒在其環境中提供不同的功能。

這些初步發現僅代表了我們方法提供的數千個注釋中的兩個。

分析未知

大多數數以百計數以千計新發現病毒仍然存在未分類.許多病毒基因序列與功能未知或以前從未見過的蛋白質家族相匹配。我們的研究表明，類似的蛋白質語言模型可以幫助研究我們星球上許多未表征的病毒的威脅和前景。

雖然我們的研究集中在全球海洋中的病毒上，但改進病毒蛋白的注釋對于更好地了解病毒在人體健康和疾病中的作用至關重要。

我們和其他研究人員假設病毒在人類腸道微生物組中的活性可能會被更改當你生病時。這意味著病毒可能有助于識別微生物群落中的壓力。

然而，我們的方法也有局限性，因為它需要高質量的注釋。研究人員正在開發更新的蛋白質語言模型，將其他“任務”作為訓練的一部分，特別是預測蛋白質結構以檢測相似的蛋白質，以使它們更強大。

使所有 AI 工具都可通過以下方式使用FAIR數據原則- 可查找、可訪問、可互操作和可重復使用的數據 - 可以幫助廣大研究人員意識到這些注釋蛋白質序列的新方法的潛力，從而帶來有益于人類健康的發現。

利布莎·凱利，系統與計算生物學、微生物學和免疫學副教授，阿爾伯特愛因斯坦醫學院

本文轉載自對話根據知識共享許可。閱讀原文.

寶寶起名起名

本站所有相關知識僅供大家參考、學習之用，部分來源于互聯網，其版權均歸原作者及網站所有，如無意侵犯您的權利，請與小編聯系，我們將會在第一時間核實并給予反饋。

相關期刊推薦

湖北農機化

湖北農機化

農業基礎科學 - 省級期刊

計算機產品與流通

計算機產品與流通

信息科技 - 省級期刊

現代企業文化

現代企業文化

企業經濟 - 國家級期刊

今日消防

今日消防

合作期刊 - 省級期刊

現代信息科技

現代信息科技

信息科技 - 省級期刊

名師在線

名師在線

合作期刊 - 省級期刊

中國信息化

中國信息化

合作期刊 - 國家級期刊

農民致富之友

農民致富之友

農業經濟 - 省級期刊

知識經濟

知識經濟

合作期刊 - 省級期刊

運輸經理世界

運輸經理世界

交通運輸經濟 - 國家級期刊

記者觀察

記者觀察

合作期刊 - 省級期刊

公司: 關于我們; 招聘; 學術動態; 萬方; 經濟研究導刊

用戶: 學術咨詢; 投訴建議

聯系我們: 郵箱：marketing@kuaiqikan.com

<video id="rew6m"><dfn id="rew6m"></dfn></video>

<b id="rew6m"><address id="rew6m"></address></b>

<source id="rew6m"><address id="rew6m"><ol id="rew6m"></ol></address></source>

<b id="rew6m"><small id="rew6m"></small></b>

<b id="rew6m"></b>

<b id="rew6m"></b>

初爱视频教程免费看