數據科學研究論文有哪些好主題?
非常感謝這個問題:#數據科學研究論文的一些好主題是什么?
成為專業數據科學家的25個提示!
嗨朋友們,我自2014年以來一直在一家獵頭公司工作,主修數據科學,人工智能,深度學習......讓我分享一些驚人的提示,成為一名專業人士,ata scientiist如下。我希望你喜歡它。(參考kdnuggets)。
1.利用外部數據源:有關貴公司或競爭對手的推文,或來自供應商的數據(例如,可通過供應商儀表板提供的可定制新聞簡報eBlast統計數據,或通過提交票證)
核物理學家,機械工程師和生物信息學專家可以成為偉大的數據科學家。
3.正確陳述您的問題,并使用合理的指標來衡量數據科學計劃提供的產量(超過基線)。
4.在任何項目中,從頭開始使用正確的KPI(關鍵指標)和正確的數據。由于基礎不良而導致的變化非常昂貴。這需要仔細分析您的daata以創建有用的數據庫。
5.參考此資源:74個秘密成為專業數據科學家
6.對于大數據,強信號(極值)通常是噪聲。這是一個解決方案。
7.大數據的價值低于有用數據。
8.使用來自第三方供應商的大數據來獲取競爭情報。
9.您可以非常快速地構建廉價,優秀,可擴展,強大的工具,而無需使用傳統的統計科學。考慮一下無模型技術。
10.大數據,比您想象的更容易,成本更低。獲得合適的工具!這是如何開始。
11.相關性不是因果關系。本文可能會幫助您解決此問題。另請閱讀此博客和本書。
12.您不必永久存儲所有數據。對于舊數據,使用智能壓縮技術,并僅保留統計摘要。
13.當da,ta發生變化時,不要忘記調整指標,以保持趨勢一致性。
14.在沒有數據庫的情況下可以做很多事情,特別是對于大數據。
15.在任何da,ta科學項目的早期,始終包括EDA和DOE(探索性分析/實驗設計)。始終創建一個da,ta字典。并遵循任何da,ta科學項目的傳統生命周期。
16. Da,ta可用于多種用途:
- 質量保證
- 尋找可操作的模式(股票交易,欺詐檢測)
- 轉售給您的企業客戶
- 優化決策和流程(運營研究)
- 用于調查和發現(IRS,訴訟,欺詐檢測,根本原因分析)
- 機器對機器通信(自動投標系統,自動駕駛)
- 預測(銷售預測,增長和財務預測,天氣)
17.不要轉儲Excel。擁抱輕型??分析。Da,ta +模特+直覺+直覺是完美的組合。在決策過程中不要刪除任何這些成分。
18.利用復合指標的力量:從da,tabase字段派生的KPI,其預測能力遠遠優于原始d,atabase指標。例如,您的da,tabase可能包含單個關鍵字字段,但不區分用戶查詢和搜索類別(有時因為d,ata來自各種來源并混合在一起)。檢測問題,并創建一個名為關鍵字類型的新指標 - 或d,ata source。另一個例子是IP地址類別,這是一個應該創建并添加到所有數字分析項目的基本指標。
19.什么時候需要真正的實時處理?欺詐檢測至關重要,或處理敏感交易d,ata(信用卡欺詐檢測,911呼叫)時。除此之外,延遲分析(延遲幾秒到24小時)就足夠了。
20.確保您的敏感d,ata得到很好的保護。確保您的算法不會被犯罪黑客或商業黑客篡改(監視您的業務并竊取他們可能的所有法律或非法行為,并危及您的算法 - 這會導致嚴重的收入損失)。商業黑客的一個例子可以在本文的第3節中找到。
21.將多個模型混合在一起以檢測多種類型的模式。平均這些模型。這是模型混合的一個簡單示例。
22.在購買軟件之前提出正確的問題。
23.在兩種情況之間進行選擇之前,運行蒙特卡洛模擬。
24.對于相同的d,ata使用多個源:您的內部源,以及來自一個或兩個供應商的d,ata。了解這些不同來源之間的差異,以便更好地了解實際數字應該是什么。當某個供應商更改度量標準定義或在內部更改或數據已更改(某些字段不再被跟蹤)時,有時會出現較大的差異。一個典型的例子是網絡流量數據:使用內部日志文件,Google Analytics和其他供應商(比如埃森哲)來跟蹤這些數據。
25.快速交付優于極端準確性。無論如何,所有數據集都是臟的。找到完美和快速回報之間的完美妥協。



















