技術主題

什麼是機器學習?

以問號為重點的 IT 項目圖示

概述

機器學習是人工智慧的一個子集,專注於構建可以從歷史數據中學習、識別模式並做出邏輯決策的系統,幾乎不需要人工干預。它是一種數據分析方法,通過使用包含各種形式的數字資訊(包括數位、文字、點擊和圖像)的數據來自動構建分析模型。

機器學習應用程式從輸入數據中學習,並使用自動優化方法不斷提高輸出的準確性。機器學習模型的質量取決於兩個主要方面:

  1. 輸入數據的品質。關於開發機器學習演算法的一個常用短語是「垃圾輸入,垃圾輸出」。這句話的意思是,如果你輸入低品質或混亂的數據,那麼你的模型的輸出將在很大程度上是不準確的。
  2. 模型選擇本身。在機器學習中,數據科學家可以選擇大量的演算法,這些演算法都有自己的特定用途。為每個用例選擇正確的演算法至關重要。神經網路是一種演算法類型,由於它可以提供高精度和多功能性,因此圍繞它進行了大量炒作。但是,對於少量數據,選擇更簡單的模型通常會表現更好。

機器學習模型越好,它就越能準確地找到數據中的特徵和模式。反過來,這意味著它的決策和預測將更加精確。

OpenText ArcSight CrowdStrike 的智慧

將機器學習和端點安全與世界一流的威脅搜尋即服務相結合的前所未有的保護。

瞭解更多資訊

機器學習

為什麼機器學習很重要?

為什麼要使用機器學習?由於數據量和種類的增加、計算能力的可及性和可負擔性以及高速互聯網的可用性,機器學習的重要性與日俱增。這些數字化轉型因素使人們能夠快速、自動地開發模型,這些模型可以快速準確地分析非常大和複雜的數據集。

機器學習可以應用於多種用例,以降低成本、降低風險和提高整體生活品質,包括推薦產品/服務、檢測網路安全漏洞和啟用自動駕駛汽車。隨著對數據和計算能力的訪問越來越多,機器學習每天都變得越來越普遍,並將很快融入人類生活的許多方面。


機器學習是如何工作的?

創建機器學習模型時,需要遵循四個關鍵步驟。

  1. 選擇並準備訓練數據集

    訓練數據是代表機器學習應用程式將引入以優化模型參數的數據的資訊。訓練數據有時會被標記,這意味著它已被標記以調用機器學習模式需要預測的分類或期望值。其他訓練數據可能未標記,因此模型必須自動提取特徵並分配聚類。

    對於標記,數據應分為訓練子集和測試子集。前者用於訓練模型,後者用於評估模型的有效性並找到改進方法。

  2. 選擇要應用於訓練數據集的演算法

    您選擇的機器學習演算法類型主要取決於以下幾個方面:

    • 無論用例是使用標記訓練數據的值或分類的預測,還是使用未標記的訓練數據進行聚類或降維的用例
    • 訓練集中有多少數據
    • 模型試圖解決的問題的性質

    對於預測或分類用例,您通常會使用回歸演算法,例如普通最小二乘回歸或邏輯回歸。對於未標記的數據,您可能會依賴聚類演算法,例如 k 均值或最近鄰。一些演算法(如神經網路)可以配置為同時處理聚類和預測用例。

  3. 訓練演算法以構建模型

    訓練演算法是調整模型變數和參數以更準確地預測適當結果的過程。機器學習演算法的訓練通常是反覆運算的,並根據所選模型使用各種優化方法。這些優化方法不需要人工干預,這是機器學習功能的一部分。機器從你提供的數據中學習,幾乎沒有使用者的具體指導。

  4. 使用和改進模型

    最後一步是向模型提供新數據,作為隨著時間的推移提高其有效性和準確性的一種手段。新資訊的來源取決於要解決的問題的性質。例如,自動駕駛汽車的機器學習模型將攝取有關道路狀況、物體和交通法規的真實資訊。


機器學習方法

什麼是監督式機器學習

監督式機器學習演算法使用標記數據作為訓練數據,其中輸入數據的適當輸出是已知的。機器學習演算法引入一組輸入和相應的正確輸出。該演算法將自己的預測輸出與正確的輸出進行比較,以計算模型精度,然後優化模型參數以提高精度。

監督式機器學習依賴於模式來預測未標記數據的值。它最常用於自動化、大量數據記錄或數據輸入過多而人類無法有效處理的情況。例如,該演算法可以識別可能具有欺詐性的信用卡交易,或者識別最有可能提出索賠的保險客戶。

什麼是無監督機器學習

無監督機器學習最好應用於沒有結構化或客觀答案的數據。對於給定的輸入,沒有預先確定正確的輸出。相反,演算法必須理解輸入並形成適當的決策。目的是檢查資訊並識別其中的結構。

無監督機器學習在事務資訊上效果很好。例如,該演算法可以識別具有相似屬性的客戶群。然後,這些細分市場中的客戶可以通過類似的行銷活動成為目標。無監督學習中使用的流行技術包括最近鄰映射、自組織映射、奇異值分解和 k 均值聚類。這些演算法隨後用於細分主題、識別異常值和推薦專案。


監督機器學習和無監督機器學習有什麼區別?

方面

監督學習

無監督學習

過程

提供輸入和輸出變數來訓練模型。

僅向訓練模型提供輸入數據。不使用輸出數據。

輸入數據

使用標記的數據。

使用未標記的數據。

支援的演算法

支援回歸演算法、基於實例的演算法、分類演算法、神經網路和決策樹。

支援聚類演算法、關聯演算法和神經網路。

複雜性

簡單。

更複雜。

主觀性

目的。

主觀。

班級數

類數是已知的。

類數未知。

主要缺點

使用監督學習對海量數據進行分類是很困難的。

選擇集群數量可能是主觀的。

主要目標

訓練模型以在出現新輸入時預測輸出。

查找有用的見解和隱藏的模式。


機器學習能做什麼:現實世界中的機器學習

雖然機器學習功能已經存在了幾十年,但最近應用和自動計算涉及大數據的複雜數學計算的能力賦予了它前所未有的複雜性。當今機器學習應用的領域非常廣泛,從企業 AIOps 到在線零售。當今機器學習功能的一些真實範例包括:

  • 網路安全 使用行為分析來確定可能表明內部威脅APT 或零日攻擊的可疑或異常事件。
  • 自動駕駛汽車專案,如Waymo(Alphabet Inc.的子公司)和特斯拉的Autopilot,它比實際的自動駕駛汽車低了一步。
  • Siri、Alexa 和 Google Assistant 等數位助理,它們會根據我們的語音命令在網路上搜索資訊。
  • 使用者定製的推薦,由 Netflix、Amazon 和 YouTube 等網站和應用程式上的機器學習演算法驅動。
  • 欺詐檢測和網路彈性解決方案,可聚合來自多個系統的數據,發現表現出高風險行為的客戶並識別可疑活動模式。這些解決方案可以使用有監督和無監督的機器學習將金融機構的交易分類為欺詐或合法交易。這就是為什麼消費者可以從他們的信用卡公司獲得簡訊,以驗證使用消費者的財務憑證進行的異常購買是否合法。機器學習在欺詐領域已經變得如此先進,以至於如果金融機構的演算法沒有發現欺詐易,許多信用卡公司就會向消費者宣傳無過錯。
  • 圖像識別已經取得了重大進展,可以可靠地用於面部識別、讀取存入支票上的筆跡、交通監控和計算房間內的人數。
  • 垃圾郵件過濾器,用於檢測和阻止收件匣中不需要的郵件。
  • 分析感測器數據以找到提高效率和降低成本的方法的公用事業公司。
  • 可穿戴醫療設備,可即時捕獲有價值的數據,用於持續評估患者的健康情況。
  • 計程車應用程式即時評估交通狀況並推薦最有效的路線。
  • 情緒分析確定一行文本的語氣。情感分析的良好應用是 Twitter、客戶評論和調查受訪者:
    • Twitter:評估品牌的一種方法是檢測針對個人或公司的推文的語氣。Crimson Hexagon 和 Nuvi 等公司提供這種實時服務。
    • 客戶評論:您可以檢測客戶評論的語氣,以評估您的公司的表現。如果沒有與免費文本客戶評論配對的評級系統,這將特別有用。
    • 調查:對自由文本調查回復使用情緒分析可以讓您一目了然地評估調查受訪者的感受。Qualtrics 在他們的調查中實現了這一點。
  • 市場細分分析使用無監督機器學習根據購買習慣對客戶進行聚類,以確定不同類型的客戶或角色。這使您可以更好地瞭解最有價值或服務不足的客戶。
  • 按 ctrl+F 在文件中搜索確切的單詞和短語很容易,但如果您不知道要查找的確切措辭,則搜索文件可能很困難。機器學習可以使用模糊方法等技術,主題建模可以讓你在不知道你正在尋找的確切措辭的情況下搜索文檔,從而使這個過程變得更加容易。

機器學習的作用只會繼續增長

隨著數據量的增長、計算能力的提高、互聯網頻寬的擴展以及數據科學家專業知識的增強,機器學習只會繼續推動工作和家庭的更高、更深入的效率。

隨著當今企業面臨的網路威脅不斷增加,需要機器學習來保護有價值的數據並將駭客拒之門外。我們首屈一指的 UEBA SecOps 軟體, ArcSight 智慧,使用機器學習來檢測可能表明惡意行為的異常。它在檢測內部威脅、零日攻擊甚至激進的紅隊攻擊方面有著良好的記錄。

我們能提供什麼協助?

腳注