在建立機器學習模型時，您會遵循四個關鍵步驟。選擇並製備訓練資料集 訓練資料是機器學習應用程式為調整模型參數而攝取的具有代表性的資料。訓練資料有時會被標記，這表示資料已被標記，以指出機器學習模式需要預測的分類或預期值。其他訓練資料可能是沒有標記的，因此模型必須擷取特徵並自主分配叢集。對於標記，資料應分為訓練子集和測試子集。前者用於訓練模型，後者則用於評估模型的有效性，並找出改善的方法。選擇應用於訓練資料集的演算法 您選擇的機器學習演算法類型主要取決於幾個方面：用例是使用標記訓練資料的數值預測或分類，還是使用未標記訓練資料的聚類或降維， 訓練集中有多少資料 模型要解決的問題的性質 對於預測或分類用例，您通常會使用迴歸演算法，例如普通最小平方迴歸或 logistic 迴歸。對於未標籤的資料，您可能會依賴聚類演算法，例如 k-means 或近鄰演算法。有些演算法 (例如神經網路) 可以設定為同時適用於聚類和預測用例。訓練演算法以建立模型 訓練演算法是調整模型變數和參數，以更精準地預測適當結果的過程。訓練機器學習演算法通常是迭代式的，並根據所選模型使用各種最佳化方法。這些最佳化方法不需要人為介入，這也是機器學習的威力之一。機器會從您提供的資料中學習，幾乎不需要使用者的特定指示。使用並改善模型 最後一個步驟是向模型提供新的資料，以隨時間的推移改善模型的有效性和準確性。新資訊的來源取決於要解決問題的性質。例如，用於自動駕駛汽車的機器學習模型會攝取真實世界中的路況、物件和交通法規資訊。

Q: 有監督和無監督的機器學習有何差異？

方面 有監督的學習 無監督的學習 過程 提供輸入和輸出變數以訓練模型。只提供輸入資料來訓練模型。不使用輸出資料。輸入資料 使用標記資料。使用未標示的資料。支援的演算法 支援回歸演算法、基於實例的演算法、分類演算法、神經網路和決策樹。支援聚類演算法、關聯演算法和神經網路。複雜性更簡單。更複雜。主觀性 客觀性。主觀。班級數目 已知班級數目。班級數量未知。主要缺點 使用監督學習對大量資料進行分類非常困難。群集數量的選擇可能是主觀的。主要目標 Train 模型可在出現新輸入時預測輸出。尋找有用的洞察力和隱藏的模式。

概述

機器學習是人工智慧的一個子集，專注於建立能夠從歷史資料中學習、識別模式，並在幾乎沒有人工干预的情況下做出合乎邏輯的決策的系統。它是一種資料分析方法，可透過使用包含各種形式數位資訊（包括數字、文字、點擊和影像）的資料，自動建立分析模型。

機器學習應用程式會從輸入資料中學習，並使用自動最佳化方法持續改善輸出的精確度。機器學習模型的品質取決於兩個主要方面：

輸入資料的品質。開發機器學習演算法的常用詞是「垃圾進，垃圾出」。這句話的意思是，如果您放入低品質或混亂的資料，那麼您的模型輸出很大程度上會不準確。
模型選擇本身。在機器學習中，有許多演算法可供資料科學家選擇，這些演算法都有其特定用途。為每種使用情況選擇正確的演算法至關重要。由於神經網路具有高準確性和多樣性，因此是一種受到熱烈討論的演算法類型。然而，對於低資料量，選擇較簡單的模型通常會有較好的表現。

機器學習模型越好，就能越準確地找到資料中的特徵和模式。反過來，這也意味著它的決策和預測會越精確。

OpenText ArcSight Intelligence for CrowdStrike

前所未有的保護功能，結合機器學習和端點安全，以及世界級的威脅獵捕服務。

了解更多

機器學習

為什麼機器學習很重要？

為什麼要使用機器學習？由於資料的數量和種類日益龐大、計算能力的可及性以及高速網際網路的可用性，機器學習的重要性與日俱增。這些數位轉換因素讓人們有可能快速、自動地開發模型，以快速、準確地分析異常龐大且複雜的資料集。

為了降低成本、減少風險和改善整體生活品質，機器學習可以應用在許多使用個案中，包括推薦產品/服務、偵測網路安全漏洞和啟用自動駕駛汽車。隨著資料和運算能力的更廣泛存取，機器學習每天都在變得更加無所不在，並將很快融入人類生活的許多層面。

機器學習如何運作？

在建立機器學習模型時，您會遵循四個關鍵步驟。

選擇和準備訓練資料集
訓練資料是機器學習應用程式將擷取以調整模型參數的代表性資料。訓練資料有時會被標記，這表示資料已被標記，以指出機器學習模式需要預測的分類或預期值。其他訓練資料可能是沒有標記的，因此模型必須擷取特徵並自主分配叢集。

對於標記，資料應分為訓練子集和測試子集。前者用於訓練模型，後者則用於評估模型的有效性，並找出改善的方法。
選擇應用於訓練資料集的演算法
您選擇的機器學習演算法類型主要取決於幾個方面：
- 無論用例是使用標記訓練資料的數值預測或分類，或是使用非標記訓練資料的聚類或降維。
- 訓練集中有多少資料
- 模型要解決問題的性質
對於預測或分類用例，您通常會使用回歸演算法，例如普通最小平方回歸或 logistic 回歸。對於未標籤的資料，您可能會依賴聚類演算法，例如 k-means 或近鄰演算法。有些演算法 (例如神經網路) 可以設定為同時適用於聚類和預測用例。
訓練演算法以建立模型
訓練演算法是調整模型變數和參數的過程，以更精準地預測適當的結果。訓練機器學習演算法通常是迭代式的，並根據所選模型使用各種最佳化方法。這些最佳化方法不需要人為介入，這也是機器學習的威力之一。機器會從您提供的資料中學習，幾乎不需要使用者的特定指示。
使用並改善模型
最後一個步驟是將新資料饋入模型，作為隨時間改進其有效性和準確性的手段。新資訊的來源取決於要解決問題的性質。例如，用於自動駕駛汽車的機器學習模型會攝取真實世界中的路況、物件和交通法規資訊。

機器學習方法

什麼是有監督的機器學習

有監督的機器學習演算法使用標記資料作為訓練資料，其中輸入資料的適當輸出是已知的。機器學習演算法攝取一組輸入和相對應的正確輸出。演算法會比較自己的預測輸出與正確輸出，以計算模型精確度，然後優化模型參數以提高精確度。

有監督的機器學習依賴模式來預測未標籤資料的值。它最常用於自動化、大量資料記錄或人類無法有效處理太多資料輸入的情況。例如，演算法可以找出可能是詐騙的信用卡交易，或識別出最有可能提出索賠的保險客戶。

什麼是無監督機器學習

無監督機器學習最適用於沒有結構化或客觀答案的資料。對於給定的輸入，並沒有預先確定正確的輸出。相反，演算法必須了解輸入內容，並形成適當的決策。目的是檢視資訊並找出其中的結構。

無監督的機器學習在交易資訊上運作良好。例如，演算法可辨識擁有相似屬性的客戶群。這些區塊中的客戶可以成為類似的行銷活動的目標。無監督學習中常用的技術包括最近鄰映射、自組圖、奇異值分解和 k-means 聚類。演算法隨後會用來分割主題、識別離群組和推薦項目。

有監督和無監督的機器學習有何差異？

外觀	監督學習	無監督學習
製程	輸入和輸出變數提供給訓練模型。	只提供輸入資料來訓練模型。不使用輸出資料。
輸入資料	使用標記資料。	使用未標示的資料。
支援的演算法	支援迴歸演算法、基於實例的演算法、分類演算法、神經網路和決策樹。	支援聚類演算法、關聯演算法和神經網路。
複雜性	更簡單。	更複雜。
主觀性	目標：	主觀。
班級數目	班級數量已知。	班級數量未知。
主要缺點	使用監督學習對海量資料進行分類非常困難。	群集數量的選擇可能是主觀的。
主要目標	訓練模型以預測新輸入時的輸出。	尋找有用的洞察力和隱藏的模式。

機器學習能做什麼：真實世界中的機器學習

雖然機器學習功能已存在數十年之久，但最近應用並自動計算涉及大資料的複雜數學運算的能力，卻讓機器學習功能變得前所未有的複雜。今天，機器學習的應用領域非常廣泛，從企業 AIOps到線上零售都有。現今機器學習能力的一些真實範例包括以下幾點：

網路安全使用行為分析來判斷可能顯示內部威脅、APT 或零時差攻擊的可疑或異常事件。
自動駕駛汽車專案，例如 Waymo(Alphabet Inc. 的子公司) 和 Tesla 的 Autopilot(比真正的自動駕駛汽車低一級)。
像 Siri、Alexa 和 Google Assistant 之類的數位助理，可根據我們的語音指令搜尋網路資訊。
由 Netflix、Amazon 和 YouTube 等網站和應用程式上的機器學習演算法驅動，為使用者量身打造的建議。
詐欺偵測與網路復原解決方案，可匯總來自多個系統的資料、發現客戶的高風險行為，並辨識可疑活動的模式。這些解決方案可使用有監督和無監督的機器學習，將金融機構的交易分類為詐欺或合法。這就是為什麼消費者可以收到信用卡公司的簡訊，確認使用消費者財務憑證的不尋常購買是否合法。機器學習在詐欺領域已發展得非常先進，許多信用卡公司都會向消費者宣傳，如果金融機構的演算法沒有抓到詐欺交易，就不會有任何過失。
影像識別技術已取得重大進展，並可可靠地用於臉部辨識、閱讀存入支票上的筆跡、交通監控以及計算房間內的人數。
垃圾郵件過濾器可偵測並阻止收件匣中不想要的郵件。
分析感測器資料以尋找提高效率和降低成本方法的公用事業。
可穿戴醫療裝置可即時擷取寶貴的資料，用於持續評估病患的健康狀況。
計程車應用程式可即時評估交通路況，並建議最有效率的路線。
情感分析可判斷一行文字的語調。情感分析的良好應用包括 Twitter、客戶評論和調查受訪者：
- Twitter：評估品牌的方法之一是偵測針對個人或公司的推文語氣。Crimson Hexagon 和 Nuvi 等公司可提供此即時功能。
- 客戶評論：您可以偵測客戶評論的語調，以評估貴公司的表現。如果沒有搭配自由文字客戶評論的評等系統，這一點尤其有用。
- 調查：對自由文字調查問卷回覆使用情感分析，可讓您一目了然地評估出調查問卷受訪者的感受。Qualtrics 的調查問卷已實施此功能。
市場區隔分析使用無監督的機器學習，根據購買習慣對客戶進行群組，以確定不同類型或角色的客戶。這可讓您更了解最有價值或服務不足的客戶。
按下 ctrl+F 鍵搜尋文件的確切字詞很容易，但如果您不知道要搜尋的確切字詞，搜尋文件就會很困難。機器學習可以使用模糊方法和主題建模等技術，可以讓您在不知道要尋找的確切詞句的情況下搜尋文件，讓這個過程變得更容易。

機器學習的角色只會持續增加

隨著資料量的增加、運算能力的提升、網路頻寬的擴充，以及資料科學家專業知識的提升，機器學習只會持續推動工作與家庭中更高更深的效率。

現今企業面對的網路威脅與日俱增，因此需要機器學習來保護寶貴的資料，並將駭客拒於內部網路之外。我們首屈一指的 UEBA SecOps 軟體 ArcSight Intelligence 使用機器學習來偵測可能顯示惡意行為的異常現象。它在偵測內部威脅、零時差攻擊，甚至是咄咄逼人的紅隊攻擊方面，都有良好的記錄。

Resources

What is Artificial Intelligence?

What is AIOps?

Predictive analytics using machine learning

MITRE ATT&CK machine learning