기술 주제

머신러닝이란 무엇인가요?

물음표에 초점을 맞춘 IT 항목의 일러스트레이션

개요

머신러닝은 사람의 개입이 거의 또는 전혀 없이도 과거 데이터를 학습하고 패턴을 식별하며 논리적인 결정을 내릴 수 있는 시스템을 구축하는 데 초점을 맞춘 인공 지능의 하위 집합입니다. 숫자, 단어, 클릭 수, 이미지 등 다양한 형태의 디지털 정보를 포괄하는 데이터를 사용하여 분석 모델 구축을 자동화하는 데이터 분석 방법입니다.

머신러닝 애플리케이션은 입력 데이터를 통해 학습하고 자동화된 최적화 방법을 사용하여 출력의 정확도를 지속적으로 개선합니다. 머신러닝 모델의 품질은 크게 두 가지 측면에 따라 달라집니다:

  1. 입력 데이터의 품질. 머신 러닝 알고리즘을 개발할 때 흔히 사용하는 표현은 "쓰레기 입력, 쓰레기 출력"입니다. 이 말은 품질이 낮거나 지저분한 데이터를 입력하면 모델의 결과물이 크게 부정확해진다는 뜻입니다.
  2. 모델 선택 자체. 머신 러닝에는 데이터 과학자가 선택할 수 있는 수많은 알고리즘이 있으며, 모두 고유한 용도로 사용됩니다. 각 사용 사례에 맞는 올바른 알고리즘을 선택하는 것이 중요합니다. 신경망은 높은 정확도와 다양한 기능으로 인해 많은 사람들이 선호하는 알고리즘 유형입니다. 그러나 데이터 양이 적은 경우에는 더 간단한 모델을 선택하는 것이 더 나은 성능을 발휘하는 경우가 많습니다.

머신러닝 모델이 우수할수록 데이터의 특징과 패턴을 더 정확하게 찾아낼 수 있습니다. 이는 곧 머신러닝 모델의 의사 결정과 예측이 더 정확해진다는 것을 의미합니다.

OpenText ArcSight 크라우드스트라이크를 위한 인텔리전스

머신 러닝과 엔드포인트 보안을 결합한 전례 없는 보호 기능과 세계적 수준의 위협 헌팅을 서비스로 제공합니다.

자세히 알아보기

머신 러닝

머신러닝이 중요한 이유는 무엇인가요?

왜 머신러닝을 사용하나요? 머신러닝은 점점 더 방대해지고 다양해지는 데이터, 컴퓨팅 성능의 접근성 및 경제성, 초고속 인터넷의 가용성으로 인해 그 중요성이 점점 더 커지고 있습니다. 이러한 디지털 혁신 요인 덕분에 매우 크고 복잡한 데이터 세트를 빠르고 정확하게 분석할 수 있는 모델을 자동으로 신속하게 개발할 수 있게 되었습니다.

제품/서비스 추천, 사이버 보안 침해 탐지, 자율 주행 자동차 활성화 등 비용을 절감하고 위험을 완화하며 전반적인 삶의 질을 개선하기 위해 머신러닝을 적용할 수 있는 사용 사례는 무수히 많습니다. 데이터와 연산 능력에 대한 접근성이 높아지면서 머신러닝은 날로 보편화되고 있으며, 곧 인간 생활의 여러 측면에 통합될 것입니다.


머신러닝은 어떻게 작동하나요?

머신 러닝 모델을 만들 때 따라야 할 네 가지 주요 단계가 있습니다.

  1. 학습 데이터 세트 선택 및 준비

    학습 데이터는 머신 러닝 애플리케이션이 모델 매개변수를 조정하기 위해 수집할 데이터를 대표하는 정보입니다. 학습 데이터에는 머신 러닝 모드가 예측하는 데 필요한 분류 또는 예상 값을 호출하기 위해 태그가 지정되어 있는 경우도 있습니다. 다른 학습 데이터에는 레이블이 지정되지 않을 수 있으므로 모델이 자율적으로 특징을 추출하고 클러스터를 할당해야 합니다.

    라벨링의 경우 데이터를 학습 하위 집합과 테스트 하위 집합으로 나눠야 합니다. 전자는 모델을 훈련하는 데 사용되며 후자는 모델의 효율성을 평가하고 개선 방법을 찾는 데 사용됩니다.

  2. 학습 데이터 세트에 적용할 알고리즘을 선택합니다.

    선택하는 머신 러닝 알고리즘의 유형은 주로 몇 가지 측면에 따라 달라집니다:

    • 사용 사례가 레이블이 지정된 학습 데이터를 사용하는 값 예측 또는 분류인지, 레이블이 지정되지 않은 학습 데이터를 사용하는 클러스터링 또는 차원 감소인지 여부
    • 학습 세트에 포함된 데이터의 양
    • 모델이 해결하고자 하는 문제의 특성

    예측 또는 분류 사용 사례의 경우 일반적으로 일반 최소제곱 회귀 또는 로지스틱 회귀와 같은 회귀 알고리즘을 사용합니다. 레이블이 지정되지 않은 데이터의 경우 k-평균 또는 최인접 이웃과 같은 클러스터링 알고리즘에 의존할 가능성이 높습니다. 신경망과 같은 일부 알고리즘은 클러스터링과 예측 사용 사례 모두에서 작동하도록 구성할 수 있습니다.

  3. 알고리즘을 훈련하여 모델 구축

    알고리즘 학습은 적절한 결과를 보다 정확하게 예측하기 위해 모델 변수와 매개변수를 조정하는 과정입니다. 머신 러닝 알고리즘 학습은 일반적으로 반복적으로 이루어지며 선택한 모델에 따라 다양한 최적화 방법을 사용합니다. 이러한 최적화 방법에는 사람의 개입이 필요하지 않다는 점이 머신러닝의 강점입니다. 머신러닝은 사용자가 제공한 데이터로부터 학습하며, 사용자의 구체적인 지시가 거의 또는 전혀 필요하지 않습니다.

  4. 모델 사용 및 개선

    마지막 단계는 시간이 지남에 따라 모델의 효과와 정확성을 개선하기 위한 수단으로 새로운 데이터를 모델에 공급하는 것입니다. 새로운 정보의 출처는 해결해야 할 문제의 성격에 따라 달라집니다. 예를 들어, 자율주행차를 위한 머신러닝 모델은 도로 상황, 물체, 교통법규에 대한 실제 정보를 수집합니다.


머신 러닝 방법

지도형 머신 러닝이란?

지도 머신 러닝 알고리즘은 입력 데이터에 대한 적절한 출력이 알려진 경우 레이블이 지정된 데이터를 학습 데이터로 사용합니다. 머신 러닝 알고리즘은 일련의 입력과 그에 상응하는 올바른 출력을 수집합니다. 알고리즘은 자체 예측된 출력과 올바른 출력을 비교하여 모델 정확도를 계산한 다음 모델 매개변수를 최적화하여 정확도를 높입니다.

지도 머신 러닝은 라벨이 없는 데이터의 값을 예측하기 위해 패턴에 의존합니다. 대량의 데이터 기록이나 사람이 효과적으로 처리하기에는 너무 많은 데이터 입력이 있는 경우 자동화에 가장 많이 사용됩니다. 예를 들어, 이 알고리즘은 사기 가능성이 높은 신용카드 거래를 포착하거나 보험금을 청구할 가능성이 가장 높은 보험 고객을 식별할 수 있습니다.

비지도 머신 러닝이란?

비지도 머신러닝은 구조화되거나 객관적인 답이 없는 데이터에 적용하는 것이 가장 좋습니다. 주어진 입력에 대한 올바른 출력을 미리 결정할 수 없습니다. 대신 알고리즘이 입력을 이해하고 적절한 결정을 내려야 합니다. 목표는 정보를 조사하고 그 안에서 구조를 파악하는 것입니다.

비지도 머신러닝은 트랜잭션 정보에서 잘 작동합니다. 예를 들어, 이 알고리즘은 유사한 속성을 가진 고객 세그먼트를 식별할 수 있습니다. 그러면 이러한 세그먼트에 속한 고객을 유사한 마케팅 캠페인으로 타겟팅할 수 있습니다. 비지도 학습에 사용되는 인기 있는 기법으로는 최인접 매핑, 자기 조직화 맵, 특이값 분해, K-평균 클러스터링 등이 있습니다. 이러한 알고리즘은 이후 주제를 세분화하고, 이상값을 식별하고, 항목을 추천하는 데 사용됩니다.


지도형과 비지도형 머신러닝의 차이점은 무엇인가요?

측면

지도 학습

비지도 학습

프로세스

입력 및 출력 변수는 모델 학습을 위해 제공됩니다.

모델 학습에는 입력 데이터만 제공됩니다. 출력 데이터는 사용되지 않습니다.

입력 데이터

레이블이 지정된 데이터를 사용합니다.

레이블이 지정되지 않은 데이터를 사용합니다.

지원되는 알고리즘

회귀 알고리즘, 인스턴스 기반 알고리즘, 분류 알고리즘, 신경망 및 의사 결정 트리를 지원합니다.

클러스터링 알고리즘, 연관 알고리즘 및 신경망을 지원합니다.

복잡성

더 간단해졌습니다.

더 복잡합니다.

주관성

목표.

주관적.

클래스 수

클래스 수를 알 수 있습니다.

클래스 수를 알 수 없습니다.

주요 단점

지도 학습으로 방대한 데이터를 분류하는 것은 어렵습니다.

클러스터 수를 선택하는 것은 주관적일 수 있습니다.

주요 목표

새로운 입력이 주어졌을 때 출력을 예측하도록 모델을 훈련하세요.

유용한 인사이트와 숨겨진 패턴을 찾아보세요.


머신러닝이 할 수 있는 일 실제 세계에서의 머신 러닝

머신러닝 기능은 수십 년 전부터 사용되어 왔지만, 최근 들어 빅데이터와 관련된 복잡한 수학적 계산을 적용하고 자동으로 계산할 수 있게 되면서 전례 없이 정교해졌습니다. 오늘날 머신 러닝의 적용 영역은 엔터프라이즈 AIOps부터 온라인 리테일에 이르기까지 매우 광범위합니다. 오늘날 머신 러닝 기능의 실제 사례는 다음과 같습니다:

  • 사이버 보안은 행동 분석을 사용하여 내부자 위협, APT 또는 제로 데이 공격을 나타낼 수 있는 의심스러운 이벤트나 비정상적인 이벤트를 파악합니다.
  • 알파벳의 자회사인 웨이모와 실제 자율주행차보다 한 단계 아래 단계인 테슬라의 오토파일럿과 같은 자율주행차 프로젝트가 있습니다.
  • 음성 명령에 응답하여 웹에서 정보를 검색하는 Siri, Alexa, Google 어시스턴트와 같은 디지털 비서가 있습니다.
  • 넷플릭스, 아마존, 유튜브와 같은 웹사이트와 앱에서 머신 러닝 알고리즘에 기반한 사용자 맞춤형 추천을 제공합니다.
  • 사기 탐지 및 사이버 복원력 솔루션은 여러 시스템의 데이터를 통합하여 고위험 행동을 보이는 고객을 발굴하고 의심스러운 활동의 패턴을 식별합니다. 이러한 솔루션은 감독 및 비감독 머신 러닝을 사용하여 금융 기관의 거래를 사기 또는 합법적인 거래로 분류할 수 있습니다. 따라서 소비자는 신용카드 회사로부터 소비자의 금융 자격 증명을 사용한 비정상적인 구매가 합법적인지 여부를 확인하는 문자를 받을 수 있습니다. 머신 러닝은 사기 분야에서 매우 발전하여 많은 신용카드 회사가 금융 기관의 알고리즘에 의해 사기 거래가 포착되지 않으면 소비자에게 무과실이라고 광고합니다.
  • 이미지 인식은 상당한 발전을 거듭하여 얼굴 인식, 예치된 수표의 필체 판독, 교통 모니터링, 방 안의 인원 수 계산 등에 안정적으로 사용할 수 있습니다.
  • 받은 편지함에서 원치 않는 메일을 감지하고 차단하는 스팸 필터입니다.
  • 센서 데이터를 분석하여 효율성을 개선하고 비용을 절감할 수 있는 방법을 찾는 유틸리티.
  • 웨어러블 의료 기기는 환자의 건강을 지속적으로 평가하는 데 사용할 수 있는 귀중한 데이터를 실시간으로 캡처합니다.
  • 택시 앱은 실시간으로 교통 상황을 평가하고 가장 효율적인 경로를 추천합니다.
  • 감성 분석은 텍스트의 어조를 결정합니다. 감성 분석의 좋은 적용 사례로는 트위터, 고객 리뷰, 설문조사 응답자 등이 있습니다:
    • 트위터: 브랜드를 평가하는 한 가지 방법은 특정 개인이나 회사를 향한 트윗의 어조를 감지하는 것입니다. 크림슨 헥사곤이나 누비 같은 회사에서 이러한 정보를 실시간으로 제공합니다.
    • 고객 리뷰: 고객 리뷰의 어조를 감지하여 회사의 실적을 평가할 수 있습니다. 이는 무료 텍스트 고객 리뷰와 연동된 평점 시스템이 없는 경우에 특히 유용합니다.
    • 설문조사: 무료 텍스트 설문조사 응답에 감정 분석을 사용하면 설문조사 응답자의 감정을 한 눈에 평가할 수 있습니다. Qualtrics는 설문조사에 이 기능을 구현했습니다.
  • 시장 세분화 분석은 비지도 머신 러닝을 사용하여 구매 습관에 따라 고객을 클러스터링하여 다양한 유형의 고객 또는 페르소나를 파악합니다. 이를 통해 가장 가치 있는 고객이나 소외된 고객을 더 잘 파악할 수 있습니다.
  • 문서에서 정확한 단어나 구문을 검색하려면 Ctrl+F를 누르면 쉽지만, 찾고 있는 정확한 문구를 모를 경우 문서를 검색하기가 어려울 수 있습니다. 머신 러닝은 퍼지 방법과 토픽 모델링과 같은 기술을 사용하여 찾고 있는 정확한 문구를 몰라도 문서를 검색할 수 있도록 함으로써 이 과정을 훨씬 쉽게 만들어 줍니다.

머신 러닝의 역할은 계속 커질 것입니다.

데이터 양이 증가하고 컴퓨팅 성능이 향상되며 인터넷 대역폭이 확장되고 데이터 과학자의 전문성이 향상됨에 따라 머신 러닝은 직장과 가정에서 더 크고 더 깊은 효율성을 지속적으로 이끌어낼 것입니다.

오늘날 기업이 직면하고 있는 사이버 위협이 날로 증가함에 따라 귀중한 데이터를 보호하고 해커가 내부 네트워크에 접근하지 못하도록 차단하려면 머신 러닝이 필요합니다. 최고의 UEBA SecOps 소프트웨어인 ArcSight Intelligence는 머신 러닝을 사용하여 악의적인 행동을 나타낼 수 있는 이상 징후를 탐지합니다. 내부자 위협, 제로데이 공격, 심지어 공격적인 레드팀 공격까지 탐지하는 입증된 실적을 보유하고 있습니다.

어떻게 도와드릴까요?

각주