[민구/2nd meetup] Extended ML 키워드 조사
머신러닝 이론 회귀와 분류의 공통점과 차이점 회귀와 분류는 지도학습(Supervised)의 종류인데 분류(Classification)이란 주어진 데이터를 정해진 카테고리에 따라 분류하는 방법이다. 예시로는 스팸분류가 있는데 이메일은 스팸메일이거나 정상적인 ...
기계 학습(Machine Learining)이란 무엇인가?
기계 학습은 문제를 해결하기 위해서 일련의 데이터에 대해 무언가 흥미로운 것을 알려줄 수 있는 일반 알고리즘으로 문제를 해결하는 것이며 컴퓨터를 사람처럼 학습시켜 스스로 규칙을 형성하고자 통계적인 접근 방법을 사용하는데 데이터를 통해서 높은 성능을 끌어내는 것이다. 이 방법은 기계가 스스로 학습하도록 하는 것인데 새로운 데이터가 들어왔을때 정답을 예측하는 방법이다 기계 학습 알고리즘에는 두 거자 주요 범주로 분류 될 수 있는데 지도 학습과 비지도 학습이 있다 지도학습 훈련 데이터를 통해서 기계 학습 알고리즘을 만드는 것으로 예를 들면 연산 기호가 지워진 수학 시험에 대한 답을 찾는 것이다 1) 2 4 5 = 3 5) 6 2 2 = 10 2) 5 2 8 = 2 6) 3 1 1 = 2 3) 2 2 1 = 3 7) 5 3 4 = 11 4) 4 2 2 = 6 8) 1 8 1 = 7 이라고 주어졌을 때 이러한 훈련 데이터를 기계 학습 알고리즘에 넣어주어서 컴퓨터가 스스로 학습하게 만들면 된다
정확히 답을 가진 데이터가 아닌 경우에 사용되며 데이터 형태로 학습을 진행하는 방법이며 데이터의 숨겨진 특징이나 구조를 발견하는데 사용되고 클러스터링(Clustering)알고리즘이 예시이다
기계 학습(Machine Learning) vs 규칙기반(Rule-based) a.k.a expert system, knowledge base system
규칙 기반이란 사람이 기계에게 하나하나 어떻게 하라고 규칙을 지정해주는 것을 말한다 머신 러닝 기법이 나오기 전에는 프로그램의 규칙을 정교하게 만드는 것이 인공 지능을 구현하는 유일한 방법이었다. 충분히 정교하게 설계한다면 규칙 기반 프로그램도 유용한 인공 지능 프로그램이 될 수 있다. 예시로는 한국어 맞춤법 검사기 중에 가장 유명한 부산대 맞춤법 검사기는 규칙 기반으로 되어 있다 규칙기반은 if-then 방식이라고도 하는데 확고한 규칙에 따라 학습 및 예측을 한다. 그러나 규칙 기반에는 단점이 있는데 구현하는 데 너무 큰 노력이 들고, 새로운 변화에 적응하기도 어렵다. 미묘한 차이를 모두 규칙으로 만든다는 것도 불가능한 일에 가까웠다. 그렇지만 머신 러닝은 여러 분야에서 인간과 비슷하거나 인간을 뛰어넘는 성능을 내며 지능적인 프로그램을 만들 수 있음을 입증했다.
인공 지능(AI) vs 기계 학습(Machine Learning) vs 딥 러닝(Deep Learning)
인공 지능과 머신러닝, 딥러닝의 관계를 도식화하면 인공 지능이 머신 러닝을, 머신 러닝이 딥 러닝을 포함하고 있는 모습이 된다. 인공 지능은 특정한 기술이라기보다 추상적이며 하나의 거대한 목표로서 머신 러닝은 그 목표를 이루기 위한 방법이다 그리고 머신 러닝의 한 분야에 불과했던 딥 러닝이 최근에 너무나 급속도로 성장하면서, 이제는 머신 러닝이 딥 러닝 이전의 전통ㅈ거인 기술들을 통칭하는 말로 쓰이기도 한다 딥러닝은 여러 분야에서 기존의 방법들에 비해 놀라운 정확도를 보여주고 기계에 들어갈 변수까지 스스로 학습하는 특징이 있다 이를 ‘Representation learning’이라고 부르며 여러 문제를 푸는데 자유롭게 변형하거나 갖다 붙이기 쉽다 하지만 결과대신 과정을 알고 싶거나 데이터가 너무 적은 경우, 가벼운 문제를 풀기 위해 빠르게 학습하고 동작하기 위해서는 딥러닝 보다 머신 러닝 기법을 써야한다. 딥 러닝을 굳이 쓰지 않는 분야의 예로 한국어 형태소 분석기를 들 수 있다. 한국어 형태소 분석기는 아직까지도 대부분 전통적인 머신 러닝과 규칙 기반에 의존하고 있다. 딥 러닝을 적용한 형태소 분석기가 기존 모델에 비해 성능 향상은 미미한 수준이고 모델이 너무 느려지는 단점이 있었기 때문이다.
머신 러닝(Machine Learning)의 종류
Supervised learning 지도학습의 일종으로기존에 존재하는 데이터의 category 관계를 파악하고, 새롭게 관측된 데이터의 category를 스스로 판별하는 과정이며 일련의 데이터가 포함되는 기존 카테고리들을 학습하고 이것을 기반으로 컴퓨터는 데이터의 범주를 구분하여 경계를 나누는 것을 학습한다. 따라서 모델에 입력된 새로운 데이터는 해당 점이 어느 곳에 위치하느냐에 따라 가까운 카테고리 혹은 학습된 알고리즘에 의해 분류하게 된다. Classification의 특징으로는 선형판별분석이 존재하는데 데이터의 분포를 학습해 선형 경계를 만들고 데이터들을 분류하는 모델로 데이터를 직선에 있다고 가정한다. 이는 복잡한 모델을 가지고 분류하는 과정에서 정확성이 떨어질 수 있다.
주어진 데이터들의 특성을 고려해 같은 클러스터를 정의하고, 다른 클러스터의 개체보다 서로 유사한 개체가 되도록 그룹화하여 그룹의 대표성을 찾아내는 방법이며 클러스터란 비슷한 특성을 가진 데이터 집단이다 Classification과의 다른 점은 unsupervised learning이며 레이블이 없는 데이터에서 관계를 스스로 찾아내는 방법으로 사람의 개입 여부에 차이가 있다
주어진 데이터가 어던 함수로부터 생성됐는가를 알아보는 함수 관계를 추측하는 것으로 함수가 몇 차 방정식인지 계수는 각각 무엇인지를 알아 보는것이다 어떤 방정식의 계수가 선형이면 선형 회귀 분석(Linear Regression Analysis)이며 변수가 여러개 이면 다중 선형 회귀 분석(Multiple Linear Regression Analysis)이라고 한다 이를 통해 데이터가 존재하면 그 데이터를 표현하는 함수를 학습하고 과거의 데이터를 통해서 미래의 데이터가 어떤 결과가 나올 지 예측할 수 있다 그 중 출력값이 범주형 데이터일 경우에는 로지스틱 회귀(Logistic Regression)을 사용하는데 이는 로지스틱 함수를 회귀식으로 사용하기 때문에 붙여진 명칭으로 데이터의 최소값과 최대값이 특정한 값으로 수렴하고 그 사이는 S자 커브 모양으로 굴곡이 진 모양의 함수를 로지스틱 함수라 한다
이 방법은 특정한 이벤트 다음에 다른 이벤트가 올 가능성을 예측할때 사용하며 다양한 산업 분야에서 적용된다 예시로는 사용자가 방문한 어떠한 웹페이지가 제공되면 브라우저는 사용자가 방문 할 가능성이 높은 페이지를 예측하고 로드한다 또 제품추천을 하거나 일기 예보를 할때에 쓰인다 CPT(Compact Prediction Tree)는 기존 머신 러닝, 딥러닝 모델보다 더 정확한 시퀸스 예측 알고리즘으로 대상 순서와 비슷한 순서를 찾고 대상 순서와 유사한 각 순서의 결과를 찾고 결과를 통해 카운트 테이블을 사용해서 예측한다
스타일 이미지를 학습시킨 후에, 콘텐츠 이미지에 적용시키는 것으로 사진에 필터를 입히는 것으로 이해하면 쉽다 두 이미지가 주어졌을 때 그 이미지의 주된 형태는 형태만 유사하게 유지하면서 스타일만 우리가 원하는 이미지와 유사하게 바꾸는 것인데 Neural network를 이용해서 style transfer는 두 가지 형태로 나뉠 수 있다 미리 학습된 네트워크를 이용하는 방법은 Content image와 style image를 네트워크에 통과시킬 때 나온 각각의 feature map을 저장하고, 새롭게 합성될 영상의 feature map이 content image와 style image로부터 나온 feature map과 비슷한 특성을 가지도록 영상을 최적화한다. 장점: 이미지 2장(content image & style image)으로 style transfer가 가능하다. 단점: 매번 이미지를 새롭게 최적화 해야 하므로 시간이 오래걸린다. Style transfer network를 학습시키는 방법은 서로 다른 두 도메인(예를 들면, 풍경 사진들과 모네의 그림들)의 영상들이 주어졌을 때 한 도메인에서 다른 도메인으로 바꿔주도록 학습하는 방법이다. 장점: 네트워크를 한 번 학습시킨 후에 새로운 이미지에 적용할 때는 feed forward만 해주면 된다. 단점: 새로운 네트워크를 학습해야 하므로 각 도메인 별로 다수의 영상이 필요하며, 학습에 시간이 소요된다.
본디 정해진 동작을 수행하는 ‘기계’는 결코 편향되지 않는다. 초창기의 번역기가 형편없었던 까닭 역시 초창기의 번역기는 각각의 단어를 미리 내장된 사전 데이터를 통해 번역할 뿐 맥락을 고려하지 않기 때문이었다. 그러나 빠른 속도로 발전하고 있는 오늘날의 기계는, 기계 학습이라는 과정을 통해 막락을 파악하는 법을 배워가고 있다. 인공지능이 파악한 상황 맥락은 수많은 과거 데이터베이스에서 왔을 것이다. 아이러니하게도 context analysis를 수행한 이 기계는 편향되지 않았다. 단지 맥락을 분석하여 번역을 수행하는 알고리즘을 따랐을 뿐이다. 번역 알고리즘 역시 편향되지 않았다. 알고리즘은 언어사용의 수많은 데이터베이스를 분석하여 통계적인 확률을 분석하고 수치적으로 가장 그럴듯한 결과를 내어놓는다. 그렇지만 데이터베이스는 아마도 편향되었을지도 모르며 우리는 21세기의 수많은 맥락( 성 고착화 / 성차별 / 직업에 대한 성별 관념)을 통해 번역 결과가 편향되었다고 판단하고 느낀다.
사용자는 우리가 상호 작용하는 방식으로 알고리즘을 편향시킵니다. 예시로 사용자에게 신발을 그리라고 요청했을때 사용자는 남자의 신발을 신었으므로 운동화를 학습시켰을때 시스템은 하이힐이 신발이라는 것을 알지 못한다
때떄로 알고리즘은 성별, 인종, 성, 소득 등과 관련한 데이터를 잘못 연관시킨다 예시로 여러 물리학자의 사진을 학습 시켰을때 이것은 물리학자를 남성과 연관시켜버리며 여자 물리학자 사진이 나왔을때 물리학자라는 것을 알지 못한다
알고리즘을 훈련시키는 데 사용되는 데이터가 특정 그룹에 대한 데이터만 받을 경우에 나타나는 편향이며 예시로는 미녀 심사에서 이미지 인식을 할때 데이터가 백인 여성들의 사진만 있어서 훈련 되면 다른 인종이 나왔을 때 미인이 아니라고
머신러닝 이론 회귀와 분류의 공통점과 차이점 회귀와 분류는 지도학습(Supervised)의 종류인데 분류(Classification)이란 주어진 데이터를 정해진 카테고리에 따라 분류하는 방법이다. 예시로는 스팸분류가 있는데 이메일은 스팸메일이거나 정상적인 ...
이번 회차 Keyword 머신러닝 이론 회귀와 분류의 공통점과 차이점 □ 분류(Classification) 미리 정의된, 가능성 있는 여러 class label중 하나를 예측하는 것! ◇ 이진 분류(binary clas...
What is ML?
Keywords of week 1 What is ML? ML vs Rule-based AI, ML, Deep Learning Type of ML (Classification, Clustering, Regression, Sequence Prediction) Kin...
What is ML? 기계 학습(Machine Learining)이란 무엇인가?
What is ML? 머신러닝은 인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야이다. 즉, 기계가 일일이 코드로 명시하지 않은 동작을 데이터로부터 학습하여 실행할 수 있도록 하는 알고리즘을 개발하는 연구 분야라고 할 수 있다.
What is ML? 기계학습으로 인간이 하나부터 열까지 직접 코드를 지정해 주는 것이 아닌 학습할 무언가를 기계에 주고 이걸 가지고 스스로 학습하는 기계이다.
골빈해커 3분 딥러닝(텐서플로편) https://github.com/golbin/TensorFlow-Tutorials
What is ML?