랜덤포레스트 r 예제

Friday, 2nd August 2019Miscellaneous

앞에서 언급한 것처럼 임의 포리스트는 의사 결정 트리의 앙상블이며 임의로 매개 변수 집합을 선택하고 선택한 각 매개 변수 집합에 대한 의사 결정 트리를 만듭니다. 또 다른 주요 차이점은 학습 예제에 대해 분할을 수행할 때마다 예측 변수의 임의 하위 집합만 고려한다는 것입니다. 일반적으로 나무에서 우리는 분할을 수행하는 동안 모든 예측 변수를 찾아 그들 사이에 최선을 선택합니다. 일반적으로 (m=sqrt{p} ) 여기서 (p)는 예측 변수의 수입니다. 잘못 분류된 OOB 샘플의 비율을 백외 오류라고 합니다. 그래서 랜덤 포리스트의 작동 방식의 예입니다. 마지막 단계는 임의 포리스트 모델을 평가하는 것입니다. 이전에 부트 스트랩 된 데이터 집합을 만들 면서 다른 샘플을 복제했기 때문에 하나의 항목 /샘플을 생두했습니다. 실제 문제에서는 원래 데이터 집합의 약 1/3이 부트스트랩 데이터 집합에 포함되지 않습니다. randomForest는 또한 OOB 샘플을 사용하지 않으려면 유효성 검사 집합을 사용하여 예측 정확도를 측정할 수 있습니다. 여기서는 교육 집합을 더 분할하여 교육 및 유효성 검사 집합을 만듭니다. 그런 다음 xtest 및 ytest 인수에 유효성 검사 데이터를 제공합니다.

배깅(부트스트랩 집계) 회귀 트리는 분산이 높고 예측 력이 낮은 단일 트리 모델을 매우 정확한 예측 함수로 전환할 수 있는 기술입니다. 안타깝게도 배깅 회귀 트리는 일반적으로 트리 상관 관계를 겪게 되어 모델의 전반적인 성능이 저하됩니다. 랜덤 포리스트는 상호 연관되지 않은 많은 나무 컬렉션을 구축하고 좋은 예측 성능을 즐기는 매우 인기있는 “즉시” 학습 알고리즘이 된 배깅을 수정한 것입니다. 이 자습서는 임의의 포리스트의 기본을 다룹니다. 부트 스트랩 데이터 세트 – R에서 임의의 숲 – Edureka 랜덤 포리스트 모델은 위의 결정 그루터기보다 훨씬 더 깊은 나무를 성장, 사실 기본 동작은 가능한 한 멀리 각 나무를 성장하는 것입니다, 우리가 단원 3에서 만든 오버 피팅 나무처럼. 그러나 단일 의사 결정 트리를 빌드하기 위한 수식은 매번 동일하기 때문에 이러한 트리를 서로 다르게 만들기 위해 임의성의 일부 소스가 필요합니다. 임의 포리스트는 두 가지 방법으로 이 작업을 수행합니다. 이 튜토리얼은 당신이 R에서 임의의 숲을 구현하기 시작하거나 적어도이 놀라운 기술이 작동하는 방법 뒤에 기본 아이디어를 이해하기에 충분바랍니다. 또한 DataCamp의 R에서 앙상블 학습 및 트리 기반 모델링이라는 트리 기반 모델링에서 가장 좋아하는 코스 중 하나를 제안합니다. 임의 포리스트에 이러한 다양한 의사 결정 트리를 갖는 것은 모든 기능과 전체 데이터 집합을 사용하여 만든 개별 의사 결정 트리보다 더 효과적입니다. 이제 랜덤 포리스트의 작동 방식을 알았으므로 다양한 기계 학습 알고리즘에 대해 자세히 알아보고 싶습니다.

다음은 심층 적인 문제 문에서 기계 학습 알고리즘의 다른 유형을 커버 하는 블로그의 목록: 타이타닉에 있던 개인의 특성을 연구 하 고 그들이 있을 것 이라고 가능성을 예측할 수 있는 임의의 숲 모델을 구축 하려면 살아. 이 특성은 트리 상관 관계라고 하며 배깅이 예측 값의 분산을 최적으로 줄이는 것을 방지합니다. 분산을 더 줄이기 위해 트리 간의 상관 관계를 최소화해야 합니다. 이 나무 성장 프로세스에 더 많은 임의성을 주입 하 여 달성할 수 있습니다. 임의 포리스트는 두 가지 방법으로 이를 달성합니다: 따라서 결국, 우리는 올바르게 분류된 OOB 샘플의 비율로 랜덤 포리스트의 정확도를 측정할 수 있습니다. 여기서 주목해야 할 중요한 점은 모든 예측 변수를 사용하여 의사 결정 트리가 전체 데이터 집합에 빌드된다는 것입니다.