Excel에서 이상 치를 사용하는 방법 (이유)
특이 치는 데이터의 대부분의 값보다 상당히 높거나 낮은 값입니다. Excel을 사용하여 데이터를 분석 할 때 이상 치는 결과를 왜곡 할 수 있습니다. 예를 들어, 데이터 세트의 평균 평균은 사용자의 가치를 실제로 반영 할 수 있습니다. Excel은 아웃 라이어를 관리하는 데 도움이되는 몇 가지 유용한 기능을 제공하므로 살펴 보겠습니다..
간단한 예
아래 이미지에서 이상 치는 Eric에 할당 된 2의 값과 Ryan에게 할당 된 173의 값을 쉽게 발견 할 수 있습니다. 이와 같은 데이터 세트에서는 수동으로 그러한 이상 치를 발견하고 처리하기는 쉽습니다.
더 큰 데이터 세트에서는 그렇지 않습니다. 특이점을 식별하고 통계 계산에서 제거 할 수 있다는 것이 중요하며이 내용은이 기사에서 수행하는 방법을 살펴볼 것입니다.
데이터에서 이상 치를 찾는 방법
데이터 세트에서 특이점을 찾으려면 다음 단계를 사용하십시오.
- 1 분위 및 3 분위수를 계산하십시오 (우리는 이들이 조금은 무엇인지에 대해 이야기 할 것입니다).
- 사 분위수 범위를 평가하십시오 (또한 조금 더 설명하겠습니다)..
- 데이터 범위의 상한과 하한을 반환합니다..
- 이 범위를 사용하여 외곽 데이터 점을 식별하십시오..
아래 이미지에 표시된 데이터 세트 오른쪽의 셀 범위는이 값을 저장하는 데 사용됩니다.
시작하자.
1 단계 : 사 분위수 계산
데이터를 분기로 나누면 각 집합을 사 분위수라고합니다. 범위의 숫자 중 가장 낮은 25 %가 1 분위, 25 %가 2 분위 등입니다. 가장 이상한 아웃 라이어의 정의는 1 사분기보다 작은 1.5 사 분위수 범위 (IQR)와 3 사분위 위의 1.5 사 분위수 범위이므로 가장 먼저이 단계를 수행합니다. 이러한 값을 결정하기 위해 먼저 4 분위수가 무엇인지 알아 내야합니다..
Excel은 사 분위수를 계산하는 QUARTILE 함수를 제공합니다. 두 가지 정보가 필요합니다 : 배열과 쿼트.
= QUARTILE (배열, 쿼트)
그만큼 정렬 는 평가할 값의 범위입니다. 그리고 쿼트 반환하려는 사 분위수를 나타내는 숫자입니다 (예 : 1의 경우 1).성 사 분위수, 2 분위수는 2 등).
노트 : Excel 2010에서 Microsoft는 QUARTILE.INC 및 QUARTILE.EXC 함수를 QUARTILE 함수의 향상된 기능으로 릴리스했습니다. QUARTILE은 여러 버전의 Excel에서 작업 할 때 이전 버전과 호환됩니다..
예제 테이블로 돌아 갑시다..
1을 계산하려면성 Quartile 우리는 F2 셀에서 다음 공식을 사용할 수 있습니다..
= QUARTILE (B2 : B14,1)
수식을 입력하면 Excel에서 쿼트 인수에 대한 옵션 목록을 제공합니다.
3을 계산하려면rd 4 분위수 인 경우 셀 F3에서 이전 수식과 같은 수식을 입력 할 수 있지만 하나 대신 3을 사용합니다..
= QUARTILE (B2 : B14,3)
이제 셀에 4 분위수 데이터 포인트가 표시됩니다..
2 단계 : 사 분위수 범위 평가
사 분위 범위 (IQR)는 데이터의 중간 값 50 %입니다. 1 분위 값과 3 분위 값의 차이로 계산됩니다.
셀 F4에 간단한 공식을 사용하여 1을 뺍니다.성 3 사분기rd 사 분위 :
= F3-F2
이제 사 분위수 범위가 표시됩니다..
3 단계 : 하한선과 상한선 반환
하한값과 상한값은 우리가 사용하고자하는 데이터 범위의 최소값과 최대 값입니다. 이 바운드 값보다 작거나 큰 값은 모두 아웃 라이어입니다..
IQR 값에 1.5를 곱한 다음 Q1 데이터 포인트에서 빼서 F5 셀의 하한 한도를 계산합니다.
= F2- (1.5 * F4)
노트 : 곱셈 부분이 빼기 부분보다 먼저 계산되기 때문에이 수식의 대괄호는 필요하지 않지만 수식을 읽기 쉽게 만듭니다..
셀 F6의 상한을 계산하려면 IQR에 1.5를 다시 곱해야하지만 이번에는 더하다 그것은 Q3 데이터 지점에 :
= F3 + (1.5 * F4)
4 단계 : 이상 치를 확인하십시오.
이제 기본 데이터를 모두 설정 했으므로 바깥 값 데이터 포인트 (하한 값보다 낮거나 상한값보다 높음)을 식별해야합니다..
OR 함수를 사용하여이 논리 테스트를 수행하고 셀 C2에 다음 수식을 입력하여 이러한 조건을 충족하는 값을 표시합니다.
= OR (B2 $ F $ 6)
그 값을 우리의 C3-C14 세포에 복사 할 것입니다. TRUE 값은 이상치를 나타내며, 알 수 있듯이 데이터에 2가 있습니다..
평균 평균 계산시 특이점 무시
QUARTILE 함수를 사용하면 IQR을 계산하고 가장 널리 사용되는 이상치의 정의로 작업 할 수 있습니다. 그러나 값 범위에 대한 평균 평균을 계산하고 특이 치를 무시할 경우 더 빠르고 쉽게 사용할 수있는 기능이 있습니다. 이 기술은 이전과 같이 특이 치를 식별하지는 않지만, 특이 치 부분을 고려하여 유연성을 가질 수 있습니다.
우리가 필요로하는 함수를 TRIMMEAN이라 부르며, 아래 구문을 볼 수 있습니다 :
= TRIMMEAN (배열, 퍼센트)
그만큼 정렬 평균을 내고자하는 값의 범위입니다. 그만큼 퍼센트 데이터 세트의 상단 및 하단에서 제외 할 데이터 요소 백분율 (백분율 또는 십진 값으로 입력 할 수 있음).
위의 예에서 셀 D3에 아래 수식을 입력하여 평균을 계산하고 20 %의 특이 치를 제외했습니다..
= TRIMMEAN (B2 : B14, 20 %)
여기에는 이상 치를 처리하는 두 가지 기능이 있습니다. 보고 요구 사항에 따라 보고서를 식별하든 평균과 같은 계산에서 제외하든 Excel은 사용자의 요구에 맞는 기능을 제공합니다..