annotator들의 일치도를 평가하기 위해 사용하는 지표들에는 여러 종류가 있다.
- Fleiss’ Kappa는 검사자가 3명 이상이면서 명목형(Nominal) 변수일 때 사용한다.
- Cohen's kappa는 검사자가 2명이면서 명목형 변수일 때 사용한다.
- Kendalls W는 순서형(Ordinal) 변수일 때 사용한다.
- Intra-class correlation(ICC)는 연속형(Continuous) 변수일 때 사용한다.
우리의 Data Annotation 프로젝트의 평가자는 5명이므로 Fleiss' Kappa 평가지표를 사용하였다.
Kappa 계산 공식은 아래와 같다.
$P_e$를 구하는 방법은 전체 라벨링 한 데이터들에서 각 라벨마다의 합에 전체 라벨 수를 나눈 값을 제곱해서 더해준다.
$$ P_e = \sum p_j^2 $$
$N$은 데이터의 수(subjects), $n$는 annotator의 수 이다.
$$ p_o = \frac{1}{N \times n \times (n-1)} ( \sum_{i=1}^{N} \sum_{j=1}^{k} n^2_{ij} - N \times n ) $$
https://www.youtube.com/watch?v=ga-bamq7Qcs