하이거

판교핫뉴스1

인공지능(AI) 데이터 품질 표준안, 국내외 표준화 추진-「데이터 댐」 데이터 품질 개념·범위·세부 요구사항 마련

하이거 2020. 10. 5. 14:59

인공지능(AI) 데이터 품질 표준안, 국내외 표준화 추진-데이터 댐데이터 품질 개념·범위·세부 요구사항 마련

 

부서 인공지능데이터팀 2020.10.05.

 


디지털 뉴딜, 「데이터 댐」의 핵심

인공지능(AI) 데이터 품질 표준안, 국내외 표준화 추진
- 「데이터 댐」 데이터 품질 개념·범위·세부 요구사항 마련 -
- 10월 6일, 정보통신 단체표준화(TTA) 착수, 국제표준안으로도 제안 예정 -


□ 과학기술정보통신부(장관 최기영, 이하 ‘과기정통부’)는 디지털 뉴딜 ‘데이터 댐’의 핵심자원인 인공지능(AI) 데이터 관련 품질의 개념과 범위, 세부 요구사항 등을 정립한 표준안을 개발하고,

ㅇ 한국정보통신기술협회(TTA) 단체표준으로 만들기 위해 10월 6일 한국정보통신기술협회 내의 단체 표준화 기구(TTA PG 1005, 인공지능기반기술)에 공식제안하였고, 관련 전문가 등의 의견수렴 절차를 거쳐 내년 6월에 최종 채택·확정될 것으로 전망된다.

ㅇ 또한, 앞으로 관련 내용을 국제표준화 성과로도 이어질 수 있도록 추진할 계획이다.

□ 이번 표준안에서 인공지능 데이터의 품질을 “인공지능 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준”으로 정의하였고,

ㅇ 이는 데이터가 적정한 절차와 요구사항, 규격 등으로 처리되는지에 따라 좌우되며 인공지능 기술과 서비스의 성능을 좌우하는 핵심요소이다.
ㅇ 하지만, 아직 세계적으로 품질 수준이 높지 않은 상황이다. 예를 들어, 세계적 정보통신기술 기업들인 마이크로소프트나 구글 등이 4~6년 넘게 구축·업데이트해온 유명한 개방 데이터셋의 경우에도 데이터 정확도가 43~83% 수준에 불과하다.

* '14년 구축 시작된 MS COCO, '16년 구축 시작된 Google Open Images의 현재 라벨링 정확도(재현율-라벨링해야 하는 사물 중 라벨링된 비율)가 83%, 43%에 불과

ㅇ 이는 아직 세계적으로 인공지능 데이터 품질에 대한 체계적인 방법론이 정립되지 않은 것이 중요한 원인으로 분석된다.

ㅇ 특히, 지난 4월 우리나라가 ‘인공지능 국제표준화회의(ISO/IEC JTC1/SC42)*’에 인공지능 데이터(딥러닝) 품질 관련 사항을 신규 과제로 제안하여 채택되는 등 이제 막 논의가 시작되는 초기단계이다.
* 국제표준화기구(ISO)와 국제전기기술위원회(IEC)가 정보기술 분야 국제표준화를 위해 운영 중인 합동기술위원회(JTC 1)의 인공지능 분과위원회

□ 이에 한국정보통신기술협회와 한국정보화진흥원을 통해 기 개발된 ‘인공지능 학습용 데이터 구축 및 품질관리 공통기준(’19년)‘을 해외사례 분석, 인공지능 및 품질관리 전문가 자문 등을 거쳐 보완·구체화하여 이번에 표준안을 개발하게 되었다.

ㅇ 표준안은 자연어처리, 자율자동차, 의료, 농축수산, 제조 등 다양한 분야에서 공통적으로 적용 가능한 범용표준의 형태로 개발되었으며,

ㅇ 데이터의 품질을 체계적으로 확보하고 상호호환성을 제고할 수 있도록 데이터 수집‧정제‧가공‧품질검증‧활용 등 전주기 단계별로 필요한 표준절차와 품질 요구사항 등을 정의하고 기본적인 데이터 규격을 담고 있다.

ㅇ 구체적으로는 △ 원시데이터 수집단계의 다양성, 사실성 등의 품질 요구사항과 파일 포맷, 해상도 등의 기술 적합성 요구사항, △ 정제단계의 데이터 중복방지 및 비식별화 조치 요구사항, △ 가공단계의 객체 분류체계 및 라벨링 규격 요구사항, △ 품질검수·활용 단계의 유효성 등 검수 요구사항·방법 등으로 구성되어 있다.
□ 과기정통부는 이번에 개발된 표준안을 이미 추경사업 과제(10대 분야, 150종 데이터)에 적용하고 있으며,

ㅇ 한국정보통신기술협회 내의 단체 표준화 기구(TTA PG 1005, 인공지능기반기술) 내의 산·학·연 전문가 의견수렴을 거쳐 신속하게 단체 표준화를 추진하고,

ㅇ 앞으로 관련 사항을 국립전파연구원 등을 통해 ‘인공지능 국제표준화회의(ISO/IEC JTC1/SC42)’에 제안하는 등 국제표준화의 성과로 이어지도록 할 계획이다.

ㅇ 아울러, 올 연말까지 표준안을 바탕으로 인공지능 개발자, 공공기관 관계자 등이 인공지능 데이터의 품질을 보다 체계적으로 계획·관리할 수 있도록 하기 위해 자세한 설명 등을 포함하는 ‘인공지능 데이터 품질관리 가이드’를 개발·배포할 계획이다.

□ 과기정통부는 이번에 개발된 표준안이 디지털 뉴딜 ‘데이터 댐’의 핵심자원인 인공지능 데이터의 품질을 향상시키고, 나아가 국가 전반의 인공지능 기술과 서비스의 성능을 높이는데 크게 기여할 것으로 기대하며,

ㅇ 앞으로 국제표준화를 선도하고 우리나라가 인공지능 강국으로 도약하는데 더욱 노력할 계획이다.

붙임1: 인공지능 데이터 품질 표준안 - 요약본
붙임2: 인공지능 데이터 품질 표준안 - 상세본. 끝.


붙임1

인공지능 데이터 품질 표준안 - 요약본


□ 인공지능 데이터 품질 개념

ㅇ (정의) 인공지능 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준

ㅇ (범위) 데이터 구축 전 단계에 적용되며, 품질관리 대상을 데이터 자체의 품질관리(Data-Oriented Quality, 일반 요구사항)와 구축 과정의 품질관리(Process-Oriented Quality, 구축 요구사항)로 구분

데이터 구축 단계
(구축절차 품질 요구사항))

대상 데이터
(데이터 품질 요구사항))


□ 주요 품질 요구사항

ㅇ (데이터 요구사항) 품질관리 대상이 되는 데이터 상태에 따라 원시데이터, 데이터 라벨링, 인공지능 활용 품질 요구사항으로 구분

구분
원시 데이터 품질
데이터 라벨링 품질
인공지능 활용 품질
주요 요구사항
* 기준 적합성
- 대표성, 다양성, 사실성 등
* 기술 적합성
- 표준 포맷 준수 여부
* 라벨링 정확성
- 의미적 정확성
- 구문적 정확성

* 유효성


ㅇ (구축절차 요구사항) 품질관리가 수행되어야 하는 데이터 구축 단계에 따라 데이터 획득, 정제, 라벨링, 품질검수 및 활용 품질 요구사항으로 구분

구분
획득
정제
가공(라벨링)
품질검수
주요 요구사항
* 법/제도 준수
* 획득 환경
* 획득 대상 등
* 정제 기준
* 비식별화
* 중복성 방지 등
* 라벨링 포맷
* 라벨링 도구
* 작업 방식 등
* 검수 기준
* 검수 방법 등

 

[붙임2] 인공지능 데이터 품질 표준안 - 상세본

인공지능 데이터품질 표준안


1 적용범위
인공지능 데이터 품질 표준안은 인공지능 학습용 데이터 구축과정 전반에 필요한 일반 요구사항을 규정하고 있다.

2 관련 규격
관련 규격은 해당 최신본 상태로 유지한다.
2.1 TTAK.KO-10.1208, 자율주행 자동차의 객체 인식기술에 필요한 도로상 데이터의 객체 분류체계
2.2 ETRI 전사규칙, 2019년 5월 8일, 버전 1.0, 음성지능연구그룹
2.3 IITP 간판 글자 인식 이미지 어노테이션 가이드라인, 2020년 5월 18일, 버전 0.8
2.4 TTAK.KO-10.0010/R1, 형태소 태깅 말뭉치 작성용 품사 태그세트
2.5 TTAK.KO-10.0852, 개체명 태그세트 및 태깅 말뭉치
2.6 TTAK.KO-10.0853, 의존 구문분석 말뭉치 구축을 위한 의존관계 태그세트 및 의존관계 설정 방법
2.7 TTAK.KO-10.1098, 오픈 도메인 자연어 질의 응답을 위한 질문 분석 메타데이터
2.8 TTAK.KO-10.0904/R1, 지능형 CCTV 영상분석 시스템 경보 기록 방법
2.9 공공데이터 공통 표준용어(행정안전부)

3 용어 정리
3.1 인공지능(Artificial Intelligence)
추론과 학습 등의 인간 지능과 관련된 기능들을 수행하는 기능요소
※ 참조 : ISO/IEC 2382-28:1995
3.2 머신러닝(Machine Learning)
기능요소가 기존의 지식과 기술을 재구성하거나 새로운 지식과 기술을 습득하여 성능을 향상시키는 프로세스
※ 참조 : ISO/IEC 2382-28:1995
3.3 인공지능 학습용 데이터
인공지능이 학습을 통해 성능을 향상시키는데 활용되는 데이터로 해당 기능목적에 알맞은 형태와 내용으로 구성된 데이터임
3.4 원시데이터(raw data)
원천데이터(source data)가 정제 과정을 거쳐 데이터 라벨링 용도로 사전 작업이 완료된 데이터를 지칭하며 데이터 라벨링 작업에 직접적으로 투입되는 데이터임
※ 일반적으로 원시데이터는 원천데이터와 동일한 의미로 사용되는 용어이나 인공지능 학습용 데이터 구축사업에서는 데이터 라벨링 이전과 이후 단계의 데이터를 구분하고자 상기와 같은 의미로 사용
3.5 데이터 라벨링(data labeling)
인공지능이 학습에 활용할 수 있도록 기능목적에 적합한 설명정보 데이터를 원시데이터에 추가 부착하는 과정을 총칭
※ 용어사용 예 : 텍스트 데이터 라벨링, 이미지 데이터 라벨링, 동영상 데이터 라벨링 등
3.6 어노테이션(annotation)
데이터 라벨링 시 원시데이터에 추가 부착되는 설명정보 데이터는 기능목적에 따라 다양한 형태로 표현될 수 있으며 이러한 설명정보 표현방식을 지칭
※ 용어사용 예 : 사물 바운딩박스 어노테이션, 클래스 라벨 어노테이션 등
3.7 인공지능 데이터 품질
인공지능 기술(모델 및 알고리즘)에 활용되는 데이터가 다양성, 정확성, 유효성 등을 확보하여 사용자에게 유용한 가치를 줄 수 있는 수준을 의미

4 일반 요구사항
4.1 원시데이터 적합성
4.1.1 다양성(diversity)
활용목적을 달성할 수 있도록 인공지능이 처리해야 하는 실제 세상의 데이터와 유사한 특성과 변동성을 가진 데이터로 구성하도록 한다. 이때 아래의 요소를 반드시 고려한다.
1) 포괄성(coverage)
사물, 사람, 장소, 시간, 환경, 언어 특성 등 학습에 유용한 모든 특성정보를 포함할 수 있도록 한다.
 [예시] 자율주행 데이터는 위치정보(GPS), 촬영시간, 도로종류, 차량 속도 등 포함
 [예시] 어류행동 데이터는 동영상 외에 생육단계, 수질정보 등 포함
 [예시] 음성 데이터는 발화자의 연령, 성별, 지역정보 등 포함
2) 변동성(variation)
사물, 사람, 장소, 시간, 환경, 언어 등 데이터 특성정보가 학습에 유용한 범위에서 다양하게 변화하여야 한다.
 [예시] 자율주행 동영상은 넓은 범위의 지역을 대상으로 낮, 밤, 우천, 눈 등 조건하에서 도심도로, 고속도로, 외곽/시골도로를 중심으로 저속, 중속, 고속 주행 환경에서 촬영
4.1.2 신뢰성(trustworthiness)
원시데이터는 반드시 신뢰할 수 있는 출처로 부터 획득해야 한다.
4.1.3 충분성(sufficiency)
카테고리와 인스턴스는 학습에 유용한 수량이어야 한다.
 [예시] MS COCO 데이터셋은 객체 당 5,000개 이상 인스턴스 수집
4.1.4 균일성(uniformity)
분류/탐지/인식/이해/예측 카테고리 별 인스턴스 수량의 균일성 및 비율을 고려해야 한다.
4.1.6 사실성(reality)
원시데이터를 인위적인 환경과 조건하에 획득해야 하는 경우 반드시 실제 환경과 상황 특성을 반영할 수 있도록 한다.
4.1.7 편향성(bias)
지역적 편견, 사회적 편견, 인종적 편견 등 의도가 없을지라도 데이터 속에 포함될 수 있는 편향된 데이터를 제거해야 한다.
4.2 원시데이터 속성
4.2.1 파일 포맷
대중적으로 널리 사용되는 대표적인 파일 포맷을 사용한다.
 [예시] 데이터 유형 별 권장 파일 포맷

데이터 유형
파일 포맷
비고
이미지
JPG, PNG
의료 등 전문분야의 경우 해당분야 표준 준수
동영상
MP4
무압축 방식으로 프레임 이미지 시퀀스의 묶음형태
오디오
WAV

텍스트
-
UTF-8 엔코딩 준수
정량수치
CSV
산업용 센서의 경우 해당분야 표준 준수
로그
JSON
웹표준 준수

4.2.2 동영상/이미지 해상도
동영상 데이터의 경우 가로, 세로 픽셀수로 이미지 데이터는 가로, 세로 픽셀수 및 인치당 픽셀수 밀도로 표시한다.
 [예시] 동영상 (1080p Full HD)1920x1080, 이미지 60x60@144PPI
4.2.3 동영상 프레임 레이트(frame rate)
동영상 데이터의 경우 1초당 사용되는 이미지가 몇 장인지 초당 프레임 수를 표시한다.
 [예시] 30 fps(frame per second), 60 fps(frame per second)
4.2.4 동영상/이미지 컬러심도
동영상 및 이미지의 색 깊이는 픽셀 당 비트수로 표시한다.
 [예시] 픽셀당 16,777,216색(24bit), 256색(8bit), 2색(1bit) 등으로 표현 가능
4.2.5 텍스트/음성 문장 어절 수
기본 단위가 되는 문장의 어절 개수가 너무 짧거나 길지 않아야 하며, 문어체의 경우 평균 15어절, 구어체(대화)의 경우 평균 5어절 범위에서 설정한다.
4.3 원시데이터 품질 관리
4.3.1 적합성
다양성, 신뢰성, 충분성 등 원시데이터 적합성 기준에 부합할 수 있도록 데이터 획득 및 정제 계획을 마련해야 한다.
 [예시] 충분성 기준: 클래스 별 최소 1,000개 인스턴스 획득
4.3.2 기술 규격
파일 포맷, 해상도 등 사전에 정한 원시데이터 속성 기준을 준수하여야 한다.
4.4 데이터 라벨링 품질 관리
4.4.1 구문정확성 품질기준 수립
구문정확성 측정지표 및 목표치를 설정하고 주기적인 자체평가를 통해 점검하고 그 결과를 품질개선 활동에 반영하여야 한다.
 [예시] 라벨링 데이터 구조(형식/값)의 오류율 0.1% 미만
4.4.2 의미정확성 품질기준 수립
의미정확성 측정지표 및 목표치를 설정하고 주기적인 자체평가를 통해 점검하고 그 결과를 품질개선 활동에 반영하여야 한다.
 [예시] 바운딩박스 정밀도(95%), 재현율(85%), 근거 - MS COCO, 구글 오픈 이미지셋
4.4.3 자체 검증
정확성 자체평가를 위한 어노테이션 상세방법 및 예시를 포함되어 있는 지침을 마련하고 검증계획을 수립하여야 한다.
 [예시] 자율주행 영상에서 객체 바운딩박스 작업 지침
4.5 인공지능 활용 품질 관리
4.5.1 유효성
1) 기계학습 유효성 달성 목표를 수립하고 관리하여야 한다.
2) 잘 알려진 최신의 기계학습 알고리즘 또는 자체 알고리즘을 활용한다.
3) 유효성 측정지표 및 목표치를 설정해야 한다.
 [예시] 질의응답 F1-score(90점), 근거 – SQuAD2의 리더보드는 2019년 11월 말 이후 최저 성능이 F1-score 90.037임
4) 데이터셋은 train/validation/test로 분할하되 분할된 각각의 데이터셋이 전체 데이터셋과 유사한 분포를 갖도록 해야 한다.
 [예시] 총 데이터셋 100만개 중 train 70만개, validation 10만개, test 20만개
 [예시] 자율주행 데이터의 경우 획득한 날짜별로 구분하여 서로 다른 날짜에 촬영한 데이터를 각각 train과 validation으로 구분
4.6 데이터 보안 및 관리
4.6.1 데이터라벨링을 크라우드소싱 방식으로 작업하는 경우 개인정보유출 및 데이터 도용을 방지하기 위한 보안정책을 수립하고 자체 보안점검을 실시하여야 한다.
4.6.2 데이터셋 정보 검색 제공을 위해 메타데이터를 관리하여야 한다.
4.6.3 데이터셋에 대한 버전을 관리하여야 한다.

5 데이터 구축 요구사항
5.1 데이터 획득
5.1.1 아래 사항을 포함하여 법·제도적 규정 등을 준수하여야 한다.
1) 개인정보가 포함된 데이터 수집 시 반드시 수집에 대한 동의 뿐 만 아니라 활용 및 제 3자 제공 등에 대한 동의를 받아야 한다.
2) 보안시설, 공공시설 등 출입 허가가 필요한 구역에서는 해당 관공서의 사전허가를 득해야 한다.
3) 데이터 획득 장비 설치 및 이용 시 사전 허가가 필요한 경우 반드시 사전허가를 득해야 한다.
4) 데이터 획득 과정 중 발생할 수 있는 각종 안전 및 사고위험을 사전에 충분히 인지하고 해당 업무인원에게 사전 안전교육을 실시해야 한다.
5) 의료 데이터의 경우 IRB(의학연구윤리심의위원회)와 데이터 공개에 대한 해당 기관의 동의를 득해야 한다.
6) 지적재산권 이슈가 있는 경우 반드시 해결방안을 마련해야 한다.
5.1.2 획득환경의 사실성
원시데이터를 인위적인 환경과 조건하에 획득해야 하는 경우 반드시 실제 환경과 상황 특성을 최대한 반영할 수 있도록 데이터 획득용 수집 장치 선정 및 수집 환경구성 시 해당 분야의 최신의 실제적인 설치·운용·활용 사례 및 참조 방법을 벤치마킹하여야 한다. 이때 획득 장비와 환경 구성에 대한 내용을 반드시 명시해야 한다.
 [예시] 자율주행 동영상 촬영 시 차량전용 ADAS 카메라를 실제 운용되고 있는 자율주행차와 최대한 동일한 방식으로 카메라 배열, 해상도 조정, 촬영 각도 설정
 [예시] CCTV 영상 촬영 시 CCTV 카메라를 해당 지역 실제 CCTV 카메라와 동일한 구도(설치위치(높이), 화각)로 촬영
5.1.3 획득대상의 사실성
원시데이터를 인위적인 환경과 조건하에 획득해야 하는 경우 반드시 실제 환경과 상황 특성을 최대한 반영할 수 있도록 데이터 획득용 수집 장치 선정 및 수집 환경구성 시 해당 분야의 최신의 실제적인 설치·운용·활용 사례 및 참조 방법을 벤치마킹하여야 한다.
 [예시] 스튜디오에서 사물 촬영 시 해당 사물이 가질 수 있는 다양한 형태 고려
5.1.4 일관성
원시데이터를 인위적인 환경과 조건하에 획득해야 하는 경우 그 환경과 조건은 일관성을 가져야함
5.1.5 동기화
다중 소스 원시데이터의 경우 소스 동기화가 반드시 필요하다.
 [예시] 자율주행 또는 CCTV 동영상의 멀티카메라 촬영 영상은 시간동기를 맞추어야 함
 [예시] 오디오와 영상을 동시에 획득하는 경우에 소스 동기화
5.1.6 편향성 방지
데이터 획득 계획 수립 시 의도하지 않은 데이터 편향성 발생을 방지하기 위한 방안을 마련하여야 한다. 단 특수상황에서 데이터의 집중 수집이 필요한 경우는 편향성 고려대상이 아니다.
 [예시] 자율주행 영상이 일부 지역에서 반복 촬영되어 지역적 편향성이 발생할 수 있음
 [예시] 자율주행의 경우, 사고다발지역인 교차로 인근 등에서 예외적으로 많은 데이터를 수집할 수 있음
5.2 데이터 정제
5.2.1 정제기준
데이터 구축 목적에 알맞은 데이터를 선별하기 위한 명확한 기준을 수립하고 기준미달 또는 불량 데이터를 효과적으로 제거할 수 있는 방법을 수립해야 한다.
 [예시] MS COCO 데이터셋은 사물 이미지를 ①하나의 사물 등장 ②배경으로서의 사물 ③복수개 사물이 등장하는 3개 그룹으로 분류하고 3번 복수개 사물이 등장하는 이미지만 선별
 [예시] 음성 대화 내에 두 화자의 발성 외에 오디오 신호가 녹음된 경우 삭제
5.2.2 중복성 방지
유사한 데이터를 제거하거나 특성이 드러나지 않는 데이터를 제거하는 등의 적절한 정제 과정을 거쳐야 한다.
 [예시] 사물 이미지의 경우, 동일한 사물을 조명, 각도 등을 달리하여 과도하게 반복 촬영된 경우에는 중복 제거
 [예시] 자연어 데이터 수집시 동일 단어가 일정 비율을 넘지 않도록 제한
5.2.3 비식별화
개인정보 및 민감정보를 포함하는 경우 적절한 방법으로 비식별화 처리하되, 비식별화로 인한 정보의 손실이 발생하여 데이터의 활용 목적을 달성할 수 없는 경우가 생기지 않도록 주의한다.
 [예시] 자율주행 동영상 속 동의 받지 않은 차량 번호, 사람얼굴은 비식별 처리하고 성적 차별 발언 등 민감 정보는 제거
5.3 데이터 라벨링
5.3.1 어노테이션 유형 선택 시 아래 사항을 고려해야 한다.
1) 기계학습 목적에 부합하는 단일 또는 복수 어노테이션 방식을 적용해야 한다.
 [예시] 세그멘테이션, 키포인트 어노테이션이 필요한 임무에 단순 바운딩박스 어노테이션 적용 지양
2) 이미지/동영상 어노테이션 데이터 포맷은 참조할 수 있는 사실상 표준 데이터 포맷이 있는 경우 하위호환성 확보가 가능하도록 해당 포맷을 준용한다.
 [예시] PASCAL VOC 데이터셋의 XML 포맷, MS COCO 데이터셋의 JSON 포맷
3) 어노테이션 데이터 포맷은 JSON을 사용하고 필요 시 XML을 사용할수 있다.
4) 카테고리 라벨링, 바운딩박스, 세그멘테이션, 키포인트 작업 시 MS COCO 데이터셋의 어노테이션 포맷 권고
5.3.2 분류체계
라벨링 대상 객체들의 종류는 향후 다양한 데이터셋들과 통합하여 재처리 가능하도록 객체에 대한 분류체계를 제공해야 하며 이때 분류기준은 연관성 있는 각종 법령과 표준을 참조하도록 한다.
5.3.3 데이터 라벨링 작업에 필요한 라벨링 규격은 다음의 사항을 반드시 포함해야 한다.
1) 라벨 정의 : 라벨 유형, 라벨 구성 항목, 속성값, 타입 등
2) 라벨링 작업방법 : 라벨을 부여하는 기준(Ground Truth) 및 방법
3) 라벨링 예시 : 정답 라벨링, 오류 라벨링, 모호한 라벨링 처리, 예외처리 라벨링 등
5.3.4 라벨링 플랫폼/도구
라벨링 작업에 사용하는 플랫폼 및 SW도구의 기능 및 사용방법을 기술해야 하며 플랫폼 또는 SW도구 선택 시 데이터 보안 준수 여부를 확인해야 한다.
5.3.5 작업방식
데이터 특성 및 활용목적을 고려하여 크라우드소싱, 전문업체 아웃소싱, 내부조직 활용 등 데이터 라벨링 작업방식을 선택 및 활용하여야 한다.
1) 내부조직 : 머신러닝 훈련에 대한 높은 수준의 이해가 필요한 작업, 라벨링 결과에 대한 매우 긴밀한 피드백을 요하는 경우에 적합
2) 아웃소싱 : 머신러닝에 대한 이해도는 낮아도 되지만 전문적인 지식과 숙련도를 요구하기 때문에 내부직원이 수행하기에는 어려운 라벨링 작업에 적합
3) 크라우드소싱 : 단기간에 대량의 라벨링을 처리해야 하고, 다수의 사용자로부터 데이터 수집 및 라벨링 작업을 요하는 개인정보보호 및 기밀성 수준이 낮은 작업에 적합
5.3.6 이미지/동영상 라벨링 시 아래 사항을 준수해야 한다.
1) 카테고리 라벨은 반드시 분류체계에 따라 명확하게 정의된 라벨을 사용해야 하고 카테고리 간 모호성이 없어야 한다.
2) 바운딩박스는 이미지 내에서 특정객체의 위치정보를 추출하는 것으로 대상 객체 전체를 감싸는 형태로 공백을 최소화 해야 한다.
3) 시맨틱 세그멘테이션(semantic segmentation)은 객체 영역을 픽셀 단위로 표시하는 작업으로 동일 카테고리의 객체가 중첩되어 있는 경우를 구별하지 않는다.
4) 인스턴스 세그멘테이션(instance segmentation)은 각 객체 영역을 픽셀 단위로 구분 표시한다.
5.3.7 음성 데이터 라벨링 시 아래 사항을 준수해야 한다.
1) 음성 전사는 ‘ETRI 전사규칙’을 준수할 것을 권고한다.
5.4 데이터 검수
5.4.1 검수작업에 필요한 검수규격은 다음의 사항을 반드시 포함해야 한다.
1) 검수유형 : 일반 데이터 작업 숙련자가 검수가능한 일반분야, 해당분야 전문가의 검수가 필요한 전문분야로 구분
2) 검수기준 : 적합/부적합 판정을 위한 기준 및 예시 (라벨링 규격참조)
3) 검수방법 : 2인 이상 교차검증 및 전수조사 필수