데이타 라벨링 작업은 인공지능 알고리즘 고도화를 위해 스스로 AI가 학습할 수 있는 형태로 데이터를 가공하는 전반적인 업무를 의미합니다.
AI가 라벨링이 잘 된 데이타로 학습이랑 과정을 거치면 원하는 결과를 정확하게 얻을 수 있습니다. 학생이 핵심 정리가 잘된 자료를 가지고 학습을 하고 시험을 쳐서 성적이 오르는 것으로 비유할 수 있습니다.
데이터 정제는 데이터 오류 제어, 크기 맞게 변형하는 작업입니다.
데이터 검수는 수집 → 정제 → 라벨링 → 검수로 이루어집니다.
데이타는 계속 증가할 것입니다. 2025년엔 하루당 메일은 2940억개, 트윗 4억, 자동차 한대당 4TB가 생성됩니다. 전체를 따지면 총 463EB(1EB (백경 바이트))가 생성됩니다.
데이타 라벨링 작업이 중요해지는 시대에 살고 있습니다. 이제 데이타를 가공하는 데이타 라벨링 작업에 대해 알아보겠습니다. 혹시 N잡러로서 데이타 라벨링 작업에 대한 무료 교육이 필요하신 분들은 여기를 참고 바랍니다.
목차
ToggleAI 업무 형태
- 크라우드 소싱
- 대중(Crowd)과 아웃소싱(Outsourcing)의 합성입니다.
- 기업 활동의 일부 과정에서 일반 대중(크라우드 워커)을 참여시키는 것을 의미합니다.
- 크라우드 워커
- 일반인이 기업의 업무 용역을 대행 수행하고 일정 대가를 받는 경우를 의미합니다.
- 집이나 재택근무 등의 형태로도 업무 수행이 가능하고 자유롭게 과제물을 수행하는 일자리입니다.
- 데이터 라벨러
- 데이터의 수집에서 가공에 이르기까지 인공지능 학습에 필요한 형태의 데이터를 만드는 사람입니다.
인공 지능 데이터
- 인공지능 학습용 데이터
- 인공지능이 학습을 통해 성능을 향상시키는데 활용되는 데이터
- 인공지능 학습용 데이터 구축
- 임의정의, 데이터 획득, 데이터 정제, 데이터 라벨링 등 인공지능 학습용 데이터를 구축하는 일련의 활동
- 데이타 수집(획득)
- 인공지능의 기계학습에 필요한 데이터를 현실 세계에서 직접 수집 또는 생성하는 등 다양한 종류의 데이터를 모으는 작업
- 데이터 정제
- 기계학습에 필요한 형식으로 맞추거나, 불필요한 중복을 제거하며, 개인정보를 비식별화하여 처리하는 등 인공지능 학습에 적합한 형태로 바꿔주는 작업
- 데이터 라벨링
- 인공지능 알고리즘 고도화를 위해 AI가 스스로 학습할 수 있는 형태로 데이터를 가공하는 작업
- 데이터 검수
- 데이터 라벨링이 올바르게 되었는지를 확인하는 작업
- 라벨(레이블)
- 인공지능 학습을 위해 데이터에 부착하는 것으로 해당 대상에 대한 명칭 뿐 아니라 데이터 인식에 필요한 설명이나 정담과 같은 의미
- 챗봇
- 문자 또는 음성으로 대화하는 기능이 있는 컴퓨터 프로그램 또는 인공지능
라벨링 작업 형태
- 바운딩
- 이미지에서 추출하고자 하는 대상을 네모난 박스로 표시하는 라벨링 기법
- 데이터 라벨링 작업에서 가장 일반적으로 사용되는 유형
- 태깅
- 이미지나 파일 등에 이름을 붙이는 것
- 대표할 수 있는 키워드를 달아줌으로써 대상을 분류하는 작업
- 전사
- 이미지나 영상 속의 문자를 텍스트로 옮겨 적는 작업
- 감정 분석
- 이미지나 영상 속 사람의 표정을 보고 어떤 감정 상태인지를 추론하는 라벨링 기법
- 키포인트
- 작업 대상의 특정 지점에 마우스를 클릭하여 점을 찍어주는 라벨링 기법
- 얼굴 랜드마크
- 얼굴의 주요 부위에 마우스를 클릭하여 점을 찍어주는 라벨링 기법
- 폴리곤
- 객체의 불규칙한 경계를 따라 점을 찍는 라벨링 기법
- 폴리라인
- 여러 개의 점을 연속적으로 그리는 라벨링 기법
- 시멘틱 세그멘테이션
- 폴리곤, 폴리라인, 브러쉬 등을 사용하여 경계를 나누어 분할함으로써 이미지 내의 모든 대상의 위치 및 모양 등을 영역으로 분류해내는 라벨링 기법
- OCR(광학문자인식)
- 영상, 이미지 상의 텍스트를 기계가 읽을 수 있는 문자로 변화하는 라베링 기법
- 스켈레톤
- 대상의 특정 부위에 점을 찍는 라벨링 기법
- 특정 구간 추출
- 작업 대상이 사전에 제시된 기준에 해당하는 말이나 행동 등을 할 때의 구간을 선택해 추출하는 라벨링 기법
- 3D 라벨링 기법
- 육면체의 입체적인 박스를 생성하여 바운딩 하는 것과 같이2차원 라벨링의 한계를 넘어 3차원의 입체적 표현을 가능케 하는 라벨링 기법
- 복합 라벨링
- 여러 개의 라벨링 기법을 복합적으로 사용하는 라벨링 기법
- 문장 의미 비교
- 주어진 문장들의 의미가 같은 것인지 태깅하는 라벨링 기법
- 감정 태깅
- 제시된 글을 읽었을 때 느껴지는 감정을 선택하는 라벨링 기법
- 키워드 찾기
- 대화 내용 속에서 핵심이 되는 키워드를 찾는 라벨링 기법
- 문장 요약
- 글을 읽고 핵심이 되는 내용을 요약하는 라벨링 기법
- 화자 구분
- 제시된 음성을 모두 듣고 동일한 사람의 목소리인지를 판단해서 태깅하는 라벨링 기법
- 음성 받아쓰기
- 주어진 음성을 듣고 받아쓰는 라벨링 기법
- 일반 전사
- 사람이 말한 그대로 문자화하여 전사하는 방법
- 이중 전사
- 한글 맞춤법 표기에 따른 발음과 차이가 있는 경우, 발음 저사와 철자 전사를 병행하여 작성하는 방법
인공지능 학습용 데이터 구축 과정
- 데이타 수집
- 다양한 종류의 데이터를 모으는 과정
- 데이터 정제
- 데이터를 인공지능 학습에 적합한 형태로 바꿔주는 과정
- 데이터의 오류 제거
- 필요한 형식이나 크기에 맞게 변형
- 불필요한 데이터 제거
- 개인정보 비식별화 처리
- 데이터 라벨링
- 인공지능이 학습할 수 있는 형태로 데이터를 가공하는 작업
- 데이터 검수
- 데이터 라벨링이 올바르게 되었는지를 확인하는 작업
데이터 유형
- 이미지 데이타
- 활용 : 랜드마크, 손글씨, 얼굴 인식, 질환 진단, 엑스레이 위험물 탐지 기술 등
- 수집 : 작업 대상과 기준에 맞춰 사진을 찍어 업로드 하는 방식
- 라벨링(가공)
- 바운딩, 키포인트, 감정분석, 얼굴 랜드마크, OCR, 폴리곤, 폴리라인으로 라벨링을 합니다.
- 영상 데이타
- 활용 : 이상행동 탐지, 동작분석, 감정 인식 등
- 수집 : 작업 대상과 기준에 맞춰 영상을 찍어 업로드 하는 방식
- 라벨링 (가공)
- 바운딩, 스켈리톤 추출, 특정 구간 추출, 시멘틱 세크멘테이션, 3D 라벨링, 멀티모달 라벨링
- 텍스트
- 활용 : 인터넷 자동완성 기능, 연관 검색어, 챗봇 서비스 등
- 수집 : 제시된 내용에 적절한 질문을 작성하거나 Q&A 대화를 만드는 방식
- 라벨링 (가공)
- 문장 의미 비교, 감정 태깅, 키워드 찾기, 문장 요약
- 음성
- 활용 : 상황별 맞춤 대화록 작성, 음성인식 서비스, 자동번역, 영상 자막 등
- 수집 : 휴대폰으로 음성 등의 소리를 녹음하여 바로 업로드 하는 방식
- 라벨링 (가공)
- 화자 구분, 음성 받아쓰기(일반 전사, 이중 전사)