합성데이터

합성데이터는 원본 데이터와 통계적 특성이 유사하여, 실제 원본 데이터 분석 결과와 유사한 결과를 얻을 수 있도록 가상으로 재현한 가상의 데이터로 인공지능(AI)학습, 통계분석 등을 위하여 자유롭게 활용 가능합니다.
※ 합성데이터 다운로드 신청 시 관리자 승인 후 마이페이지를 통해 다운로드 가능합니다.

신청방법

신청서 접수

관리자 검토

이용목적 확인

데이터 다운로드

합성데이터 특장점

개인정보는 포함하지 않으며 데이터 활용 가치는 최대한 유지 가능

안전성

실제 데이터(real data) 수집이 어렵거나 활용에 한계가 있는 경우, 민감한 정보가 포함된 경우 안전한 합성 데이터로 생성하여 활용 가능

비용 효율성

AI 학습에 필요한 대규모 데이터를 직접 구축하는 것보다 합성데이터를 생성하여 활용하는 것이 비용면에서 훨씬 저렴*할 수 있음

"데이터에 라벨을 지정하는데 6달러의 비용이 드는 반면, 이미지를 합성데이터로 만든다면 6센트면 된다" (최초의 합성데이터 서비스업체 AI.Reverie의 공동설립자 폴 월보르스키)

AI모델 성능 향상

AI모델 고도화를 위한 실제 데이터가 부족한 경우, 합성데이터를 통해 가치 있는 학습데이터셋을 대량으로 구축 가능

AI모델 성능 향상은 학습에 사용되는 합성데이터의 품질에 따라 좌우되며, 합성데이터만 활용하여 학습할 경우 실제 데이터로만 학습할 때보다 성능은 약간 떨어질 수 있음
(이 때문에 모델 성능개선을 위해 부분 합성데이터를 활용하기도 함)

법적 제약 완화

합성데이터는 분석 등 2차 목적의 데이터 활용에 대한 법적제약(추가동의, 보호조치 등)을 해소하는 방법 중 하나로 활용 가능

비식별처리된 정보(가명·익명정보)와 합성데이터 비교

비식별처리된 정보(가명·익명정보)와 합성데이터 비교
구분 개인정보 가명정보 익명정보 합성데이터
프라이버시 위험 높음 중간 낮음 낮음
데이터 유용성 높음 중간 낮음 비교적 높음

제공 데이터

합성데이터 다운로드 신청 시 데이터 이용목적을 기재하셔야 승인됩니다.

제공 데이터
번호 합성데이터셋 유형 규모 생성 목적
1
구강 이미지
비정형
(이미지, PNG포맷)
1,000장
충치진단·예방
AI 솔루션 개발
2
안전모 착용 이미지
비정형
(이미지, JPG포맷)
5,500장
안전모 착용 감지
AI 솔루션 개발
3
혈당 측정정보
정형
(CSV포맷)
723건
(데이터 컬럼수: 6)
IoT 헬스케어기기
캘리브레이션(보정)
4
통신사 멤버십 사용내역
정형
(CSV포맷)
102,503건
(데이터 컬럼수: 7)
통신사 멤버십앱 제휴사 선호도 분석
5
기업주주·대표자 정보
정형
(CSV포맷)
1,860건
(데이터 컬럼수: 12)
대안신용평가
모델 개발

합성데이터 샘플

합성데이터 샘플
구강 이미지 안전모 이미지
합성데이터 샘플 구강 이미지 합성데이터 샘플 구강 이미지 합성데이터 샘플 구강 이미지 합성데이터 샘플 구강 이미지 합성데이터 샘플 구강 이미지 합성데이터 샘플 구강 이미지
혈당 측정정보 샘플 데이터
혈당 측정정보
측정시간 나이 혈당 식사 시간 식사량(Kcal) 측정기기
오전 10시 57세 137 8 0 i-SENS
오후 5시 52세 126 8 0 i-SENS
오후 11시 53세 120 8 100 i-SENS
오전 3시 61세 126 8 0 i-SENS
오후 10시 53세 137 8 100 i-SENS
... ... ... ... ... ...
통신사 멤버십 사용내역 샘플 데이터
통신사 멤버십 사용내역
컨텐츠 유형명 고객 연령 고객 성별 주소 발행 요일 발행 월 발행 시각
CGV할인쿠폰 29 FEMALE 경기도 saturday 6 15
조회쿠폰 16 MALE 부산시 monday 12 8
U+멤버십카드 36 MALE 대전시 thursday 11 21
조회쿠폰 28 FEMALE 경기도 wednesday 5 17
조회쿠폰 46 MALE 경기도 thursday 4 23
... ... ... ... ... ... ...
개인기업주주·대표자 정보
개인기업주주·대표자 정보
종업원수 CRI등급 설립일 재고자산증가율 인건비대총비용 비율 차입금 의존도 단기차입급/총차입금 재고자산 회전율 상(제)품 회전율 설비투자 효율 이자 보상비율 기업규모
4 1 1594 5.080 3.603 2.837 4.6151 2.977 3.270 4.746 27.631 중소기업
5 1 874 3.458 27.631 2.837 4.6151 3.592 3.399 5.961 27.631 중소기업
3 1 1019 4.518 27.631 0.548 4.6151 3.103 3.626 4.742 27.631 중소기업
3 1 1418 4.722 2.197 4.186 3.6490 1.914 2.004 6.423 1.868 중소기업
8 2 1245 0.000 0.000 4.118 4.0076 0.883 0.357 5.515 0.000 중소기업
... ... ... ... ... ... ... ... ... ... ... ...

문의사항

  • 한국인터넷진흥원 AI프라이버시팀
  • link@kisa.or.kr