AI Hub

위키백과, 우리 모두의 백과사전.
AI Hub(AI 허브)
AI Hub 로고.png
웹사이트AI Hub 사이트
사용 언어대한민국 한국어
소유자한국지능정보사회진흥원
현재 상태운영 중

AI Hub는 한국지능정보사회진흥원(韓國知能情報社會振興院, National Information Society Agency, NIA)가 운영하는 AI 통합 플랫폼이다.

2017년 AI 학습용 데이터 구축·확산 사업의 일환으로 AI 기술·서비스 개발에 필수적인 AI데이터, 소프트웨어, 컴퓨팅자원, 소재정보 등을 원스톱으로 제공하는 것을 목적으로 한다.

서비스[편집]

현재 AI Hub에서 지원하는 서비스는 크게 인프라 서비스 4종(AI데이터, AI 소프트웨어, AI컴퓨팅, AI이지빌더)과 AI 활성화를 위한 서비스 3종(AI혁신체험, AI리더보드, AI커뮤니티)이며, AI관련 경진대회를 소개하는 페이지도 제공하고 있다.

데이터 공개현황[편집]

2018년 1월 AI데이터 1차 공개를 시작으로 2019년 6월 한국어 음성 및 대화와 관련한 250만 개 인공지능 학습용 데이터를 공개하기도 했다.[1]

인공지능 학습용 데이터 구축 현황('17~'18년)
연도 분야 주요내용
‘17년

(’18.1월 개방)

법률 국가법령 중 교통사고, 층간소음, 창업 인허가 분야의 관련 법령, 조문, 판례 법률용어 데이터 11만건
특허 국내 출원·등록된 전기·전자분야의 특허정보, 심사정보, 특허전문기술용어 데어터 100만건
일반상식 한국어 위키백과에서 활용도가 높은 일반상식 데이터 12만건
이미지 한국인 안면 이미지 600만장(200명) 및 한국음식 이미지 데이터 15만장(150종)
‘18년

(’19.1월 개방)

850만건

헬스케어 안저 이미지에 주요 질환(녹내장, 황반변성, 당뇨망막증 등)의 전문의 검사소견을 결합한 데이터셋 3천장
관광 주요 관광특구내 식당, 시설의 이미지에 각종 다국어(한,영,중,일) 정보(명칭, 위치, 메뉴, 관광정보 등)를 결합한 데이터셋 150만건
농업 국내 농작물의 영농정보, 상담정보, 지원사업정보 등을 가곡한 데이터 및 종작물 병충해 이미지 데이터 5만건
특허 전기·전자, 기계 화학 분야의 출원, 등록된 특허 청구항 정보, 특허전문기술용어 데이터 70만건
법령 이혼, 한부모가족, 학교폭력, 퇴직금개 분야 법령정보(법령, 판례, 사례, 용어 등) 데이터 10만건
이미지 한국인 안면이미지(200명) 구축 및 국산차량(100종)에 대한 이미지 데이터 615여만장
‘18년

(’19.4월 개방 예정)

250만건

한국어음성 한국어 음성 인식 성능을 향상시키기 위해 자유연속발화, 소음 환경 등을 고려한 음성 데이터 1,000시간
한국어대화 영상에서 인물의 표정, 음성(억양), 발화 내용 등의 감정이 포함된 멀티모달 영상 데이터 20시간
멀티모달 중소상인 비즈니스에 적용 가능한 한국어 챗봇 구축을 위한 한국어 표준 대화 시나리오 데이터 50만건
기계독해 지문으로부터 AI가 학습을 통해 질의에 대한 답변을 추론하는 딥러닝 기반 기계독해(MRC) 데이터 40만건

또한, 국가 R&D 과제인 지능정보 플래그십 사업을 통해 구축된 데이터셋도 AI Hub를 통해 공개되었다.

지능정보 플래그십 사업은 음성, 언어, 영상 등 다양한 정보를 복합적으로 학습해 사람과 상호 작용하는 대화형 에이전트 기술 및 서비스를 개발하는 AI 분야 연구개발(R&D) 사업이다.

Open 데이터[편집]

국내 중소벤처기업, 연구소, 개인 등이 높은 비용과 투입시간으로 인해 자체적으로 확보하기 어려운 양질의 대용량 인공지능 학습용 데이터를 누구에게나 공개하여 지능 정보사회와 인공지능 산업생태계를 조성하는데 기여한다. AI Hub는 지능정보산업인프라조성 사업으로 추진한 AI 학습용 데이터와 국내외 기관/기업에서 보유한 AI 학습용 데이터가 공개되어 있다.

지능정보 플래그십 R&D 데이터[편집]

ICT융합산업원천기술개발사업으로 수행하고 있는 사용자를 이해하고 적절한 도움을 주는 동반자 관점에서 다양한 입력을 수집하여 학습하는 적응형 기계학습 기반 자율지능 디지털 동반자 기술 개발 과제를 통해 취득한 AI 데이터를 공개하고 있다.

지능정보 플래그십 R&D 데이터 현황
구분 데이터명
인식기술 시각지능 한국어 이미지 설명 데이터셋
자동차 환경 인물 인식용 데이터셋
감정 분류용 데이터셋
언어지능 수어 데이터셋
웰니스 대화 스크립트 데이터셋
한국어 대화 데이터셋
트위터 기반 일상 대화 데이터셋
대화형 한글 에이전트 데이터셋
어린이 음성 데이터셋
VRM 화행 데이터
한국어 감정 정보가 포함된 연속적 대화 데이터셋
한국어 감정 정보가 포함된 단발성 대화 데이터셋
인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋
심리상담을 위한 멀티모달 데이터셋
기타 차량 OBD 수집 데이터셋
환경 신호 분석 기반 환경 및 행동 이해용 데이터셋
스마트폰 앱/웹 사용 로그 데이터셋
웨어러블 기기 데이터셋
IoT 환경 센서 데이터셋
라이프로그 신호 기반 감정 분류용 데이터셋
추론기술 임신육아 지식베이스
정신건장(우울증, 불안장애) 기반의 의미어 구축
순차적 의사결정 데이터셋
여행 정보 데이터셋
상황/의미적 정보 데이터셋
표현기술 한국어 어체 변환 데이터셋
감정 음성합성 데이터셋

현재 27종의 데이터셋이 공개되거나 데이터를 준비 중이다.

  • 한국어 이미지 설명 데이터셋

MS COCO 캡셔닝 데이터(이미지 약 12만장) 1차 한국어 기계번역 완료, 기계번역 오류 수정

MS COCO의 영어 캡션을 한국어 문장으로 번역

추후 국내 환경에 적합한 고품질 이미지 데이터 구축 필요

얼굴 인식 및 얼굴의 위치까지 확인하기 위하여 바운딩 박스를 이용하여 얼굴의 위치까지 태깅

  • 자동차 환경 인물 인식용 데이터셋

1차년도: 인물 14명 시내코스 30-45분 주행 데이터

얼굴 데이터의 실효성 제고를 위해 다양한 각도, 조도, 가림, 표정등을 반영한 12명의 얼굴(인당 약 1천장)의 이미지 데이터 제작

  • 감정 분류용 데이터셋

연기 지망생/연기 전문가 100명, 7가지 감정에 대해 약 100번씩 발화 및 연기, 총 10,351개 영상

감정 유추가 가능한 대화 데이터를 사람이 연기하여 결과를 저장하고, 동시에 해당 데이터의 감정 상태와 감정 주체 부여

연기 지망생/연기 전문가 100명 대상, 7가지 감정에 대해 1인당 약 100번씩 발화 및 연기 수행, 총 10,351개 영상 구축

  • 수어 데이터셋

105개 문장, 419개 단어를 20명의 수어전문가를 3대의 카메라로 동영상 획득 (31,440개 동영상)

  • 웰니스 대화 스크립트 데이터셋

정신건강 상담 주제의 359개 대화의도에 대한 5,232개의 사용자 발화 및 1,023개의 챗봇 발화 구축

  • 한국어 대화 데이터셋

주제에 맞는 동영상 (해외 포함)을 참조하여 한국어 및 황에 적절하도록 각색하여 구축

748개의 멀티턴 대화셋, 단발성으로 4,975 문장 존재

하나의 대화셋 당 3 ~ 12개의 대화 턴으로 구성

  • 트위터 기반 일상 대화 데이터셋

1차년도: 1~17turn 2,000 Set

트위터에서는 화자2명이 1turn(45%), 2turn(16%), 화자 3명이 3turn(7%), 4turn(5%), 5turn(3%) 순서로 대화를 많이 함.

트위터 특성상, 화자 2명이 간소한 1~2turn대화를 가장 많이 하고, 화자 3명이 모였을 때, 3턴 이상 대화를 심도있게 하며, 화자 4명일 때는 화자 3명일 때와 비교해서 11% 수준으로 대화빈도가 급속히 감소하는 것으로 볼 때, 트위터에서는 화자 2~3명이 1~5turn 대화를 주로 주고받는 것으로 확인.

워드넷 키워드를 이용한 대용량 크롤러에 의해 대화 시나리오 자동 수집 후, 가치 있는 대화 시나리오를 수작업으로 선별, 교정 등 정제작업 수행.

트위터에서 다수의 화자가 다수의 turn으로 일상적인 주제에 대해서 주고받은 고품질 대화 데이터 구축함.

  • 대화형 한글 에이전트 데이터셋

8,000 dialouge set(각 dialougue별 2~10개의 대화 묶음)

국내 특화 시각지능기술 및 서비스 개발을 위해 필요한 한국어 대화 데이터의 제작, 수집, 분류 체계를 마련하고 관련 정보를 레이블링

대화 문맥을 이해하기 위해 하나의 흐름에 해당하는 묶음으로 구분하여 데이터를 구성

국내 인공지능 기술의 활성화를 위해서는 무엇보다 기계학습에 활용할 다양한 패턴의 고품질 텍스트 데이터 확보가 중요

영화, 드라마, SNS 등 각각의 주제에 대해 이야기 하는 대화 묶음을 약 8,000개의 대화 묶음 구성

  • 어린이 음성 데이터셋

40명 12시간 녹음 자료 수집

초등학생 1학년에서 6학년의 남녀가 발성한 총 22.387시간의 음성데이터

총화자 300명 중 여성 149명, 남성 151명

화자당 평균 발성회수 : 60~100문장

총 발화문장 : 25,369문장

녹음형태 : 16kHz 또는 8kHz, headerless 16bit Linear PCM Mono 데이터

녹음환경 : 조용한 환경의 스마트폰

  • VRM 화행 데이터

영문 SWDA 혹은 MRDA 화행 데이터를 기반으로 VRM 화행 맵핑을 통한 데이터셋 약 10만건 레코드 구축

한국 드라마 대본 셋에서 크라우드 소싱으로 레이블링된 VRM 화행 분류 데이터셋 구축

  • 한국어 감정 정보가 포함된 연속적 대화 데이터셋

연속적 10,000개 대화 (단발성 55,627문장)

웹 크롤링 등의 방법으로 대화를 수집하고, 적정 길이와 turn 수 및 주제를 가진 대화를 선정하였으며 감정 레이블링 수행

챗봇이 말하기 부적절한 용어(지나치게 전문적인 용어, 비속어 등)을 가능한 범위에서 필터링 하였음

연속적 10,000개 대화 세트, 단발성으로는 55,627 문장 존재: 1개 대화당 두 사람이 합쳐서 5.6개 정도의 발화를 주고받음

  • 한국어 감정 정보가 포함된 단발성 대화 데이터셋

SNS 글 및 온라인 댓글에 대한 웹 크롤링을 실시하여 문장을 선정함

문장 단위 작업을 수행할 수 있도록 문장 분리 작업을 거침

7개 감정(기쁨, 슬픔, 놀람, 분노, 공포, 혐오, 중립) 레이블링 수행

총 데이터 개수: 38,594 문장

글자 수 분포 : 23.7±13.6자

  • 인공지능 윤리 연구를 위한 비정형 텍스트 데이터셋

1차년도: 뉴스기사 댓글 7,000만 건, 트위터 3,000만 건

2차년도: 온라인커뮤니티 (일베저장소) 댓글4,500만건

3차년도: 온라인커뮤니티 (일베저장소) 댓글2,000만건

  • 심리상담을 위한 멀티모달 데이터셋

20~30대 남녀 50명을 모집하여 영상, 음성, 생체 신호 데이터를 취득

1명당 1시간 30분 동안 실험을 진행하면서 데이터를 취득

영상 데이터의 경우 1명당 40분 정도 취득

음성 데이터의 경우 1명당 30분 정도 취득

생체 신호 데이터의 경우 1명당 1시간 30분 정도 취득

  • 차량 OBD 수집 데이터셋

17명 운전자 별약 1,000km 코스 3회 주행 데이터 (총 51,000km)

  • 환경 신호 분석 기반 환경 및 행동 이해용 데이터셋

오디오: 총 9개 카테고리, 약128시간

레이더 및 온도/조도센서 정보: 약 4.5시간

카메라: 수집 예정

  • 스마트폰 앱/웹 사용 로그 데이터셋

Android 6.0.0 이상을 대상으로 UsageStat API를 활용 앱 사용 내역을 수집함

31명의 피험자를 대상으로 3주간 앱 사용 내역을 수집하였으며, 그 양은 약 10만 건에 달함

데이터베이스는 MariaDB + MaxScale Load Balancer를 활용함

  • 웨어러블 기기 데이터셋

피트니스 트래커/스마트워치 시장의 30% 정도를 점유하고 있는 Fitbit 사의 기기를 대상으로 데이터를 구축

Fitbit 사에서 제공하는 Web API를 활용하여 주기적으로 수집된 웨어러블 기기 데이터를 취득함

현재 31명의 피험자를 대상으로 3주간 심박수 및 걸음수를 수집하였으며, 그 양은 심박수의 경우 약 150만 건, 걸음수는 58만 건임

  • IoT 환경 센서 데이터셋

Cao Gadgets 사의 Wireless Sensor Tag 기기를 대상으로 실내 온/습도, 문 개폐 여부, 근접도 등의 센서 데이터를 수집/구축

해당 회사에서 제공하는 Web SDK를 활용하여 별도의 데이터 수집 서버를 구축하였음

(예정) 사무 환경을 대상으로 1주간 실내 온/습도, 문 개폐 여부, 데스크탑 근접도 등을 수집

  • 라이프로그 신호 기반 감정 분류용 데이터셋

20~40대의 일반인 사용자 180명 대상으로 1개월간 수집 진행

텍스트 작성 기준 총 2,800건 수집 (TPO 정보 포함)

  • 임신육아 지식베이스

의료상담 지식베이스 구축을 위해 6개의 참고 사이트, 15개의 서적에서 기본적인 데이터를 수집

임신육아, 정신건강 도메인 관련 기준 질문 셋 18,000건을 구축하여, 페러프레이즈 포함 총 70,000건 이상의 질문 셋을 구축

  • 정신건장(우울증, 불안장애) 기반의 의미어 구축

정신건강 ‘우울증’, ‘불안장애’ 및 피부과 산모 피부질환 관련 증상 키워드 분류 및 정의

우울 및 불안 증상 및 산모의 피부질환관련 대표 카테고리 별 임상적 유의미한 키워드를 전문 임상의가 선정

약 16,000 명의 호소 증상 관련 의료 텍스트 데이터의 텍스트 마이닝 전처리 과정 수행과 데이터 기반 연관 표현들로 분류

자연어 처리 기술의 활용을 통한 특정 기준 증상 키워드 및 높은 연관성을 지닌 증상 키워드 확보

특정 기준 증상 키워드 및 확보된 증상키워드를 임상 키워드를 명시하고 관련 키워드가 사용된 표현 정리 및 구축/분류

  • 순차적 의사결정 데이터셋

1, 2차년도: 44명 대상 약 95,000개 의사결정 행동데이터

실제 환경 변화 시나리오를 모사한 실험 환경 구축

위의 실험 환경에서 44명을 대상으로 실험 진행, 인간의 환경 탐색/학습 과정 데이터 구축

  • 여행 정보 데이터셋

국내·외 여행 에이전트 개발을 위한 24,557개의 이벤트, 위치, 시작일, 종료일의 정보 태깅 및 템플릿 구축

구축 결과

- 국내 전국(주요 시·도) 11,400건 구축

- 국외 라스베가스, 로스앤젤레스 한정 13,157건 구축

  • 상황/의미적 정보 데이터셋

사용자 맞춤형 개인화된 인공지능 에이전트 개발을 위해선 이러한 스마트폰 기반의 상황/의미적 정보를 활용하는 것이 필요함

이러한 종류의 데이터를 공식적으로 공개/공유하는 기관은 현재까지 없거나, 그 양이 미비하므로, 관련 분야 발전을 위하여 데이터 구축 및 공개가 필수적

데이터 공개/제공시 여러 형식으로 변환하여 제공할 수 있도록 지원 (JSON, CSV 등)

  • 한국어 어체 변환 데이터셋

한국어 대화 시스템에서 활용도가 가장 높은 해요체, 합쇼체, 반말체를 대상으로 한국어 문장을 제작, 수집 체계를 마련하고 관련 정보를 레이블링

한국어 문법에 대한 지식을 보유하고 있는 대학원생이 문장을 분석하고 어체 문장을 작성하는 방식으로 수집

의료 도메인 대화 1,940 문장, 일상, 오피스 대화 672 문장을 수집

  • 감정 음성합성 데이터셋

30대 여성 성우 1인, 7가지 감정에 대하여 각각 3,000개 발화, 총 21,000개 음성 파일

AI Starthon 데이터[편집]

과학기술정보통신부, 정보통신산업진흥원과 네이버가 주최하는 인공지능 기술 저변 확대를 위해 온라인상에서 알고리즘 개발 능력을 경쟁하는 인공지능 경진 대회에서 주어진 7개의 주제와 20개의 과제에 대하여 온라인상에서 AI알고리즘을 연구, 개발, 활용하여 해결하고 총 10개의 데이터를 AI Hub에서 공개하였다.

같이 보기[편집]

인공지능 R&D 그랜드 챌린지 대회

자율지능 디지털 동반자[깨진 링크(과거 내용 찾기)]