○ 본 연구는 ICO의 성공 가능성 및 사기 여부를 탐지하기 위해 블록체인 암호화폐 소스코드, 백서, 커뮤니티 여론등 다양한 데이터를 수집하여 ICO를 여러 관점에서 정량적으로 평가하고자 함
○ 이를 위해 데이터 수집, Feature 개발, 데이터 분석, 결과 검증의 절차를 ...
○ 본 연구는 ICO의 성공 가능성 및 사기 여부를 탐지하기 위해 블록체인 암호화폐 소스코드, 백서, 커뮤니티 여론등 다양한 데이터를 수집하여 ICO를 여러 관점에서 정량적으로 평가하고자 함
○ 이를 위해 데이터 수집, Feature 개발, 데이터 분석, 결과 검증의 절차를 거쳐 연구를 진행하고자 함
○ 먼저, ICO 평가를 위한 체계적인 평가 프레임워크를 구상할 계획임
● 기존의 IPO 평가 연구를 분석하여 ICO를 평가하기 위한 핵심적인 특성(feature)을 재정의하여 블록체인 암호화폐에 대한 평가 체계를 설계하고자 함
● ICO에 대해 공식적으로 공개되는 자료는 백서와 블록체인 암호화폐 소스코드가 전부라고 볼 수 있으므로 해당 자료를 수집함과 동시에 ICO와 관련된 커뮤니티 여론 또한 사용자들의 투자 결정에 많이 참고되므로 사용자들의 여론에 대한 오피니언 마이닝(Opinion Mining)을 수행할 절차를 구축할 것임
● 최근 블록체인 암호화폐는 금융시장의 관심사이며 새로운 암호화폐에 대한 언론, 투자기관의 관심을 받고 있으므로 뉴스기사 또는 투자기관 의견 등을 종합하는 체계를 수립할 예정임
● 최종적으로 ICO 주요 특성별 정량적인 평가 지표를 제안하여 기존의 ICO와 새로이 등장하는 ICO를 객관적으로 평가할 수 있도록 할 것임
○ 둘째, 기존 IPO 평가 기법을 ICO에 적합하게 확장하여 설계한 평가 프레임워크에 따라 ICO 데이터를 수집할 계획임
● 암호화폐 ICO의 경우 실체 구현체인 소스코드를 공개함으로써 자신들의 기술력을 증명함
● 하지만, 사기 ICO로 판명난 과거 프로젝트 중에도, 소스 코드는 기존 프로젝트의 것을 베껴오는 것이 있어, 소스 코드의 공개 여부만으로도 전문가가 아닌 사람들이 기술력에 대한 검증을 진행하는 것은 불가능에 가까움
● ICO 백서를 구성하는 핵심 요인을 추출하여 DB화하고, ICO에서 제시하는 블록체인 암호화폐 소스코드의 유사도 판별, 핵심 코드 도출을 위한 임베딩 기법을 적용할 예정임
● 소스 코드 및 저장소 내의 활동기록 등을 추출하여 저장하고자 함
● 만약 소스 저장소가 없는 경우, 저장소 관련 벡터의 값을 결측치로 두어 모델에서 소스 저장소가 없는 것을 반영시키도록 할 계획임
○ 셋째, ICO 백서로부터 추출된 정보와 함께 다양한 채널을 통해 관련 텍스트 데이터를 수집할 계획임
● 한국의 경우 암호화폐 투자 관련 논의가 활발한 다음의 “코인천사” 카페 및 클리앙 “암호화폐당” 게시판, 암호화폐 모임인 “DDENGLE” 등의 커뮤니티를 웹 크롤링하여 특정 암호화폐에 대한 사용자들의 여론을 수집할 계획임
● 또한, 네이버 블로그, 다음 블로그, 티스토리 등의 블로그 플랫폼에 올라오는 특정 코인 관련 포스트들에 대해서도 웹 크롤링을 이용하여 텍스트 데이터를 구축할 계획임.
● 국외 ICO의 경우, 다양한 해외 채널을 발굴하여 수집할 계획임.
● 수집된 텍스트 데이터는 텍스트 벡터 임베딩 알고리즘인 BERT와 감성분석을 통해 연구에 활용될 계획임
● 또한, 커뮤니티의 여론 확산 구조를 작성자-댓글 등의 네트워크 구조로 확인 후 네트워크를 node2vec 알고리즘으로 벡터화할 계획임
○ 마지막으로 객관적인 평가방법론을 도출하기 위해 기존 ICO 백서를 통해 성공적으로 상장된 암호화폐 및 실패 사례, 사기로 판명된 사례를 분류하는 분류기 개발할 계획임
● ICO 백서의 분류기 개발을 위해 수집된 데이터에 구체적인 라벨링(labeling) 작업을 수행하여 고품질의 학습 데이터를 구축하고자 함
● 분류기는 성공, 실패, 사기를 분류할 뿐만 아니라 판단에 대한 신뢰도를 바탕으로 점수화할 수 있는 지표를 도출하도록 구현할 예정임
● ICO 백서로부터 추출된 핵심 특성(feature)과 더불어 웹 크롤링으로 얻은 정보를 결합하여 신뢰도를 확보할 수 있는 지표로 발전시킬 예정임
○ 데이터 분석은 Deep Learning과 Gradient Boosting을 활용하여 Ensemble Model을 통해 데이터를 분류하고자 함
● 첫 번째 모형인 Deep Learning 모형에서는 텍스트 데이터를 BERT 알고리즘을 통해 벡터화시킨 데이터셋을 이용하여 합성곱 신경망 분류 모델을 사용하여 분류할 예정임
● 두 번째 모형인 Gradient Boosting 분류 모형에서는 벡터 형태의 Feature들을 모두 투입하여 유의미한 분류 모형을 구축할 계획임
● 본 연구에서 활용하고자 하는 Gradient Boosting알고리즘인 catboost 알고리즘은 Anna Veronika Dorogush et al.,(2017)에 의하면 범주형 자료 분류에 최적화된 변환 기법을 가지고 있는 것으로 확인 됨
● 따라서, 성공, 실패, 사기 3개의 분류로 데이터를 구분하는 해당 연구에 가장 적합한 알고리즘으로 확인하였음