연구성과물검색
유형별/분류별 연구성과물 검색
HOME ICON HOME > 연구과제 검색 > 연구과제 상세정보

연구과제 상세정보

개인정보 비식별화 방법론의 모색 : 과학적 방법론과 절차적 통제의 융합
Exploring Methodologies for Personal Information De-Identification : A Synthesis of Scientific Methods and Procedural Control
  • 연구자가 한국연구재단 연구지원시스템에 직접 입력한 정보입니다.
사업명 학제간융합연구사업 [지원년도 신청 요강 보기 지원년도 신청요강 한글파일 지원년도 신청요강 PDF파일 ]
연구과제번호 2017S1A5B6055051
선정년도 2017 년
연구기간 1 년 (2017년 11월 01일 ~ 2018년 10월 31일)
연구책임자 고학수
연구수행기관 서울대학교
과제진행현황 종료
공동연구원 현황 정의영(연세대학교)
이선구(연세대학교)
윤성로(서울대학교)
과제신청시 연구개요
  • 연구목표
  • ● 데이터 비식별화 방법론의 체계화를 위하여, 공학적 관점에서의 비식별화와 법제도적 관점에서의 절차적 통제방안을 분석함.
    - 이를 통해, 공학적 방법론과 법절차적 통제가 서로 보완적인 역할을 수행할 수 있도록 하는 현실성 있는 방법론의 모색
    - 데이터 사이언스에 기반하여 제도적 환경에 부합하는 데이터 비식별화 방법론을 이론적으로 체계화함.
    - 공학적 비식별화 방법론을 고려하여 법제도적 관점에서 필요한 절차적 통제 장치를 검토함.
    ● 데이터 프라이버시를 보호하면서도 데이터를 적극적으로 활용할 수 있는 이론적, 절차적 근거와 방법론을 마련하도록 함. 그리고 더 나아가 실무에서 참고할 수 있는 가이드라인을 제시함.
  • 기대효과
  • ● 데이터 사이언스에 기반한 비식별화 방법론을 체계화하고, 이러한 방법론이 현행 법제도에서 어떻게 구체적으로 활용가능한지를 제시하는 데에 연구의 커다란 의의가 있음.
    ● 본 연구를 통해 데이터의 제도적 환경에 적합한 비식별화 방법에 관한 실무적 지침이 제시될 수 있어서, 데이터의 보호와 함께 유용성 있는 데이터의 활용가능성을 높여주는 데에 막대한 기여를 할 것으로 예상됨.
    - 현재 우리나라에서는 비식별화에 관련한 데이터 사이언스는 상당히 발전을 하였음에도 불구하고 제도적 환경에 적합한 비식별화 방법론에 대한 논의가 충분히 이루어지지 않은 것으로 인해 비식별화가 적극적으로 활용되지 못하고 있는 상황임. 실무에서 이러한 비식별화의 소극적 활용은 소극적인 데이터 활용으로 이어지고 있음.
    ● 본 연구는 정부 및 기업으로부터의 관심을 촉발하여, 다양한 형태의 후속 연구를 자극하는 계기가 될 것으로 예상됨.
  • 연구요약
  • ● 연구목적: 국내의 현행 법제도에 적합한 데이터 비식별화 지침 마련
    - 데이터 비식별화는 법제도적 관점에서의 절차적 통제와 공학 및 통계학적 방법론이 서로 보완적인 기능을 수행하는 것이 반드시 필요한 영역임.
    ◇ 국내의 법제도는 공학적인 비식별화 이론을 충분히 고려하지 못한 상태에서 마련된 것이어서, 데이터 사이언스의 방법론을 고려한 논의가 매우 중요한 상황임.
    ◇ 공학적으로는 비식별화 개념들이 이미 상당 수준으로 정립되어 이 개념들에 대한 이론이 꾸준히 발전하고 있지만, 이러한 개념들이 국내의 법제도 환경에서 어떻게 응용 및 적용될 수 있을지에 관한 체계적인 이해는 크게 부족한 상황임.
    - 법제도와 공학을 연구하는 연구자들 간의 협업 및 대화의 부재가 현재의 답보상태를 초래한 중요한 원인인 것으로 파악됨. 따라서 본 연구는 융복합연구를 통하여 데이터 사이언스에 기반하여 현행 법제도에 적합한 데이터 비식별화 지침을 마련하는 것을 목적으로 함.
    ● 연구내용
    - 본 연구는 다음의 네 단계로 진행할 계획임. (반드시 순차적으로 진행될 것은 아니고, 연구 편의를 위한 개념적인 단계임.)
    - 단계 I: 국내 데이터 환경의 분석 : 구조적 환경 및 제도적 환경
    ◇ 국내 개인정보보호 및 비식별화 관련 법제도 분석
    ◇ 국내의 데이터 환경에 대한 분석
    - 단계 II: 해외 비식별화 사례 및 현황 분석
    ◇ 주요 국가의 비식별화 법제도, 실무현황, 사례 분석 : 영국, 미국, EU, 일본
    - 단계 III: 비식별화와 관련된 공학적 방법론 연구
    ◇ 비식별화 수준의 분류: 데이터 수준의 비식별화, 데이터베이스 수준의 비식별화, 모델 수준의 비식별화
    ◇ 데이터 종류에 따른 분류: 구조적 데이터, 텍스트 데이터, 이미지 및 영상 데이터, 유전체 데이터
    - 단계 IV: 국내 데이터 환경을 고려한 종합적인 비식별화 체계의 정리
    ◇ 국내의 법제도 및 데이터 환경을 고려하여, 국내 상황에 적합한 비식별화 체계의 구축 방향 모색
    ◇ 향후 중장기 국가적 과제의 모색 및 정리, 방향 제시

    ● 연구방법
    - 문헌 조사 및 비교연구
    ◇ 국내 법제도에 대한 문헌조사
    ◇ 국내 빅데이터 현황에 대한 문헌조사
    ◇ 해외 빅데이터 비식별화 현황에 대한 문헌조사
    ◇ 해외 법률, 가이드라인, 보고서에 대한 비교연구
    - 비식별화에 대한 공학적, 통계학적 분석
    ◇ 비식별화의 수준, 데이터의 종류별 비식별화 방법에 대한 분석
    ◇ 데이터를 변형하기 위한 실험적 모형 구축
    ◇ 비식별화 기법이 적용되어 생성된 데이터가 보이는 통계학적 특성 및 재식별 가능성에 대한 평가(validation; penetration test)
    - 국내외 전문가 및 실무가, 전문기업과의 인터뷰
결과보고시 연구요약문
  • 국문
  • 동의를 얻기 위해 소요되는 시간과 비용의 문제와 정보 처리 속도의 지연으로 인하여 빅데이터의 생성 및 사용이 불가능하다고 해도 과언이 아니다. 이러한 상황에서 빅데이터 전문가들은 개인정보를 비식별화하여 개인의 동의를 받지 않고 빅데이터로 사용하는 방법에 관심을 가지게 되는 것이다. 본 연구는 우선 해외의 사례를 분석하여 융합적 이해에 바탕을 둔 비식별화 조치 지침 내지는 관행이 어떠한 모습인지를 살펴보도록 한다. 해외에서는 비식별화에 대한 융합적 연구를 토대로 데이터의 구조적, 제도적 환경에 맞는 비식별화에 대한 제도가 확립된 경우가 많다. 한국의 구조적, 제도적 환경에서 활용될 여지가 있는 비식별화의 기법들에 대한 공학 연구의 현황을 살펴본다.
    EU는 2018년 5월 26일에 General Data Protection Regulation(GDPR)이란 새로운 개인정보보호의 규제 체계를 도입했다. EU는 ‘단일 디지털 시장(digital single market)’의 형성을 목표로 하고 있기 때문에 개별 EU회원국들이 폐쇄적으로 데이터 환경을 운영하는 것을 지양한다는 최소한의 원칙을 적용하고 있다. 이런 일반적인 제도적 및 구조적 환경 하에서 비식별화에 대한 두 가지 문헌을 살펴본다. 첫 번째 문헌은 GDPR에서 규정한 비식별화이다. GDPR은 비식별화의 일반적인 기준과 방법을 구체적으로 규정하고 있지는 않다. 하지만 가명화(pseudonymization)란 개념이 새롭게 도입되었다는 특징이 있다. 가명화의 개념정의와 함께 개인정보를 가명처리할 때 정보처리자가 준수해야할 관리 의무들을 규정하고 있다. 가명처리가 적절하게 적용되고 지속적인 관리가 적용될 경우에는 연구 목적의 경우에는 정보주체의 추가적인 사전동의 없이도 활용할 수 있도록 하고 있다. GDPR은 가명화란 방법을 제도적 유인의 관점에서 접근을 하면서 GDPR에서 규정한 의무나 부담을 경감할 수 있다고 설명하고 있다. 두 번째 문헌은 Article 29 Working Party가 2014년에 발표한 익명화에 대한 의견서이다. 이 의견서에 따르면 익명처리는 식별처리를 비가역적으로(irreversibly) 방지하기 위해 개인정보를 처리하는 것에서 시작된다. 이런 과정에서 개인정보 처리자는 식별처리를 위해 '합리적으로 예상되는(likely reasonably)' 모든 수단과 연관성이 있는 요소를 고려해야 한다.
    영국은 GDPR을 반영하는 법률인 Data Protection Act of 2018을 2018년에 확정했다. DPA2018이란 일반적인 데이터의 보호 법규범의 적용 이외에도 National Data Guardian과 같이 보건의료 영역 특유의 제도적 장치들도 마련되어 있다. 영국은 일부 보건의료정보들을 제외하고는 NHS digital이란 중앙기관에 보건의료정보가 집적되는 구조적 환경 하에서 NHS digital은 외부 연구자에게 데이터를 제공하는 절차를 마련하고 있다. 이런 구조적 환경 하에서 개인정보보호 규제기관인 Information Commissioner’s Office(ICO)가해 정부 차원에서 비식별화에 대한 구체적인 규범 체계를 확립하려고 노력했고, 이런 노력의 결과물로 ICO는 2012년에 ICO가이드라인을 발표했다.
    미국은 1996년에 Health Information Portability and Accountability Act(HIPAA)라는 보건의료정보의 보호와 활용에 적용되는 연방법을 제정했다. HIPAA는 전자건강기록(Electronic Health Records)에 적용이 되는데, EHR 기반의 데이터베이스에 외부의 연구자들이 접근할 수 있다. 연구와 같은 이차적 활용의 활성화를 위해 HIPAA Privacy Rule은 비식별화의 구체적인 기준과 방법을 제시한다. 한 가지는 18가지 식별자를 제거하는 세이프하버(safe harbor)이고, 다른 한 가지는 개별 사례마다 전문가가 비식별의 문제를 판단하는 전문가 판단의 방법이다. 비식별화에 관한 문헌으로 미국 National Institute of Science and Technology가 2015년에 발표한 비식별화에 대한 보고서가 있다. 이 보고서는 비식별화 맥락에서 데이터 자체에 대한 처리를 통해 프라이버시를 보호하는 모형 이외에 데이터 자체가 아니라 데이터 환경을 통제함으로써 프라이버시를 보호하려는 측면도 설명하고 있다. 재식별이 발생할 가능성을 줄일 방법에는 개인정보를 획득하고 사용하는 방식을 통제하는 방법이다. National Institute of Science and Technology는 2016년에도 정부기관이 보유한 공공데이터 영역에서의 비식별화에 대한 보고서 초안을 발표했다. 이 보고서는 데이터셋에 대한 비식별화 방법의 선택, 사용 그리고 평가 방법에 대한 가이드를 제공한다. 또한 정부기관들이 수용할 수 있는 데이터 비식별화 절차의 관리를 위한 프레임워크가 반영되어 있다.
    일본은 2015년 9월에 기존의 개인정보보호법에 대한 개정 법률을 확정했다. 이 개정 법률은 기존 법률에서 규정하지 않았던 익명가공정보(匿名加工情報)란 새로운 개념을 도입했다. 익명가공정보는 정보주체의 별도의 사전동의 없이도 수집 목적 이외의 활용이 가능한 데이터 범주로 정의되고 있다. 정보주체의 동의가 면제되는 대신 익명가공정보를 처리하는 주체는 추가적인 의무를 부담한다. 개인정보취급사업자는 익명가공정보를 작성한 때에는 당해 익명가공정보에 포함되는 개인에 관한 정보의 항목을 공표할 의무가 있다.
    이런 비식별화에 대한 제도적 설명을 배경으로 실제로 비식별조치를 적용하는 최근의 공학적 방법론을 살펴보면 데이터의 공격자가 인공지능(AI) 시스템으로부터 민감한 데이터를 추론하는 경우를 방어하는 방법들로 발전되어왔다. 이런 방어들은 모델 수준에서의 방어와 데이터 수준에서의 방어로 구분할 수 있다. 모델 수준에서의 방어가 상정하는 데이터 공격 시나리오는 회피(evasion)와 중독(poisoning)으로 구분한다. 회피 공격은 시스템 운영 중에 입력되는 내용을 미묘하게 변경함으로써 탐색을 피하는 것을 목표로 한다. 반면에 중독 공격은 연습용 데이터셋의 일부분을 통제한다. 연습용 데이터를 조작함으로써 데이터 공격자가 의도하는 결과물을 유도하는 방법이다. 각각의 공격 시나리오에 대한 대응 기법들이 제시되어 있다. 회피 공격에 대한 방어 기법들에는 점진적(gradient) 마스킹(masking)이 있다. 점진적 마스킹은 상대적(adversarial) 사례를 증강한다는 접근법을 기반으로 한다. 모델 수준에서의 방어와는 다르게 데이터 수준의 방어는 대상이 되는 데이터 자체의 프라이버시를 보호하는 것이다. 데이터 수준의 방어는 서비스 제공자에 대한 공격, 데이터 저장소에 대한 공격, 서비스 이용자에 대한 공격의 세 가지 공격 시나리오를 상정한다. 데이터 수준의 방어는 대체로 디퍼렌셜프라이버시(differential privacy)를 적용한다. 디퍼렌셜프라이버시는 다수의 쿼리(query)를 통해 데이터공격자가 데이터베이스로부터 어떤 형태의 민감한 정보를 높은 수준의 확신으로 추론할 수 없도록 하는 방법이다.
    결론적으로 영국, 미국, 일본에서는 법령 및 가이드라인의 형태로 비식별화 또는 익명화에 제도적 환경이 어느 정도 구축되어 있고, 세 가지 국가들 모두 데이터와 데이터 환경 모두를 고려하는 이론적 논의가 이루어지고 있다. 이런 논의를 종합하면 데이터와 데이터 환경의 요인을 분석해서 각각의 재식별의 위험성, 즉 프라이버시의 위험성을 구별해서 접근하려는 사실을 확인할 수 있다. 비식별화에 대한 종합적이면 분석적인 접근법을 국내의 논의에도 적용할 필요가 있다.
  • 영문
  • This study analyzes the cases of foreign countries and examines the status of the measures or practices of data de-identification. Based on the interdisciplinary approach to data de-identification, this search focuses on the institutional environment, structural environment and institutionalized environment of each county along with statistical techniques of de-identification.
    On May 26, 2018, the EU introduced a new regulatory framework for privacy protection called the General Data Protection Regulation(GDPR). GDPR does not specify the general criteria and method of non-discrimination. However, the concept of pseudonymization is newly introduced. The GDPR explains that it can reduce the obligations or burdens imposed by the GDPR since pseudonymization is regarded as one of legal incentive tools. In addition, theres is an opinion on the anonymization which is published by the EU Article 29 Working Party in 2014. According to this opinion, anonymization begins with processing personal information to prevent the identification process irreversibly. The United Kingdom has confirmed the Data Protection Act of 2018, which reflects the GDPR. In addition to the act, there are several institutional devices related with the healthcare sector, such as National Data Guardian. In 1996, the United States enacted a federal law that is applied to the protection and use of health information, which is called as the Health Information Portability and Accountability Act (HIPAA). The HIPAA Privacy Rule provides specific criteria and methods of de-identification for the purpose of secondary use such as research. One is a safe harbor that removes 18 identifiers, and the other is a method of expert determination where an expert determines whether the risk of re-identification is very small in each case. Other than this, here is a report on de-identification published by the National Institute of Science and Technology in the United States in 2015. In September 2015, Japan finalized the amendments to the existing personal data protection act. This revised law introduces a new concept of anonymously processing information that was not specified in the former law.
    A recent engineering methodology that is applied to de-identification measures has developed in order to prevent attackers from inferring sensitive data from artificial intelligence(AI) systems. These defensive mechanism can be divided into the defenses at model level and data level. Data attack scenarios under the model level defense are evasion and poisoning in general. Data-level defenses envisages three attack scenarios: attacks against service providers, attacks against data stores, and attacks against service users. Differential privacy generally applies to the data-level protections.
    Thus, in the United Kingdom, the United States and Japan, institutional environments have been established to some extent as statutes and guidelines with regards to de-identification. Theoretical discussions of de-identification based on both data and data environment are taking place in all three countries. We can recognize how each country addresses the re-identification problem by identifying and analyzing the factors of the re-identification risk based on the concepts of data and data environment This comprehensive and analytical approach to de-identification should be applied to domestic context.
연구결과보고서
  • 초록
  • 본 연구는 해외의 사례를 분석하여 융합적 이해에 바탕을 둔 비식별화 조치 지침 내지는 관행이 어떠한 모습인지를 살펴보도록 한다. 비식별화에 대한 융합적 연구를 토대로 데이터의 제도적 환경, 구조적 환경, 제도화된 비식별화로 구분해서 분석을 한다.
    EU는 2018년 5월 26일에 General Data Protection Regulation(GDPR)이란 새로운 개인정보보호의 규제 체계를 도입했다. GDPR은 비식별화의 일반적인 기준과 방법을 구체적으로 규정하고 있지는 않다. 하지만 가명화(pseudonymization)란 개념이 새롭게 도입되었다는 특징이 있다. GDPR은 가명화란 방법을 제도적 유인의 관점에서 접근을 하면서 GDPR에서 규정한 의무나 부담을 경감할 수 있다고 설명하고 있다. 이외에 Article 29 Working Party가 2014년에 발표한 익명화에 대한 의견서도 있다. 이 의견서에 따르면 익명처리는 식별처리를 비가역적으로(irreversibly) 방지하기 위해 개인정보를 처리하는 것에서 시작된다. 영국은 GDPR을 반영하는 법률인 Data Protection Act of 2018을 2018년에 확정했다. DPA2018이란 일반적인 데이터의 보호 법규범의 적용 이외에도 National Data Guardian과 같이 보건의료 영역 특유의 제도적 장치들도 마련되어 있다. 미국은 1996년에 Health Information Portability and Accountability Act(HIPAA)라는 보건의료정보의 보호와 활용에 적용되는 연방법을 제정했다. 연구와 같은 이차적 활용의 활성화를 위해 HIPAA Privacy Rule은 비식별화의 구체적인 기준과 방법을 제시한다. 한 가지는 18가지 식별자를 제거하는 세이프하버(safe harbor)이고, 다른 한 가지는 개별 사례마다 전문가가 비식별의 문제를 판단하는 전문가 판단의 방법이다. 이외에 비식별화에 관한 문헌으로 미국 National Institute of Science and Technology가 2015년에 발표한 비식별화에 대한 보고서가 있다. 일본은 2015년 9월에 기존의 개인정보보호법에 대한 개정 법률을 확정했다. 이 개정 법률은 기존 법률에서 규정하지 않았던 익명가공정보(匿名加工情報)란 새로운 개념을 도입했다.
    이런 비식별화에 대한 제도적 설명을 배경으로 실제로 비식별조치를 적용하는 최근의 공학적 방법론을 살펴보면 데이터의 공격자가 인공지능(AI) 시스템으로부터 민감한 데이터를 추론하는 경우를 방어하는 방법들로 발전되어왔다. 이런 방어들은 모델 수준에서의 방어와 데이터 수준에서의 방어로 구분할 수 있다. 모델 수준에서의 방어가 상정하는 데이터 공격 시나리오는 회피(evasion)와 중독(poisoning)으로 구분한다. 데이터 수준의 방어는 서비스 제공자에 대한 공격, 데이터 저장소에 대한 공격, 서비스 이용자에 대한 공격의 세 가지 공격 시나리오를 상정한다. 데이터 수준의 방어는 대체로 디퍼렌셜프라이버시(differential privacy)를 적용한다.
    이와 같이 영국, 미국, 일본에서는 법령 및 가이드라인의 형태로 비식별화에 제도적 환경이 어느 정도 구축되어 있고, 세 가지 국가들 모두 데이터와 데이터 환경 모두를 고려하는 이론적 논의가 이루어지고 있다. 데이터와 데이터 환경의 요인을 분석하고 각각의 재식별의 위험성을 구별해서 비식별화에 접근하는 사실을 확인할 수 있다. 비식별화에 대한 종합적이고 분석적인 접근법을 국내의 논의에도 적용할 필요가 있다.
  • 연구결과 및 활용방안
  • 1. 개인정보 비식별화에 대한 법적, 공학적, 통계학적 연구가 함께 이루어질 수 있는 융합연구의 토양마련
    2. 공학적, 통계학적 방법론을 염두에 둔 법제도적 개선안 모색
    3. 향후 법령 개정이나 가이드라인 마련 등에 관한 논의를 함에 있어 유용한 시사점 도출
  • 색인어
  • 비식별화, 익명화, 가명처리, 개인정보, 식별
  • 연구성과물 목록
데이터를 로딩중 입니다.
데이터 이용 만족도
자료이용후 의견
입력