> 도서안내 > 분야별 도서
R을 이용한 결측데이터 분석: 최대우도 및 다중투입 기법을 중심으로
정상가 28,000원
판매가격 25,200원
출판사 한나래출판사
저자 백영민, 박인서
발행일 2021년 8월 23일
사이즈 B5
쪽수 408쪽
ISBN 9788955662559 93310
수 량
  
스크랩
 
지은이 소개

백영민

연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨에서 박사학위를 받았다. 한국과학기술원(KAIST) 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다.
Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting & Electronic Media, Health Communication, PLOS ONE, American Politics Research, Political Studies, International Journal of Public Opinion Research, Nonprofit Management & Leadership, Journal of Social and Personal Relationships, Journal of Language and Social Psychology 등 언론학을 비롯해 다양한 학문분과 학술지에 현재까지 77편의 학술논문(2021년 9월 기준)을 출간하였다. 저술한 책으로는 《R을 이용한 다층모형》, 《R 기반 데이터 과학: 타이디버스 접근》, 《R 기반 성향점수분석: 루빈 인과모형기반 인과추론》, 《R를 이용한 텍스트마이닝》, 《R 기반 제한적 종속변수대상 회귀모형》, 《R를 이용한 사회과학데이터 분석: 구조방정식 모형 분석》, 《방법론적 사유: 입말로 풀어쓴 사회과학 연구방법론》 등이 있으며, 번역한 책으로는 《퍼스널 인플루언스》, 《국민의 선택: 대통령 선거캠페인 기간에 유권자는 지지후보를 어떻게 결정하는가?》, 《포퓰리즘》 등이 있다.


박인서

연세대학교 언론홍보영상학과, 응용통계학과를 졸업하고 동 대학원 통계데이터사이언스학과(응용통계학과) 석사과정에 재학 중이다. 공동저술한 책으로 《R 기반 성향점수분석: 루빈 인과모형기반 인과추론》이 있다.

책 소개

분석결과의 대표성과 타당성 확보를 위한 필수과정, 결측데이터 분석

 

사회과학 데이터를 분석하다 보면 어떤 방식으로든 결측데이터(missing data), 즉 측정되지 않은 데이터를 마주하게 된다. 특히 사람들의 태도나 의견, 지식이나 과거 행동 등을 측정할 때 ‘모름’, ‘응답거부’ 등과 같은 결측값들이 자주 등장하게 된다. 사회과학 영역이 아니더라도 환자의 진료기록이나 검진기록 등을 다루는 의료데이터에서도 결측데이터는 매우 빈번하게 등장한다.
문제는 데이터 분석에서 결측값이 발생하면 통계적 검증력이 감소한다는 것이다. 결측값이 무작위 발생 메커니즘에서 멀어질수록 통계적 검증력은 대폭 감소하게 된다. 결측데이터가 무시하기 어려운 규모로 발생할 때, 통상적인 결측데이터 제거 방법인 리스트단위 결측제거(listwise deletion)로는 분석결과의 대표성(representativeness)을 확보하기 어려운 것은 물론 타당성(validity)과 정확성(precision)도 확보할 수 없다.

 

이 책에서는 결측데이터에 대처하는 데이터 분석기법으로 학계에서 가장 널리 사용되는 ‘최대우도(ML, maximum likelihood)’ 결측데이터 분석기법과 ‘다중투입(MI, multiple imputation)’ 기법을 소개하고, R을 통해 두 기법을 실습하는 과정을 제시한다. 결측데이터와 관련된 기본적 개념(이를테면 MCAR, MAR, MNAR 등)을 가급적 쉬운 말로 소개하고, ML 기법과 MI 기법이 어떤 논리로 결측데이터 현상에 대처하는지 설명한 후 R을 통해 각 기법을 실습하였다. 실습과정은 시뮬레이션 데이터와 현실데이터를 사례로 단계별로 제시하였고, ML 기법과 MI 기법이 왜 통상적인 결측데이터 대처방법들에 비해 우수하며 두 기법의 장단점은 무엇인지 쉽게 설명하는 데 집중하였다.

 

이 책은 R을 소개하는 입문서가 아니라 R을 활용하여 어떻게 결측데이터 분석을 진행하는지를 설명하는 책이다. 따라서 독자들은 R에 대한 기초지식과 함께 (결측데이터의 발생 메커니즘에 대한 가정을 이해하기 위해) 성향점수분석에 대한 어느 정도의 사전지식을 지니고 있어야 한다. 아울러 R tidyverse 패키지의 내장함수들에 대한 기초적 지식도 필요하다.

 

결측데이터 분석기법이 아무리 발전한다고 하더라도, 가급적 실측된 데이터를 확보하는 것이 가장 좋다. 연구자는 연구를 계획하는 단계부터 데이터를 수집하는 단계까지 결측데이터가 발생하지 않도록 최선을 다해야 한다. 하지만 그럼에도 불구하고 결측데이터 발생을 완전히 막는 것은 불가능하다. 이 책에서 집중적으로 다룬 2가지 기법, 최대우도(ML) 기법과 다중투입(MI) 기법은 결측데이터 분석기법들 중 현재까지 가장 널리 사용되는 것이며, 가장 신뢰할 수 있는 기법이다. 모쪼록 다양한 학문분과의 연구자들이 이 책을 통해 결측데이터 분석기법을 타당하게 적용할 수 있는 방법들을 익히고, 각자의 분야에서 더욱더 신뢰할 수 있는 연구결과를 이끌어낼 수 있기를 기대한다!

차례

1부 결측데이터 분석 개요

 

1장 결측데이터의 의미와 발생원인
1 결측데이터의 잠재적 문제
2 현실데이터에서의 결측데이터

 

2장 결측데이터 발생 메커니즘 가정
1 데이터 구분: 완전데이터, 실측데이터, 결측데이터
2 완전무작위 결측발생(MCAR)
3 확률적 결측발생(MAR)
4 비확률적 결측발생(MNAR)
5 결측데이터 발생 메커니즘 정리 

 

3장 예시데이터 및 실습용 R 패키지 소개
1 예시데이터 I: 시뮬레이션 데이터
2 예시데이터 II : 현실데이터
3 실습을 위해 필요한 R 패키지 소개
4 결측데이터 점검

 

4장 기존 결측데이터 분석기법과 문제점
1 리스트단위 결측제거
2 쌍별 결측제거
3 평균대체
4 회귀투입
5 확률적 회귀투입
6 결측데이터 분석기법들로 얻은 분석결과 비교

 

 

2부 최대우도 결측데이터 분석기법

 

5장 ML 기법 개요
1 최대우도 추정
2 ML 기법을 이용한 기술통계분석
3 ML 기법을 이용한 상관관계분석
4 ML 기법을 이용한 회귀모형추정
5 현실데이터 대상 ML 기법 적용 예시

 

6장 ML 기법 기반 경로모형, 확증적 인자분석, 구조방정식 모형
1 경로모형: 잠재변수 미포함
2 확증적 인자분석: 잠재변수 포함
3 구조방정식 모형: 잠재변수 포함

 

7장 보조변수를 포함한 ML 기법
1 보조변수의 의미와 역할
2 보조변수 포함 분석방법: 포화상관모형
3 잠재변수 포함 시 포화상관모형 추정

 

8장 다차항 및 상호작용효과항이 투입된 ML 기법
1 다차항 추정 실습
2 상호작용효과항 추정 실습

 

9장 범주형 변수와 ML 기법
1 이분변수와 순위 범주형 변수
2 무순위 범주형 변수

 

10장 ML 기법 정리

 

 

3부 다중투입 결측데이터 분석기법

 

11장 MI 기법 개요
1 확률적 회귀투입 재검토
2 연쇄방정식 기반 다중투입(MICE) 알고리즘
3 MI 기법 과정: 대체투입(imputing), 분석(analyzing), 통합(pooling)
4 MI 기법을 이용한 기술통계분석
5 MI 기법을 이용한 상관관계분석
6 MI 기법을 이용한 회귀모형 추정
7 결측데이터 발생 상황별 MI 기법 분석결과 비교
8 현실데이터 대상 MI 기법 분석실습

 

12장 보조변수를 포함한 MI 기법
1 보조변수 포함 분석 실습

 

13장 다차항 및 상호작용효과항이 투입된 MI 기법
1 ‘투입후 변환’ 대 ‘변환후 투입’
2 다차항 추정 실습
3 상호작용효과항 추정 실습

 

14장 범주형 종속변수와 MI 기법
1 이분변수: 이항 로지스틱 회귀모형
2 순위 범주형 변수: 순위 로지스틱 회귀모형
3 무순위 범주형 변수: 다항 로지스틱 회귀모형

 

15장 MI 기법과 잠재변수 포함 모형추정
1 순위 범주형 변수를 설명하는 잠재변수 포함 확증적 인자분석
2 순위 범주형 변수를 설명하는 잠재변수 포함 구조방정식 모형

 

16장 MI 기법 정리

 

 

4부 마무리

 

17장 MNAR 상황의 결측데이터 분석기법
1 사후 민감도 분석
2 MNAR 가정 기반 결측데이터 분석기법들: 선택모형과 패턴혼합모형
3 MAR 가정 기반 결측데이터 분석기법 보강

 

18장 다층 데이터와 결측데이터 분석기법

 

19장 결측데이터 분석 시 고려사항
1 데이터 및 변수 정의
2 결측데이터 발생 메커니즘 가정
3 보조변수 확정
4 결측데이터 점검
5 투입모형 및 분석모형 추정
6 분석모형 추정결과 서술