> 도서안내 > 새로 나온 책
R 기반 데이터 과학: 타이디버스(tidyverse) 접근 (개정판)
정상가 33,000원
판매가격 29,700원
출판사 한나래출판사
저자 백영민
발행일 2023년 11월 30일
사이즈 B5
쪽수 494쪽
ISBN 9788955663082 93310
수 량
  
스크랩
 
지은이 소개
백영민
연세대학교 신문방송학과를 졸업하고 서울대학교 언론정보학과에서 석사학위를 받았다. 2011년 미국 펜실베이니아 대학교 아넨버그 스쿨에서 박사학위를 받았다. 한국과학기술원(KAIST) 조교수를 지내고 현재 연세대학교 언론홍보영상학부 부교수로 재직 중이다. Journal of Communication, Communication Research, New Media & Society, Journal of Broadcasting & Electronic Media, Health Communication, PLOS ONE, American Politics Research, Political Studies, International Journal of Public Opinion Research, Nonprofit Management & Leadership, Journal of Social and Personal Relationships, Journal of Language and Social Psychology 등 언론학을 포함 다양한 학문분과 학술지에 현재까지 90편의 학술논문(2023년 6월 기준)을 출간하였다. 저술한 책으로 《R 기반 성향점수분석: 루빈 인과모형 기반 인과추론》, 《R을 이용한 결측데이터 분석: 최대우도 및 다중투입기법을 중심으로》, 《R기반 복합설문 데이터 분석》, 《R를 이용한 텍스트 마이닝》, 《R 기반 제한적 종속변수대상 회귀모형》, 《R를 이용한 사회과학데이터 분석: 구조방정식 모형 분석》, 《방법론적 사유: 입말로 풀어쓴 사회과학 연구방법론》, 《R 기반 네트워크 분석》 등이 있으며, 번역한 책으로는 《국민의 선택: 대통령 선거캠페인 기간에 유권자는 지지후보를 어떻게 결정하는가?》, 《포퓰리즘》, 《퍼스널 인플루언스》, 《소셜미디어와 공익: 가짜뉴스 시대의 미디어 정책》 등이 있다.
책 소개

최신 버전의 타이디버스 패키지를 적용한 개정판!

 

타이디버스 접근법은 2010년대부터 R 이용자들 사이에서 점차 각광받으며 이제 완전히 주류로 자리매김하였다. 《R 기반 데이터 과학 tidyverse 접근》의 초판 발행 당시 버전 1.2.1이던 타이디버스 패키지도 2023년 8월 기준 버전 2.0.0으로 여러 차례 업데이트되었다. 새롭게 출간된 《R 기반 데이터 과학 tidyverse 접근 개정판》은 최신 타이디버스 패키지의 코드 작성 방식을 반영하고, R 초심자들도 쉽게 활용할 수 있도록 한층 더 사용자 친화적으로 재편하였다. 개정판의 주요 변경사항은 다음과 같다.


• 첫째, ‘긴 형태 데이터(long format data)’와 ‘넓은 형태 데이터(wide format data)’ 변환을 위해 소개했던 gather() 함수와 spread() 함수 대신, pivot_longer() 함수와 pivot_wider() 함수를 소개한다. 데이터 형태 변환의 원리와 변환 방식은 변함없지만, 이용자 입장에서 pivot_longer() 함수와 pivot_wider() 함수를 훨씬 더 이해하기 쉽게 구성하였다.

• 둘째, 이용자가 지정한 조건에 맞는 여러 변수들을 일괄 처리하는 방법이 크게 달라졌다. 1판에서 사용했던 mutate() 함수와 summarize() 함수는 여전히 사용 가능하지만 출력결과에서 경고문구가 나타나는 문제가 있었다. 개정판에서는 1판 출간 후 개발된 across() 함수를 활용하는 방법들을 소개한다.   

• 셋째, 범주형 변수로 집단구분된 하위데이터(subset)를 대상으로 지정된 모형을 추정할 때 purrr 패키지의 map() 함수 대신 dplyr 패키지의 group_modify() 함수를 교체하여 소개한다. 1판의 split() 함수를 활용하여 데이터를 집단별로 구분한 후 map() 함수와 map_dfr() 함수를 연이어 사용하는 방식은 R을 처음 접하는 독자에게는 다소 복잡할 수 있다. dplyr 패키지의 group_modify() 함수는 R 초심자들도 비교적 쉽게 이해할 수 있으며, 무엇보다 1판에서 소개한 broom 패키지의 tidy() 함수와 같이 활용할 경우 집단구분된 하위데이터들을 대상으로 일괄적으로 모형을 처리하는 데 매우 효과적이다.


데이터 관리·분석의 새로운 세계를 보여주는 타이디버스 안내서!

 

타이디버스(tidyverse)란, ‘타이디데이터(tidy data) 형태를 데이터 분석 및 시각화의 표준으로 하는, 데이터 접근법들로 구성된 세계’라고 볼 수 있다. 타이디데이터는 3가지 규칙을 지닌다. ‘① 하나의 변수는 하나의 세로줄을 형성한다. ② 하나의 사례는 하나의 가로줄을 형성한다. ③ 하나의 변수의 종류별로 하나의 표를 형성한다’가 그것이다. 사실 이 3가지 규칙은 그리 놀라운 것은 아니다. 일반적으로 우리가 접하는 데이터는 대개 이 규칙들을 따르기 때문이다. 그러나 문제는 데이터 과학에서 다루는 적지 않은 데이터들이 이 규칙을 전면적으로 혹은 부분적으로 따르지 않은 채 ‘정리되지 않은 데이터(uncleaned data)’ 혹은 ‘지저분한 데이터(messy data)’로 남아 있으며, 그로 인해 실질적인 데이터 분석이 이루어지지 못한다는 점이다.

이 책은 연구자들로 하여금 정리되지 않은 방대한 양의 데이터를 위의 3가지 규칙에 따라 기술통계분석, 모형추정, 분석결과의 시각화를 할 수 있는 형태로 정리하여 타이디데이터 형태로 정리하는 방법을 안내해준다. 아울러 타이디버스 라이브러리의 여러 함수들과 그 활용방법을 소개함으로써 독자들이 효율적·효과적으로 데이터를 관리·분석하고 실질적인 분석결과를 도출할 수 있도록 이끌어준다 !


R 기반 데이터 과학의 진보, 타이디버스 접근법!

 

오늘날 R 이용환경은 급속하게 변화하고 있다. 그러나 환경이 변했다고 해서 R을 이용하는 것이 더 어려워진 것은 아니다. R 환경은 더 많은 양의 데이터, 더 다양한 형태의 데이터를 보다 쉽게 다루고 분석할 수 있도록 변해가고 있으며, 이 발전적 변화를 주도하고 있는 패키지가 바로 ‘타이디버스(tidyverse)’이다.

‘타이디버스 접근법’을 쓰기 위해 기존의 R 프로그래밍 습관을 버릴 필요는 없다. 상황에 따라서는 타이디버스 접근법을 따르는 것보다 R 베이스에 기반해 데이터를 분석하는 것이 더 효율적이기도 하다. 그러나 데이터가 크고 복잡하며, 정리되지 않은 지저분한 형태로 존재할 때 타이디버스 접근법은 매우 위력적이다!

차례

PART 1 들어가며
CHAPTER 01 R과 R Studio 설치 안내 

CHAPTER 02 타이디버스 패키지와 타이디데이터(tidy data) 

CHAPTER 03 본서에서 사용된 R 패키지 

CHAPTER 04 기본적인 R 사용법과 R 베이스 함수들 

 

PART 2 타이디버스 패키지 함수들을 활용한 데이터 관리
CHAPTER 01 데이터 관리 

CHAPTER 02 변수 관리 

CHAPTER 03 데이터 형태 변환 

CHAPTER 04 데이터 합치기


PART 3 기술통계분석 및 분석결과 시각화
CHAPTER 01 count() 함수를 이용한 빈도분석 및 분석결과의 시각화 

CHAPTER 02 summarize() 함수를 이용한 기술통계분석 및 분석결과의 시각화


PART 4 일반선형모형(GLM) 추정 
CHAPTER 01 종속변수와 독립변수, 두 변수의 관계를 다루는 통계기법 

CHAPTER 02 분산분석(ANOVA)과 공분산분석(ANCOVA)

CHAPTER 03 회귀분석: 종속변수가 정규분포를 갖는 경우 

CHAPTER 04 회귀분석: 종속변수가 비정규분포를 갖는 경우

 

PART 5 개념측정의 신뢰도와 타당도, 그리고 데이터의 축약
CHAPTER 01 측정의 신뢰도와 타당도 

CHAPTER 02 군집분석(비지도 기계학습) 


PART 6 마무리
CHAPTER 01 비정형 텍스트 데이터 소개 

CHAPTER 02 기타 사항들