
■ 담 당 : 김서영 교수 (서울대 정치외교학부)
■ 일 시 : 2026년 4월 4일, 11일, 18일, 25일 [매주 토요일, 9:00~14:00]
■ 수업방식 : Zoom 실시간 온라인 강의
■ 수강신청 : 2026년 3월 24일(화) 오전 10시부터

1. 과정 개요
|
워크숍 목표 및 개요 |
본 워크숍은 계산사회과학의 핵심 방법론들을 4주 집중 과정으로 다루며, 매주 이론 3시간 + 실습 2시간으로 구성된다. 머신러닝, 텍스트 데이터 분석, 웹스크래핑, 기록 연계(record linkage) 및 데이터 통합, Git 기반 재현가능한 연구(reproducible research) 등을 사회과학적 해석 프레임과 함께 학습한다. 실습은 R로 진행한다. |
|
참가 대상 |
계산사회과학에 관심 있는 학부생, 대학원생 및 일반 연구자 |
|
선수 과목 |
통계 및 프로그래밍 기초(R) 경험 권장 |
|
워크숍 운영방식 |
이론 강의와 실습을 매주 병행 |
|
교재 및 참고문헌 |
강사의 강의노트가 제공됩니다.
<참고문헌> - Salganik, Matthew J. 2019. Bit by Bit: Social Research in the Digital Age. Princeton University Press. https://www.bitbybitbook.com - Hastie, Trevor, Robert Tibshirani, and Jerome Friedman. 2009. The Elements of Statistical Learning. Springer New York. - James, Gareth, Daniela Witten, Trevor Hastie, and Robert Tibshirani. 2023. An Introduction to Statistical Learning: With Applications in R. 2nd ed. Springer. - Wickham, Hadley, Mine Çetinkaya‑Rundel, and Garrett Grolemund. 2023. R for Data Science. 2nd ed. O’Reilly Media. - Bryan, Jenny. 2024. Let’s Git Started | Happy Git and GitHub for the useR. https://happygitwithr.com |
|
실습자료 |
강사가 제공하는 실습용 자료 (추후 공지) |
|
사용될 프로그램 |
R |
|
담당강사 정보 |
<학력/경력> 학력 - 박사: 캘리포니아 공과대학 사회과학 박사 (2020년)California Institute of Technology, Ph.D. in Social Sciences - 석사: 캘리포니아 공과대학 사회과학 석사 (2017년) - 학부: 서울대학교 사회과학대학 경제학과, 사회학과 (2014년)
경력 - 2024년~현재 서울대학교 정치외교학부 조교수 - 2023년~2024년 서강대학교 정치외교학과 조교수 - 2020년~2023년 아메리칸대학교 정치학과 조교수
<주요 논문/저서> - Atsusaka, Yuki, and Seo-young Silvia Kim. 2025. “Addressing Measurement Errors in Ranking Questions for the Social Sciences.” Political Analysis. 1-22. DOI: https://doi.org/10.1017/pan.2024.33 - Kim, Seo-young Silvia, and Zhao Li. 2025. “Keep Winning with WinRed? Digital Fundraising Platform as the Party’s Public Good.” The Journal of Politics. DOI: https://doi.org/10.1086/735435 - KAtsusaka, Yuki, and Seo-young Silvia Kim. 2025. “Addressing Measurement Errors in Ranking Questions for the Social Sciences.” Political Analysis. 1-22. DOI: 10.1017/pan.2024.33 - Kim, Seo-young Silvia, and Zhao Li. 2025. “Keep Winning with WinRed? Digital Fundraising Platform as the Party’s Public Good.” The Journal of Politics. DOI: 10.1086/735435 - Kim, Seo-young Silvia, and Jan Zilinsky. 2024. “Division Does Not Imply Predictability: Demographics Continue to Reveal Little About Voting and Partisanship.” Political Behavior. 46(1):67-87. DOI: 10.1007/s11109-022-09816-z - Kim, Seo-young Silvia. 2023. “Automatic Voter Reregistration as a Housewarming Gift: Quantifying Causal Effects on Turnout Using Movers.” American Political Science Review. 117(3): 1137-44. DOI: 10.1017/S0003055422000983. |
|
유의사항 |
- 모든 강의는 실시간으로만 수강 가능하며, 다시보기는 제공되지 않습니다. - 수업 시간 중 약 30분의 점심시간이 포함됩니다. |
2. 강의 계획
|
일시 |
강의 및 실습 내용 |
비고 |
|
| 1강 |
4월 4일 (토) |
▪계산사회과학의 개론 - 재현가능성의 위기와 오픈 사이언스 - Git 기초: 버전 관리, commit, branch, merge, reset - GitHub를 활용한 협업: pull request, issue 관리
▪재현가능한 연구와 Git - 재현가능성의 위기와 오픈 사이언스 - Git 기초: 버전 관리, commit, branch, merge, reset - GitHub를 활용한 협업: pull request, issue 관리 |
실습 - R과 RStudio 소개 및 R의 기초 - Git 설치 및 init, 첫 번째 커밋, GitHub 연동 |
| 2강 |
4월 11일 (토) |
▪지도 학습 - 정규화 회귀: LASSO, Ridge, Elastic Net - 트리 기반 모델: CART와 랜덤 포레스트 - 모델 평가: 교차검증, 과적합, ROC/AUC, RMSE
▪비지도 학습 - 군집 분석: k-means - 차원 축소: 주성분 분석(PCA)
▪사회과학 적용 사례 및 해석상의 주의점 |
실습 - CART 모델 및 PCA 실습 - tidymodels 패키지 사용 |
| 3강 |
4월 18일 (토) |
▪텍스트 데이터 수집정제·분석 - 텍스트 전처리: 토큰화, 불용어 처리, 어간/표제어 추출 - 문서-단어 행렬(DTM/DFM) 구성 - 사전 기반 분석: 감성 분석, LIWC, 맞춤형 사전 구성 - 빈도 분석, 키워드 분석, 구조적 토픽모델(stm)
▪사회과학 적용 사례 및 해석상의 주의점 |
실습 - 텍스트 전처리 및 토픽 모델링 실습 - tidytext 패키지 사용 |
| 4강 |
4월 25일 (토) |
▪웹스크래핑 (Web Scraping) - 웹의 구조: HTML, CSS, XPath 기초 - 정적 및 동적 페이지 수집 개요 - API를 통한 데이터 수집: REST API, JSON 처리 - 수집 윤리와 법적 고려사항 - Digital trace data의 한계
▪기록 연결 (Record Linkage) - 결정론적·확률론적 기록 연결의 원리 - 퍼지 매칭과 블록킹 전략 - 행정 데이터와 서베이 데이터의 연계 - 개인정보 보호와 연결 오류 처리 |
실습 - 웹스크래핑 실습: 공공 데이터 포털 또는 뉴스 기사 수집 - 기록 연결 실습 - fastLink 패키지 사용 |