닫기
과정 구분
과정 카테고리
태그
검색어

수강신청

AI 활용 웹데이터 수집 및 텍스트마이닝 과정이미지
Zoom 온라인라벨
2026하계

AI 활용 웹데이터 수집 및 텍스트마이닝

교육기간
2026.08.03 - 2026.08.11
교육시간
28시간
담당강사
이상엽 교수 (연세대 언론홍보영상학부)

수강료 320,000

수강료

학생할인 (증빙 후 적용)

총 결제금액

 

■ 담 당 :  이상엽 교수 (연세대학교 언론홍보영상학부)

■ 수업방식 :  Zoom 실시간 온라인 강의

■ 학습기간 :  2026년 8월 3일(월)~7일(금), 10(월)~11일(화)  9:30~13:30  [7회 과정]

■ 수강신청 :  [2차] 2026년 6월 24일(수) 오전 10시부터

 

 

1. 과정 개요

워크숍 목표

및 개요

본 강의는 인터넷에 존재하는 텍스트 데이터를 수집하고 분석하는 기본 원리와 실제 활용 방법을 이해하는 것을 목적으로 합니다.

본 강의에서 다루는 내용은 다음과 같습니다.

- 파이썬 코드를 직접 작성하여 웹 스크래핑과 텍스트마이닝을 수행하는 방법

- ChatGPT나 Codex와 같은 생성형 AI 및 AI 코딩 에이전트를 활용해 코드를 작성하고 연구자가 직접 실행하는 방법

- 코딩 없이 LLM이나 AI 코딩 에이전트를 활용해 텍스트 데이터를 분석하는 방법 (바이브 코딩 방법)

- 또한 단순히 코드를 실행하거나 분석 결과를 얻는 데 그치지 않고, 웹 데이터 수집의 원리와 텍스트 마이닝과 분석에서 사용되는 주요 방법의 작동원리 설명

참가 대상

파이썬 및 생성형 AI를 이용한 온라인 데이터 수집과 텍스트 마이닝에 관심 있는 학부, 대학원생 및 일반 연구자 모두

선수 과목

및 필요사항

1. 기초적 파이썬 코딩 (파이썬 사전 설치 필수)

- 파이썬 설치 관련해서는 강의 시작 전에 제공되는 ‘파이썬 코딩 환경 구축’ 파일 참고

2. ChatGPT 또는 Claude 유료 Plan(ChatGPT Plus / Claude Pro, $20/월) 가입 필요

- 유료 Plan 가입시, AI 코딩 에이전트(OpenAI Codex, Claude Code) 사용 가능

- ChatGPT와 Claude는 작동하는 방식이 비슷하기 때문에 둘 중 어떤 것을 사용해도 무관함 (본 강의에서는 ChatGPT와 OpenAI Codex를 기준으로 설명)

* 이외에도 본 강의에서는 OpenAI에서 제공하는 거대언어모형 API(GPT 4o, GPT 5.5 등)를 사용합니다. 이러한 API는 정액제가 아니라 종량제 방식으로 과금됩니다. 즉, 사용한 만큼 비용이 청구됩니다.

워크숍 운영방식

강의와 실습 병행

교재

및 참고문헌

강의노트 제공

실습자료

강사가 제공하는 실습용 자료 (추후 공지)

사용될 프로그램

- 파이썬

- ChatGPT & Codex (or Claude & Claude Code)

- OpenAI LLM API

담당강사 정보

<학력/경력>

- 학사: 연세대학교, 컴퓨터 과학과

- 석/박사: 미시간주립대학교, 미디어·정보

- 연세대학교 언론홍보영상학부 교수

- 그 외 직장 경력: 삼성전자, 과학기술정책연구원 등

 

<주요 논문/저서>

- 이상엽 (2023). 파이썬 텍스트 마이닝 바이블 1: 텍스트 전처리 및 머신러닝을 이용한 텍스트 분석, 위키북스

- 이상엽 (2023). 파이썬 텍스트 마이닝 바이블 2: 딥러닝을 활용한 텍스트 분석, 위키북스

- 이상엽 (2024). AI를 이용한 사회과학 연구 방법, 커뮤니케이션북스

 

<담당 과목>

- 인공지능 프로그래밍, 기계학습, 딥러닝, 생성형 AI와 거대언어모형, 바이브 코딩, 텍스트 마이닝, 기초 통계, 회귀분석 등

유의사항

모든 강의는 실시간으로만 수강 가능하며, 다시보기는 제공되지 않습니다.

 

2. 강의 계획

일시 강의 및 실습 내용

1강

8월 3일(월)

  • 강의 소개
  • 온라인 데이터 수집 원리 설명
  • 파이썬을 이용한 온라인 데이터 수집 방법
    : requests/selenium + BeautifulSoup

2강

8월 4일(화)

  • 파이썬을 이용한 온라인 데이터 수집 방법 (cont’d)
  • ChatGPT를 활용한 온라인 데이터 수집
  • OpenAI Codex를 활용한 온라인 데이터 수집
  • 텍스트 분석/마이닝 소개
  • 텍스트 전처리

3강

8월 5일(수)

  • NLTK를 사용한 영어 텍스트 전처리
  • Kiwi 형태소 분석기를 사용한 한글 텍스트 전처리
  • 빈도 분석
  • ChatGPT와 Codex를 활용한 전처리 및 빈도분석

4강

8월 6일(목)

  • 텍스트 네트워크 분석
  • ChatGPT와 Codex를 이용한 네트워크 분석
  • 기계학습과 딥러닝을 이용한 텍스트 분석 기초
  • 벡터에 대한 이해

5강

8월 7일(금)

  • 문서의 벡터화 (단어 가방, TF-IDF 방법)
  • 문서 군집화
  • 차원 축소 (PCA) 후 군집화
  • ChatGPT와 Codex를 이용한 군집화 및 차원축소

6강

8월 10일(월)

  • 지도학습 알고리즘 작동원리
  • 문서 분류 (Logistic 회귀 모형)
  • Transformer 작동원리
  • BERT를 활용한 문서 분류
  • ChatGPT와 Codex를 이용한 문서분류 (감성분석)

7강

8월 11일(화)

  • 토픽 모델링 (LDA, BERTopic)
  • ChatGPT와 Codex를 이용한 토픽 모델링
  • 단어 임베딩 (Word2Vec)

 

수강료 할인 안내

■ 수강료
- 일반: 320,000원
- 학생: 272,000원 [약 15% 할인]
- 서울대 대학원생: 231,000원 [약 15% 추가할인]
※ 서울대 대학원생 추가할인은 서울대학교 "BK21 대학원 혁신사업"의 예산지원에 따른 것으로, 1인 1개 강좌만 적용가능합니다.

■ 할인 적용 방법 [학생 증빙 완료후 환급]
Step1. 일반 수강료를 납부하여 수강신청을 완료한다.
Step2. 학생 증빙서류(재학·재적·휴학·연구생 증명서)를 이메일로 제출한다. [kossda@snu.ac.kr]
Step3. 수강료 할인에 따른 차액을 환급받는다.