1. RNN개념: 시간 순서가 있는 데이터를 처리하는데 유리하다.특징:- 이전의 정보를 순환하면서 계속 유지하면서 쌓아가는게 특징- Hidden State: 현재까지 정보를 축적해서 다음 셀로 넘기는 역할- Weight Sharing: 모든 단어를 처리할 때 같은 가중치를 사용해서 계산- 과거의 정보를 현재에 반영해 학습하도록 설계구조: RNN 일반적인 신경망과 달리 출력을 다시 입력으로 넣는 구조장점: 순차 데이터에 강함, 과거 정보를 기억하면서 처리가능한계: 긴 문장에서는 기억력이 약함, 단기기억 문제해결책: LSTM, GRU같은 개선된 RNN 모델 2. RNN 모델링 절차- 데이터 분할 1: x, y- 스케일링: - 3차원 데이터셋 만들기: timesteps 단위로 잘라서 sliding window..

- 벡터: 여러 개의 숫자가 모여서 하나의 개념을 표현하는 단위- 임베딩: 텍스트는 컴퓨터가 이해 x => 토큰을 수치화된 벡터로 변환하는 과정 1. 빈도 기반 벡터화 1) 공동작업 - 토큰화Kiwi()kiwi.tokenize(text) kiwi = Kiwi()# Kiwi 토큰화(명사, 동사, 형용사만 추출)def tokenize_kiwi(text): tokens = kiwi.tokenize(text) return [token.form for token in tokens if token.tag.startswith(('N', 'V', 'A', 'X'))] # 명사(N), 동사(V), 형용사(A)만 추출# 문장별 토큰화해서 리스트로 저장tokenized_docs = [" ".join(tokeni..

1. 토큰화 토큰: 문장의 가장 작은 단위 토큰화:문장을 토큰 시퀀스로 나누는 과정 2. 형태소 분석(한글) 토큰화보다 더 깊은 분석단어를 구성하는 형태소를 식별하고 분류 형태소 분석기(한글): KoNLPy, Kiwi - 입력문장text_ko1 = "아버지가방에들어가신다."text_ko2 = "나는 ChatGPT를 사용한다." 1) KoNLPy 사용 - 형태소 분석기 선언from konlpy.tag import Oktfrom konlpy.tag import Okt# 형태소 분석기 불러오기okt = Okt() - 토큰화 okt.morphs(text_ko1): 형태소 단위 토큰화okt.pos(text_ko1): 품사 태깅 포함 # 형태소 분석 (품사 태깅 포함)morphs = okt.morphs(text_..