'Data science/자연어처리' 카테고리의 글 목록

[자연어처리] 3. RNN 개념 이해

1. RNN개념: 시간 순서가 있는 데이터를 처리하는데 유리하다.특징:- 이전의 정보를 순환하면서 계속 유지하면서 쌓아가는게 특징- Hidden State: 현재까지 정보를 축적해서 다음 셀로 넘기는 역할- Weight Sharing: 모든 단어를 처리할 때 같은 가중치를 사용해서 계산- 과거의 정보를 현재에 반영해 학습하도록 설계구조: RNN 일반적인 신경망과 달리 출력을 다시 입력으로 넣는 구조장점: 순차 데이터에 강함, 과거 정보를 기억하면서 처리가능한계: 긴 문장에서는 기억력이 약함, 단기기억 문제해결책: LSTM, GRU같은 개선된 RNN 모델 2. RNN 모델링 절차- 데이터 분할 1: x, y- 스케일링: - 3차원 데이터셋 만들기: timesteps 단위로 잘라서 sliding window..

Data science/자연어처리 2025. 4. 12. 20:24

[자연어처리] 2. 임베딩

- 벡터: 여러 개의 숫자가 모여서 하나의 개념을 표현하는 단위- 임베딩: 텍스트는 컴퓨터가 이해 x => 토큰을 수치화된 벡터로 변환하는 과정 1. 빈도 기반 벡터화 1) 공동작업 - 토큰화Kiwi()kiwi.tokenize(text) kiwi = Kiwi()# Kiwi 토큰화(명사, 동사, 형용사만 추출)def tokenize_kiwi(text): tokens = kiwi.tokenize(text) return [token.form for token in tokens if token.tag.startswith(('N', 'V', 'A', 'X'))] # 명사(N), 동사(V), 형용사(A)만 추출# 문장별 토큰화해서 리스트로 저장tokenized_docs = [" ".join(tokeni..

Data science/자연어처리 2025. 4. 12. 20:07

[자연어 처리] 1. 토큰화

1. 토큰화 토큰: 문장의 가장 작은 단위 토큰화:문장을 토큰 시퀀스로 나누는 과정 2. 형태소 분석(한글) 토큰화보다 더 깊은 분석단어를 구성하는 형태소를 식별하고 분류 형태소 분석기(한글): KoNLPy, Kiwi - 입력문장text_ko1 = "아버지가방에들어가신다."text_ko2 = "나는 ChatGPT를 사용한다." 1) KoNLPy 사용 - 형태소 분석기 선언from konlpy.tag import Oktfrom konlpy.tag import Okt# 형태소 분석기 불러오기okt = Okt() - 토큰화 okt.morphs(text_ko1): 형태소 단위 토큰화okt.pos(text_ko1): 품사 태깅 포함 # 형태소 분석 (품사 태깅 포함)morphs = okt.morphs(text_..

Data science/자연어처리 2025. 4. 12. 19:10

이전 1 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

글 보관함

👋 안녕하세요, AI 개발자 이정훈입니다

📌 기술 스택

🎓 자격증

🚀 주요 프로젝트

🌍 대외 활동

정훈이의 공부일지

👨‍💻 이정훈 개발자

티스토리툴바