코딩/자연어 처리12 cbow text classification import urllib.requestimport pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport torchimport torch.nn as nnimport torch.optim as optimfrom copy import deepcopyfrom torch.utils.data import Dataset, DataLoaderfrom tqdm.auto import tqdmurllib.request.urlretrieve('https://raw.githubusercontent.com/e9t/nsmc/master/ratings_train.txt', filename='ratings_train.txt' )urllib.request.urlretr.. 2024. 7. 18. 워드 임베딩 1. 워드 임베딩(Word Embedding)¶단어를 컴퓨터가 이해하고 효율적으로 처리할 수 있도록 단어를 벡터화하는 기술단어를 밀집 벡터의 형태로 표현하는 방법워드 임베딩 과정을 통해 나온 결과를 임베딩 벡터라고 부름워드 임베딩을 거쳐 잘 표현된 단어 벡터들은 계산이 가능하며, 모델에 입력으로 사용할 수 있음 1-1. 희소 표현(Sparse Representation)¶원 핫 인코딩을 통해서 나온 벡터들은 표현하고자 하는 단어의 인덱스의 값만 1이고, 나머지 인덱스에는 전부 0으로 표현되는 벡터 표현 방법에 의해 만들어지는 벡터를 희소 벡터라고함 1-2. 희소 벡터의 문제점¶희소 벡터의 특징은 단어의 개수가 늘어나면 벡터의 차원이 한없이 커진다는 것원 핫 벡터는 벡터 표현 방식이 단순하여 단어의 출현 .. 2024. 7. 18. LSTM과 GRU import torchimport torch.nn as nnimport torch.optim as optimimport numpy as npfrom sklearn.preprocessing import LabelEncoderfrom sklearn.feature_extraction.text import CountVectorizerfrom torch.utils.data import DataLoader, Datasetfrom sklearn.datasets import fetch_20newsgroupsfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import accuracy_scorenewsgroups_data = fetch_20.. 2024. 7. 18. 임베딩 1. 자연어의 특성¶자연어를 기계가 처리하도록 하기 위해서는 먼저 자연어를 기계가 이해할 수 있는 언어로 바꾸는 방법을 알아야 함토큰화 작업의 결과인 단어 사전을 기계가 이해할 수 있는 언어로 표현하는 과정이고, 단어 사전 내 단어 하나를 어떻게 표현할까의 문제로 볼 수 있음1-1. 단어의 유사성과 모호성¶단어의 의미는 유사성과 모호성을 가지고 있는데 단어는 겉으로 보이는 형태인 표제어안에 여러가지 의미를 담고 있음사람은 주변 정보에 따라 숨겨진 의미를 파악하고 이해할 수 있으나, 기계는 학습의 부재 또는 잘못된 데이터로 의미를 파악하지 못하는 경우가 많음한 가지 형태의 단어에 여러 의미가 포함되어 생기는 중의성 문제는 자연어 처리에서 매우 줌요동형어: 형태는 같으나 뜻이 서로 다른 단어(예: 배)다의어.. 2024. 7. 18. 이전 1 2 3 다음