코딩/자연어 처리12 워드 임베딩 시각화 1. 네이버 영화 리뷰 데이터셋¶총 200,00개의 리뷰로 구성된 데이터로 영화 리뷰를 긍/부정으로 분류하기 위해 만들어진 데이터셋리뷰가 긍정인 경우1, 부정인 경우0으로 표시한 레이블로 구성되어 있음 !sudo apt-get install -y fonts-nanum!sudo fc-cache -fv!rm ~/.cache/matplotlib -rf Reading package lists... DoneBuilding dependency tree... DoneReading state information... Donefonts-nanum is already the newest version (20200506-1).0 upgraded, 0 newly installed, 0 to remove and 45 not .. 2024. 7. 18. 자연어 처리를 위한 모델 학습 1. 사전 학습(Pre-training)¶원하는 자연어처리 작업을 수행하는 데이터셋으로 모델을 학습시키기 이전에 일반적인 데이터에 먼저 학습을 시키는 것사전학습은 대량의 자연어 코퍼스를 미리 학습하여, 자연어 코퍼스 안에 포함된 일반화된 언어 특성들을 모델의 파라미터 안에 함축하는 방법사전학습한 모델의 parameter를 이용해서 모델을 초기화한 뒤(pre-training) 사전학습된 모델을 실제 풀려고 하는 문제의 데이터에 fine-tuning하면 임의로 초기화된 parameter를 가진 모델을 처음부터 학습시키는 것 보다 더 높은 성능을 가짐예) 컴퓨터 비전에서 엄청난 크기의 이미지 데이터인 ImageNet에 pre-train된 모델의 parameter 를 가져와서 fine-training 하는 방법.. 2024. 7. 18. PLM 실습 1. NLI(Natual Language Inference)실습¶두 개의 문장(전제와 가설) 사이의 논리적 관계를 결정하는 자연어 처리 문제!pip install transformersRequirement already satisfied: transformers in /usr/local/lib/python3.10/dist-packages (4.41.2)Requirement already satisfied: filelock in /usr/local/lib/python3.10/dist-packages (from transformers) (3.15.4)Requirement already satisfied: huggingface-hub=0.23.0 in /usr/local/lib/python3.10/dist-p.. 2024. 7. 18. RNN 기초 1. 순환 신경망(Recurrent Neural Network, RNN)¶시계열 또는 자연어와 같은 Sequence 데이터를 모델링하는 데 강력한 신경망. 시계열 데이터나 시퀀스 데이터를 잘 처리예) 주식 가격, 텍스트 데이터, 오디오 데이터Sequence: 단어의 문장. 연결되어 있는 정보1-1. RNN 동작방식¶은닉층의 노드에서 활성화 함수를 통해 나온 결과값을 다시 출력층 방향으로 보내면서 은닉층 노드의 다음 계산의 입력으로 보내는 것이 특징셀(Cell): 은닉층에서 활서화 함수를 통해 나온 결과를 내보내는 역할을 하는 것. 이전의 값을 기억하려고 하는 일종의 메모리 역할을 수행은닉 상태(hidden state): 셀이 출력층 방향 또는 다음 시점으로 자신에게 보내는 값run = torch.nn.R.. 2024. 7. 18. 이전 1 2 3 다음