Word2Vec

word2vec은 Efficient Estimation of Word Representations in Vector Space에서 제안된 알고리즘을 구현한 구현체다.

Corpus를 Recurrent Neural Network(RNN)를 통해 train해 각 type의 feature vector를 뽑아낸다. 즉, type의 문맥적 특성을 정량화해서 연산이 가능하게 만든 것이다.

지금 주로 사용하는 Conoha VPS로는 내가 들고있는 corpus를 train하는데 Computing Power가 부족해서 동아리 서버에 환경을 마련한 뒤 트레인 해 볼 생각이다

환경은 마련했고, 조촐한 Demo 사이트를 열어놓았다.

현재는 나무위키 모델이 올라가있다. 다음 글 참조

구글이 pre-trained model을 제공하는지라(python gensim이 memory-friendly하다고 해도 3GB의 모델을 1GB램에 올릴 수는 없는 듯 하다.) 로컬 데스크탑에서 gensim의 api를 테스트해 볼 수 있었다.

best-good+sad = saddest : 0.6223942637443542


더 읽을거리

2 thoughts on “Word2Vec”

  1. 안녕하세요 NLP 에 관심있는 학생입니다.
    http://w.elnn.kr/search/
    개인적으로 저 웹 소스가 굉장히 궁금한데 저 소스는 깃허브에 공개하실 생각 있으신가해서 댓글남겨봅니다. 포스팅하신 글들 , 특히 word2vec 에 대한 글들 쭉 읽어봤는데 정말 흥미로웠고 많은 도움이 되었습니다.

답글 남기기

이메일은 공개되지 않습니다. 필수 입력창은 * 로 표시되어 있습니다.