NLP第一次实验
实验目标
本次实验任务为下载老师提供的 zhwiki 语料库,先将该语料库进行提取和预处理、然后通过 jieba 分词工具对其进行分词,最后手写 word2vec 里的两个 CBOW(Continuous Bag of Words)、Skip-gram 算法进行词向量的训练。
本次实验参考内容如下:
AimeeLee77/wiki_zh_word2vec: 利用 Python 构建 Wiki 中文语料词向量模型试验 (github.com)
zake7749/word2vec-tutorial: 中文詞向量訓練教學 (github.com)
一文总结词向量的计算、评估与优化-腾讯云开发者社区-腾讯云 (tencent.com)
Efficient Estimation of Word Representations in Vector Space
本次实验的 GitHub 仓库地址如下:
实验思路
NLP第一次实验
https://excelius.xyz/nlp第一次实验/