NLP第一次实验

实验目标

本次实验任务为下载老师提供的 zhwiki 语料库,先将该语料库进行提取和预处理、然后通过 jieba 分词工具对其进行分词,最后手写 word2vec 里的两个 CBOW(Continuous Bag of Words)、Skip-gram 算法进行词向量的训练。

本次实验参考内容如下:

AimeeLee77/wiki_zh_word2vec: 利用 Python 构建 Wiki 中文语料词向量模型试验 (github.com)

zake7749/word2vec-tutorial: 中文詞向量訓練教學 (github.com)

一文总结词向量的计算、评估与优化-腾讯云开发者社区-腾讯云 (tencent.com)

Efficient Estimation of Word Representations in Vector Space

本次实验的 GitHub 仓库地址如下:

Excelius-Wang/NLP_exp_1 (github.com)

实验思路


NLP第一次实验
https://excelius.xyz/nlp第一次实验/
作者
Ther
发布于
2024年9月22日
许可协议