NLP第一次实验

实验目标

本次实验任务为下载老师提供的 zhwiki 语料库，先将该语料库进行提取和预处理、然后通过 jieba 分词工具对其进行分词，最后手写 word2vec 里的两个 CBOW（Continuous Bag of Words）、Skip-gram 算法进行词向量的训练。

本次实验参考内容如下：

AimeeLee77/wiki_zh_word2vec: 利用 Python 构建 Wiki 中文语料词向量模型试验 (github.com)

zake7749/word2vec-tutorial: 中文詞向量訓練教學 (github.com)

一文总结词向量的计算、评估与优化-腾讯云开发者社区-腾讯云 (tencent.com)

Efficient Estimation of Word Representations in Vector Space

本次实验的 GitHub 仓库地址如下：

Excelius-Wang/NLP_exp_1 (github.com)

实验思路

#NLP #jieba分词 #ML #word2vec

NLP第一次实验

https://excelius.xyz/nlp第一次实验/

作者

Excelius

发布于

2024年9月22日

许可协议

数据科学与知识发现实验——会话推荐上一篇

如何读论文下一篇