word2vec 基于维基百科训练小结

word2vec 基于维基百科训练小结

首先去维基百科进行下载资料

wget https://dumps.wikimedia.org/zhwiki/20170301/zhwiki-20170301-pages-articles-multistream.xml.bz2

下载完成之后要进行对文本的处理

# 下载解压脚本

git clone https://github.com/attardi/wikiextractor.git wikiextractor

python wikiextractor/WikiExtractor.py -b 2000M -o zhwiki_ext......