Arabic Word2Vec from Wikipedia

Arabic Word-Embedding (Word2vec) model training from Wikipedia articles

Steps to start training:-

1- Got to Wikipedia Arabic articles data dump at this URL:-

2- Download just Articles only, looks like this:-

arwiki-latest-pages-articles-multistream.xml.bz2

about 1 GB approximately

3- Use WikiExtractor to extract articles to json files

4- Run arabic_word2vec.py to get your Model.

Enjoy Arabic Word-Embedding (Word2vec) ;-)

Thanks to Abed Khooli for his function (ArTokenizer) was very helpful in Arabic Text Cleansing

Watch it on action

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
arabic_word2vec.py		arabic_word2vec.py

Provide feedback