Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
ATEC		ATEC
ATEC_CCKS		ATEC_CCKS
BQ_corpus		BQ_corpus
CCKS_2018_3		CCKS_2018_3
LCQMC		LCQMC
README.md		README.md

Repository files navigation

中文NLP数据集

这是一个各类中文NLP数据集的集合，旨在把各种不同用途的中文语料收集起来，方便自己以及亲们使用^_^。

已收录数据集

ATEC语义相似度学习赛数据集

比赛链接：https://dc.cloud.alipay.com/index#/topic/ranking?id=8
数据集类型：语义相似度
保存目录：ATEC

CCKS 2018 微众银行智能客服问句匹配大赛数据集

比赛链接：https://biendata.com/competition/CCKS2018_3/leaderboard/
数据集类型：语义相似度
保存目录：CCKS_2018_3

ATEC + CCKS 2018 组合数据集

由于ATEC比赛和CCKS 2018比赛提供的语料都是互金客服场景下的语料，所以把两个数据集的语料合并到了一起，基于分层抽样划分了出了训练集、验证集和测试集，其中：

训练集、验证集和测试集的正类比例均为34%左右
训练集：约24W样本
验证集：1W样本
测试集：1W样本

数据集类型：语义相似度
保存目录：ATEC_CCKS

哈工大BQ_corpus数据集

数据集地址：http://icrc.hitsz.edu.cn/info/1037/1162.htm
数据集类型：语义相似度
保存目录：BQ_corpus

哈工大LCQMC数据集

数据集地址：http://icrc.hitsz.edu.cn/Article/show/171.html
数据集类型：语义相似度
保存目录：LCQMC

About

中文NLP数据集

Report repository

Releases

No releases published

Packages

No packages published