微博分类语料 4万条微博数据,详细分为21类 语言: 其他 大小: 类型: tag: 上传人:tianbu 上传时间:2023-12-07 0 50W聊天语料训练数据.zip 50万条中文闲聊对话高质量语料,最新整理,包括很多热门语句和流行词汇。适用于NLP(自然语言处理)进行对话学习训练,可用于聊天机器人研究和开发。 语言: 其他 大小: 类型: tag: 上传人:fuaoxing55 上传时间:2023-12-07 0 网易文本分类数据 - 好东西 数据堂已经打不开了, 以前备份留下来的网易文本分类数据, dataid=602151 语言: 其他 大小: 类型: tag: 上传人:xiaoyang 上传时间:2023-12-06 0 Chinese NER data MSRA 中文命名实体识别语料 中 B-ORG共 I-ORG中 I-ORG央 I-ORG致 O中 B-ORG国 I-ORG致 I-ORG公 I-ORG党 I-ORG十 I-ORG一 I-ORG大 I-ORG的 O贺 O词 O各 O位 O代 O表 O Tag | MeaningO Not part of a named entityB-PER Beginning character of a person nameI-PER Non 语言: 其他 大小: 类型: tag: 上传人:zhanzhil 上传时间:2023-12-05 0 中文自然语言处理中文分词训练语料 本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费,转载需要注明出处,语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M,包含1116903条数据,数据用 语言: 其他 大小: 类型: tag: 上传人:32332 上传时间:2023-09-21 0 中文文本分类语料由复旦大学李荣陆提供(附停用词.rar 1、资源中有语料,本语料库由复旦大学李荣陆提供。test_corpus为测试语料,共9833篇文档;train_corpus为训练语料,共9804篇文档,两个预料各分为20个相同类别。训练语料和测试语料基本按 语言: 其他 大小: 类型: tag: 上传人:fuaoxing55 上传时间:2023-09-19 0 中文命名实体识别语料 BIO标注集,即B-PER、I-PER代表人名首字、人名非首字,B-LOC、I-LOC代表地名首字、地名非首字,B-ORG、I-ORG代表组织机构名首字、组织机构名非首字,O代表该字不属于命名实体的一部分。 语言: 其他 大小: 类型: tag: 上传人:yangfen 上传时间:2023-09-18 0 深度学习word2vector测试语料text8 深度学习中word2vector测试语料text8 word2vec是google的一个开源工具,能够根据输入的词的集合计算出词与词之间的距离。 它将term转换成向量形式,可以把对文本内容的处理简化为向量空间 语言: 其他 大小: 类型: tag: 上传人:pppxxx 上传时间:2023-09-16 0 中英平行语料库八万对,句粒度 共8400多对中英语句,已预处理,中文用jieba分了词,标点符号没问题,保存于en-zh.csv,分隔符是制表符\t(不是默认逗号)。句粒度,但有不少长句,裁剪后5w对也够用。原始数据集也在 语言: 其他 大小: 类型: tag: 上传人:pppxxx 上传时间:2023-09-04 0 9条