复旦大学文本分类新闻语料测试集+训练集 编码格式为GBK。是网上流传的测试集和训练集的合并版。用户获取后要自行清洗语料。 语言: 其他 大小: 类型: tag: 上传人:tianbu 上传时间:2023-08-28 0 搜狐2012新闻语料已分类,utf8格式 对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。 语言: 其他 大小: 类型: tag: 上传人:rtesd 上传时间:2023-08-28 0 2条