中文自然语言处理中文分词训练语料

标签： NLP 语料中文语料 • 文件类型: .zip • 文件大小: 108.12MB • 下载次数: 1 • 2023-09-21

本次提供的中文汉语语料syj_trainCorpus_utf8.txt全网免费，转载需要注明出处，语料是作者通过爬取的短文本和网络上的预料处理、合并生成的。整个语料大小264M，包含1116903条数据，数据用空格隔开，可以用来训练分词模型。