对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2259196 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育 .txt
文件 2249561 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育1.txt
文件 2248622 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育10.txt
文件 1184161 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育11.txt
文件 2290923 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育2.txt
文件 2259271 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育3.txt
文件 2259546 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育4.txt
文件 2233001 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育5.txt
文件 2261142 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育6.txt
文件 2274512 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育7.txt
文件 2226670 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育8.txt
文件 2294141 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育9.txt
文件 1518927 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康 .txt
文件 1533872 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康1.txt
文件 1479302 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康2.txt
文件 1468445 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康3.txt
文件 1546826 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康4.txt
文件 1645931 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康5.txt
文件 90106 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康6.txt
文件 1624504 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)语料初步筛选军事 .txt
文件 1502492 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)语料初步筛选军事1.txt
文件 1301321 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)语料初步筛选军事2.txt
文件 955472 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)语料初步筛选军事3.txt
文件 50344 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)语料初步筛选军事4.txt
文件 2131445 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐 .txt
文件 2136869 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐1.txt
文件 2074956 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐2.txt
文件 2288014 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐3.txt
文件 2298830 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐4.txt
文件 2275578 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐5.txt
............此处省略130个文件信息
----------- --------- ---------- ----- ----
文件 2259196 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育 .txt
文件 2249561 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育1.txt
文件 2248622 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育10.txt
文件 1184161 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育11.txt
文件 2290923 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育2.txt
文件 2259271 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育3.txt
文件 2259546 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育4.txt
文件 2233001 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育5.txt
文件 2261142 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育6.txt
文件 2274512 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育7.txt
文件 2226670 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育8.txt
文件 2294141 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选体育9.txt
文件 1518927 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康 .txt
文件 1533872 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康1.txt
文件 1479302 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康2.txt
文件 1468445 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康3.txt
文件 1546826 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康4.txt
文件 1645931 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康5.txt
文件 90106 2018-01-30 15:23 搜狐2012新闻语料切分(utf8)语料初步筛选健康6.txt
文件 1624504 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)语料初步筛选军事 .txt
文件 1502492 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)语料初步筛选军事1.txt
文件 1301321 2018-01-30 15:24 搜狐2012新闻语料切分(utf8)语料初步筛选军事2.txt
文件 955472 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)语料初步筛选军事3.txt
文件 50344 2018-01-30 15:25 搜狐2012新闻语料切分(utf8)语料初步筛选军事4.txt
文件 2131445 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐 .txt
文件 2136869 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐1.txt
文件 2074956 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐2.txt
文件 2288014 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐3.txt
文件 2298830 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐4.txt
文件 2275578 2018-01-30 15:22 搜狐2012新闻语料切分(utf8)语料初步筛选娱乐5.txt
............此处省略130个文件信息
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)