搜狐2012新闻语料已分类,utf8格式


对搜狗实验室的2012搜狐新闻语料进行切分、格式转换(已转为UTF8),从中抽取了11个新闻类别并分文件夹存储,每个txt文件包含600篇新闻。数据大概共54M,可以用于中文分类。
资源截图
代码片段和文件信息
 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件    2259196  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育.txt

     文件    2249561  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育1.txt

     文件    2248622  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育10.txt

     文件    1184161  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育11.txt

     文件    2290923  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育2.txt

     文件    2259271  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育3.txt

     文件    2259546  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育4.txt

     文件    2233001  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育5.txt

     文件    2261142  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育6.txt

     文件    2274512  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育7.txt

     文件    2226670  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育8.txt

     文件    2294141  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选体育9.txt

     文件    1518927  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康.txt

     文件    1533872  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康1.txt

     文件    1479302  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康2.txt

     文件    1468445  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康3.txt

     文件    1546826  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康4.txt

     文件    1645931  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康5.txt

     文件      90106  2018-01-30 15:23  搜狐2012新闻语料切分(utf8)语料初步筛选健康6.txt

     文件    1624504  2018-01-30 15:25  搜狐2012新闻语料切分(utf8)语料初步筛选军事.txt

     文件    1502492  2018-01-30 15:24  搜狐2012新闻语料切分(utf8)语料初步筛选军事1.txt

     文件    1301321  2018-01-30 15:24  搜狐2012新闻语料切分(utf8)语料初步筛选军事2.txt

     文件     955472  2018-01-30 15:25  搜狐2012新闻语料切分(utf8)语料初步筛选军事3.txt

     文件      50344  2018-01-30 15:25  搜狐2012新闻语料切分(utf8)语料初步筛选军事4.txt

     文件    2131445  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)语料初步筛选娱乐.txt

     文件    2136869  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)语料初步筛选娱乐1.txt

     文件    2074956  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)语料初步筛选娱乐2.txt

     文件    2288014  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)语料初步筛选娱乐3.txt

     文件    2298830  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)语料初步筛选娱乐4.txt

     文件    2275578  2018-01-30 15:22  搜狐2012新闻语料切分(utf8)语料初步筛选娱乐5.txt

............此处省略130个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)