基于停用词的文本预处理及其聚类(matlab)


基于停用词的文本预处理及其聚类(matlab)
资源截图
代码片段和文件信息
clear;
doc_N=20;  %前N篇文章
%%%%%%%%%%%%%%%考虑词性预处理
stopwords_table= textread(‘.stopwords.txt‘‘%s‘‘delimiter‘‘
‘‘whitespace‘‘‘);%读取停用词表


%读取预处理的文本
pre=cell(1doc_N);term=[];prePosTag=cell(1doc_N);j=1;
for i=10:(10+doc_N-1)
    %path=[‘.实验文本编程小文本测试spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    path=[‘.实验文本训练文本C000008spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);   %读取预处理的文本
    pre{j}=file;
    term=strcat(termpre{j});%获得词项
    j=j+1;
end

for i=10:(10+doc_N-1)
    %path=[‘.实验文本编程小文本测试spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    path=[‘.实验文本训练文本C000010spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);   %读取预处理的文本
    pre{j}=file;
    term=strcat(termpre{j});%获得词项
    j=j+1;
end

for i=10:(10+doc_N-1)
    %path=[‘.实验文本编程小文本测试spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    path=[‘.实验文本训练文本C000013spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
    file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938);   %读取预处理的文本
    pre{j}=file;
    term=strcat(termpre{j});%获得词项
    j=j+1;
end

term=rid_stopwords(termstopwords_table); %去掉冗余词
term=textscan(term{1}‘%s‘); %将字符串转换成cell元组
term=unique(term{1});  %获得term词项表term


%统计term-doc矩阵
term_doc=zeros(doc_Nsize(term1)); %建立term-doc矩阵
for i=1:size(pre2)
    for j=1:size(term1)
        temp=findstr(pre{i}{1}term{j});    %通过term词项在处理过的文本中查找
        if(~isempty(temp))
        term_doc(ij)=size(temp2);  %统计词频
        end
    end
end

%计算tfidf
fea = tfidf(term_doc);

%聚类
kmeans(fea3)


 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2013-10-30 10:27  基于停用词的文本预处理及其聚类agging实验
     文件        1481  2013-10-30 10:31  基于停用词的文本预处理及其聚类agging实验mybagging.m
     文件        5731  2013-10-30 10:27  基于停用词的文本预处理及其聚类agging实验seeds.mat
     文件        9511  2013-10-30 10:27  基于停用词的文本预处理及其聚类agging实验seeds.txt
     文件        1909  2013-10-23 13:03  基于停用词的文本预处理及其聚类mainTextPreprocess.m
     文件         324  2013-10-22 22:32  基于停用词的文本预处理及其聚类
id_stopwords.m
     文件       15567  2013-10-23 13:00  基于停用词的文本预处理及其聚类stopwords.txt
     文件        2149  2013-10-22 16:21  基于停用词的文本预处理及其聚类 fidf.m
     文件         200  2013-10-22 17:24  基于停用词的文本预处理及其聚类读我.txt
     目录           0  2014-04-11 10:02  基于停用词的文本预处理及其聚类实验文本
     目录           0  2014-04-11 10:02  基于停用词的文本预处理及其聚类实验文本编程小文本测试
     文件         206  2013-10-28 22:08  基于停用词的文本预处理及其聚类实验文本编程小文本测试批处理改名.bat
     目录           0  2013-10-22 17:16  基于停用词的文本预处理及其聚类实验文本训练文本
     目录           0  2013-10-23 12:38  基于停用词的文本预处理及其聚类实验文本训练文本C000008
     文件        5655  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_10.txt
     文件         811  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_11.txt
     文件        2457  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_12.txt
     文件        1639  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_13.txt
     文件        1920  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_14.txt
     文件         672  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_15.txt
     文件         632  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_16.txt
     文件        6976  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_17.txt
     文件        1105  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_18.txt
     文件         639  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_19.txt
     文件        8205  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_20.txt
     文件        8363  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_21.txt
     文件        1513  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_22.txt
     文件         412  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_23.txt
     文件         376  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_24.txt
     文件        2118  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_25.txt
     文件         788  2013-10-10 17:37  基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_26.txt
............此处省略155个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)