基于停用词的文本预处理及其聚类(matlab)
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2013-10-30 10:27 基于停用词的文本预处理及其聚类agging实验
文件 1481 2013-10-30 10:31 基于停用词的文本预处理及其聚类agging实验mybagging.m
文件 5731 2013-10-30 10:27 基于停用词的文本预处理及其聚类agging实验seeds.mat
文件 9511 2013-10-30 10:27 基于停用词的文本预处理及其聚类agging实验seeds.txt
文件 1909 2013-10-23 13:03 基于停用词的文本预处理及其聚类mainTextPreprocess.m
文件 324 2013-10-22 22:32 基于停用词的文本预处理及其聚类
id_stopwords.m
文件 15567 2013-10-23 13:00 基于停用词的文本预处理及其聚类stopwords.txt
文件 2149 2013-10-22 16:21 基于停用词的文本预处理及其聚类 fidf.m
文件 200 2013-10-22 17:24 基于停用词的文本预处理及其聚类读我.txt
目录 0 2014-04-11 10:02 基于停用词的文本预处理及其聚类实验文本
目录 0 2014-04-11 10:02 基于停用词的文本预处理及其聚类实验文本编程小文本测试
文件 206 2013-10-28 22:08 基于停用词的文本预处理及其聚类实验文本编程小文本测试批处理改名.bat
目录 0 2013-10-22 17:16 基于停用词的文本预处理及其聚类实验文本训练文本
目录 0 2013-10-23 12:38 基于停用词的文本预处理及其聚类实验文本训练文本C000008
文件 5655 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_10.txt
文件 811 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_11.txt
文件 2457 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_12.txt
文件 1639 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_13.txt
文件 1920 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_14.txt
文件 672 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_15.txt
文件 632 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_16.txt
文件 6976 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_17.txt
文件 1105 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_18.txt
文件 639 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_19.txt
文件 8205 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_20.txt
文件 8363 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_21.txt
文件 1513 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_22.txt
文件 412 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_23.txt
文件 376 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_24.txt
文件 2118 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_25.txt
文件 788 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_26.txt
............此处省略155个文件信息
clear;
doc_N=20; %前N篇文章
%%%%%%%%%%%%%%%考虑词性预处理
stopwords_table= textread(‘.stopwords.txt‘‘%s‘‘delimiter‘‘
‘‘whitespace‘‘‘);%读取停用词表
%读取预处理的文本
pre=cell(1doc_N);term=[];prePosTag=cell(1doc_N);j=1;
for i=10:(10+doc_N-1)
%path=[‘.实验文本编程小文本测试spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
path=[‘.实验文本训练文本C000008spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938); %读取预处理的文本
pre{j}=file;
term=strcat(termpre{j});%获得词项
j=j+1;
end
for i=10:(10+doc_N-1)
%path=[‘.实验文本编程小文本测试spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
path=[‘.实验文本训练文本C000010spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938); %读取预处理的文本
pre{j}=file;
term=strcat(termpre{j});%获得词项
j=j+1;
end
for i=10:(10+doc_N-1)
%path=[‘.实验文本编程小文本测试spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
path=[‘.实验文本训练文本C000013spit_‘ int2str(i) ‘.txt‘];%文件路径 ----注意参数N_tic的设置
file=textread(path‘%s‘‘whitespace‘‘‘‘bufsize‘40938); %读取预处理的文本
pre{j}=file;
term=strcat(termpre{j});%获得词项
j=j+1;
end
term=rid_stopwords(termstopwords_table); %去掉冗余词
term=textscan(term{1}‘%s‘); %将字符串转换成cell元组
term=unique(term{1}); %获得term词项表term
%统计term-doc矩阵
term_doc=zeros(doc_Nsize(term1)); %建立term-doc矩阵
for i=1:size(pre2)
for j=1:size(term1)
temp=findstr(pre{i}{1}term{j}); %通过term词项在处理过的文本中查找
if(~isempty(temp))
term_doc(ij)=size(temp2); %统计词频
end
end
end
%计算tfidf
fea = tfidf(term_doc);
%聚类
kmeans(fea3)
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2013-10-30 10:27 基于停用词的文本预处理及其聚类agging实验
文件 1481 2013-10-30 10:31 基于停用词的文本预处理及其聚类agging实验mybagging.m
文件 5731 2013-10-30 10:27 基于停用词的文本预处理及其聚类agging实验seeds.mat
文件 9511 2013-10-30 10:27 基于停用词的文本预处理及其聚类agging实验seeds.txt
文件 1909 2013-10-23 13:03 基于停用词的文本预处理及其聚类mainTextPreprocess.m
文件 324 2013-10-22 22:32 基于停用词的文本预处理及其聚类
id_stopwords.m
文件 15567 2013-10-23 13:00 基于停用词的文本预处理及其聚类stopwords.txt
文件 2149 2013-10-22 16:21 基于停用词的文本预处理及其聚类 fidf.m
文件 200 2013-10-22 17:24 基于停用词的文本预处理及其聚类读我.txt
目录 0 2014-04-11 10:02 基于停用词的文本预处理及其聚类实验文本
目录 0 2014-04-11 10:02 基于停用词的文本预处理及其聚类实验文本编程小文本测试
文件 206 2013-10-28 22:08 基于停用词的文本预处理及其聚类实验文本编程小文本测试批处理改名.bat
目录 0 2013-10-22 17:16 基于停用词的文本预处理及其聚类实验文本训练文本
目录 0 2013-10-23 12:38 基于停用词的文本预处理及其聚类实验文本训练文本C000008
文件 5655 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_10.txt
文件 811 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_11.txt
文件 2457 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_12.txt
文件 1639 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_13.txt
文件 1920 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_14.txt
文件 672 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_15.txt
文件 632 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_16.txt
文件 6976 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_17.txt
文件 1105 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_18.txt
文件 639 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_19.txt
文件 8205 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_20.txt
文件 8363 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_21.txt
文件 1513 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_22.txt
文件 412 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_23.txt
文件 376 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_24.txt
文件 2118 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_25.txt
文件 788 2013-10-10 17:37 基于停用词的文本预处理及其聚类实验文本训练文本C000008spit_26.txt
............此处省略155个文件信息
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)