基于内容的文本分类系统
(这是一个完整的分类系统,用java写的,分词是中科院64位的分词)
详情:http://blog.csdn.net/yinchuandong2/article/details/17717449
使用libsvm 进行分类
使用中科院的分词器ICTLAS对训练集进行分词
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2425 2013-12-29 22:31 .classpath
文件 383 2013-12-29 16:52 .fatjar
文件 390 2013-12-16 15:34 .project
目录 0 2013-12-17 11:50 .settings
文件 598 2013-12-16 15:34 .settingsorg.eclipse.jdt.core.prefs
文件 9720077 2013-12-31 14:36 Classification_fat.jar
文件 1042 2013-10-19 11:37 Configure.xml
目录 0 2013-12-30 21:37 Data
文件 3520144 2013-10-19 11:37 DataBiWord.big
文件 1696620 2013-10-19 11:37 DataCoreDict.pdat
文件 1786424 2013-10-19 11:37 DataCoreDict.pos
文件 478168 2013-10-19 11:37 DataCoreDict.unig
文件 262236 2013-10-19 11:37 DataFieldDict.pdat
文件 72 2013-10-19 11:37 DataFieldDict.pos
文件 1978128 2013-10-19 11:37 DataGranDict.pdat
文件 1778776 2013-10-19 11:37 DataGranDict.pos
文件 37253 2013-10-19 11:37 DataICTCLAS30.ctx
文件 288 2013-10-19 11:37 DataICTCLAS_First.map
文件 406 2013-10-19 11:37 DataICTPOS.map
文件 307 2013-10-19 11:37 DataPKU.map
文件 288 2013-10-19 11:37 DataPKU_First.map
文件 0 2013-12-30 21:37 DataUserDict.map
文件 262560 2013-12-30 21:37 DataUserDict.pdat
文件 524280 2013-10-19 11:37 Datacharacter.idx
文件 65540 2013-10-19 11:37 Datacharacter.type
文件 2213 2013-10-19 11:37 Data
r.ctx
文件 3008 2013-10-19 11:37 Data
r.fsa
文件 1757200 2013-10-19 11:37 Data
r.role
文件 127 2013-12-31 16:27 ICTCLAS.log
文件 240640 2013-10-19 11:37 ICTCLAS50.dll
文件 9898 2013-10-19 11:37 ICTCLAS50.h
............此处省略161个文件信息
import libsvm.*;
import java.io.*;
import java.util.*;
class svm_predict {
private static svm_print_interface svm_print_null = new svm_print_interface()
{
public void print(String s) {}
};
private static svm_print_interface svm_print_stdout = new svm_print_interface()
{
public void print(String s)
{
System.out.print(s);
}
};
private static svm_print_interface svm_print_string = svm_print_stdout;
static void info(String s)
{
svm_print_string.print(s);
}
private static double atof(String s)
{
return Double.valueOf(s).doubleValue();
}
private static int atoi(String s)
{
return Integer.parseInt(s);
}
private static void predict(BufferedReader input DataOutputStream output svm_model model int predict_probability) throws IOException
{
int correct = 0;
int total = 0;
double error = 0;
double sumv = 0 sumy = 0 sumvv = 0 sumyy = 0 sumvy = 0;
int svm_type=svm.svm_get_svm_type(model);
int nr_class=svm.svm_get_nr_class(model);
double[] prob_estimates=null;
if(predict_probability == 1)
{
if(svm_type == svm_parameter.EPSILON_SVR ||
svm_type == svm_parameter.NU_SVR)
{
svm_predict.info(“Prob. model for test data: target value = predicted value + z
z: Laplace distribution e^(-|z|/sigma)/(2sigma)sigma=“+svm.svm_get_svr_probability(model)+“
“);
}
else
{
int[] labels=new int[nr_class];
svm.svm_get_labels(modellabels);
prob_estimates = new double[nr_class];
output.writeBytes(“labels“);
for(int j=0;j output.writeBytes(“ “+labels[j]);
output.writeBytes(“
“);
}
}
while(true)
{
String line = input.readLine();
if(line == null) break;
StringTokenizer st = new StringTokenizer(line“
f:“);
double target = atof(st.nextToken());
int m = st.countTokens()/2;
svm_node[] x = new svm_node[m];
for(int j=0;j {
x[j] = new svm_node();
x[j].index = atoi(st.nextToken());
x[j].value = atof(st.nextToken());
}
double v;
if (predict_probability==1 && (svm_type==svm_parameter.C_SVC || svm_type==svm_parameter.NU_SVC))
{
v = svm.svm_predict_probability(modelxprob_estimates);
output.writeBytes(v+“ “);
for(int j=0;j output.writeBytes(prob_estimates[j]+“ “);
output.writeBytes(“
“);
}
else
{
v = svm.svm_predict(modelx);
output.writeBytes(v+“
“);
}
if(v == target)
++correct;
error += (v-target)*(v-target);
sumv += v;
sumy += target;
sumvv += v*v;
sumyy += target*target;
sumvy += v*target;
++total;
}
if(svm_type == svm_parameter.EPSILON_SVR ||
svm_type == svm_parameter.NU_SVR)
{
svm_predict.info(“Mean squared error = “+error/total+“ (regression)
“);
svm_predict.info(“Squared correlation coefficient = “+
((total*sumvy-sumv*sumy)*(total*sumvy-sumv*sumy))/
((total*sumvv-sumv*sumv)*(total*sumyy-sumy*sumy))+
“ (regression)
“);
}
else
svm_predict.info(“Accuracy = “
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 2425 2013-12-29 22:31 .classpath
文件 383 2013-12-29 16:52 .fatjar
文件 390 2013-12-16 15:34 .project
目录 0 2013-12-17 11:50 .settings
文件 598 2013-12-16 15:34 .settingsorg.eclipse.jdt.core.prefs
文件 9720077 2013-12-31 14:36 Classification_fat.jar
文件 1042 2013-10-19 11:37 Configure.xm
目录 0 2013-12-30 21:37 Data
文件 3520144 2013-10-19 11:37 DataBiWord.big
文件 1696620 2013-10-19 11:37 DataCoreDict.pdat
文件 1786424 2013-10-19 11:37 DataCoreDict.pos
文件 478168 2013-10-19 11:37 DataCoreDict.unig
文件 262236 2013-10-19 11:37 DataFieldDict.pdat
文件 72 2013-10-19 11:37 DataFieldDict.pos
文件 1978128 2013-10-19 11:37 DataGranDict.pdat
文件 1778776 2013-10-19 11:37 DataGranDict.pos
文件 37253 2013-10-19 11:37 DataICTCLAS30.ctx
文件 288 2013-10-19 11:37 DataICTCLAS_First.map
文件 406 2013-10-19 11:37 DataICTPOS.map
文件 307 2013-10-19 11:37 DataPKU.map
文件 288 2013-10-19 11:37 DataPKU_First.map
文件 0 2013-12-30 21:37 DataUserDict.map
文件 262560 2013-12-30 21:37 DataUserDict.pdat
文件 524280 2013-10-19 11:37 Datacharacter.idx
文件 65540 2013-10-19 11:37 Datacharacter.type
文件 2213 2013-10-19 11:37 Data
r.ctx
文件 3008 2013-10-19 11:37 Data
r.fsa
文件 1757200 2013-10-19 11:37 Data
r.role
文件 127 2013-12-31 16:27 ICTCLAS.log
文件 240640 2013-10-19 11:37 ICTCLAS50.dll
文件 9898 2013-10-19 11:37 ICTCLAS50.h
............此处省略161个文件信息
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)