基于svm的中文文本分类


基于内容的文本分类系统 (这是一个完整的分类系统,用java写的,分词是中科院64位的分词) 详情:http://blog.csdn.net/yinchuandong2/article/details/17717449 使用libsvm 进行分类 使用中科院的分词器ICTLAS对训练集进行分词
资源截图
代码片段和文件信息
import libsvm.*;
import java.io.*;
import java.util.*;

class svm_predict {
private static svm_print_interface svm_print_null = new svm_print_interface()
{
public void print(String s) {}
};

private static svm_print_interface svm_print_stdout = new svm_print_interface()
{
public void print(String s)
{
System.out.print(s);
}
};

private static svm_print_interface svm_print_string = svm_print_stdout;

static void info(String s) 
{
svm_print_string.print(s);
}

private static double atof(String s)
{
return Double.valueOf(s).doubleValue();
}

private static int atoi(String s)
{
return Integer.parseInt(s);
}

private static void predict(BufferedReader input DataOutputStream output svm_model model int predict_probability) throws IOException
{
int correct = 0;
int total = 0;
double error = 0;
double sumv = 0 sumy = 0 sumvv = 0 sumyy = 0 sumvy = 0;

int svm_type=svm.svm_get_svm_type(model);
int nr_class=svm.svm_get_nr_class(model);
double[] prob_estimates=null;

if(predict_probability == 1)
{
if(svm_type == svm_parameter.EPSILON_SVR ||
   svm_type == svm_parameter.NU_SVR)
{
svm_predict.info(“Prob. model for test data: target value = predicted value + z
z: Laplace distribution e^(-|z|/sigma)/(2sigma)sigma=“+svm.svm_get_svr_probability(model)+“
“);
}
else
{
int[] labels=new int[nr_class];
svm.svm_get_labels(modellabels);
prob_estimates = new double[nr_class];
output.writeBytes(“labels“);
for(int j=0;j output.writeBytes(“ “+labels[j]);
output.writeBytes(“
“);
}
}
while(true)
{
String line = input.readLine();
if(line == null) break;

StringTokenizer st = new StringTokenizer(line“ 

f:“);

double target = atof(st.nextToken());
int m = st.countTokens()/2;
svm_node[] x = new svm_node[m];
for(int j=0;j {
x[j] = new svm_node();
x[j].index = atoi(st.nextToken());
x[j].value = atof(st.nextToken());
}

double v;
if (predict_probability==1 && (svm_type==svm_parameter.C_SVC || svm_type==svm_parameter.NU_SVC))
{
v = svm.svm_predict_probability(modelxprob_estimates);
output.writeBytes(v+“ “);
for(int j=0;j output.writeBytes(prob_estimates[j]+“ “);
output.writeBytes(“
“);
}
else
{
v = svm.svm_predict(modelx);
output.writeBytes(v+“
“);
}

if(v == target)
++correct;
error += (v-target)*(v-target);
sumv += v;
sumy += target;
sumvv += v*v;
sumyy += target*target;
sumvy += v*target;
++total;
}
if(svm_type == svm_parameter.EPSILON_SVR ||
   svm_type == svm_parameter.NU_SVR)
{
svm_predict.info(“Mean squared error = “+error/total+“ (regression)
“);
svm_predict.info(“Squared correlation coefficient = “+
 ((total*sumvy-sumv*sumy)*(total*sumvy-sumv*sumy))/
 ((total*sumvv-sumv*sumv)*(total*sumyy-sumy*sumy))+
 “ (regression)
“);
}
else
svm_predict.info(“Accuracy = “

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     文件        2425  2013-12-29 22:31  .classpath
     文件         383  2013-12-29 16:52  .fatjar
     文件         390  2013-12-16 15:34  .project
     目录           0  2013-12-17 11:50  .settings
     文件         598  2013-12-16 15:34  .settingsorg.eclipse.jdt.core.prefs
     文件     9720077  2013-12-31 14:36  Classification_fat.jar
     文件        1042  2013-10-19 11:37  Configure.xml
     目录           0  2013-12-30 21:37  Data
     文件     3520144  2013-10-19 11:37  DataBiWord.big
     文件     1696620  2013-10-19 11:37  DataCoreDict.pdat
     文件     1786424  2013-10-19 11:37  DataCoreDict.pos
     文件      478168  2013-10-19 11:37  DataCoreDict.unig
     文件      262236  2013-10-19 11:37  DataFieldDict.pdat
     文件          72  2013-10-19 11:37  DataFieldDict.pos
     文件     1978128  2013-10-19 11:37  DataGranDict.pdat
     文件     1778776  2013-10-19 11:37  DataGranDict.pos
     文件       37253  2013-10-19 11:37  DataICTCLAS30.ctx
     文件         288  2013-10-19 11:37  DataICTCLAS_First.map
     文件         406  2013-10-19 11:37  DataICTPOS.map
     文件         307  2013-10-19 11:37  DataPKU.map
     文件         288  2013-10-19 11:37  DataPKU_First.map
     文件           0  2013-12-30 21:37  DataUserDict.map
     文件      262560  2013-12-30 21:37  DataUserDict.pdat
     文件      524280  2013-10-19 11:37  Datacharacter.idx
     文件       65540  2013-10-19 11:37  Datacharacter.type
     文件        2213  2013-10-19 11:37  Data
r.ctx
     文件        3008  2013-10-19 11:37  Data
r.fsa
     文件     1757200  2013-10-19 11:37  Data
r.role
     文件         127  2013-12-31 16:27  ICTCLAS.log
     文件      240640  2013-10-19 11:37  ICTCLAS50.dll
     文件        9898  2013-10-19 11:37  ICTCLAS50.h
............此处省略161个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)