中文分词与关键词提取NLPIR java版


NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;这个是java版本
资源截图
代码片段和文件信息
import kevin.zhang.NLPIR;

import java.util.*;
import java.io.*;

public class TestNLPIR {

public static void main(String[] args) throws Exception
{
try
{
String sInput = “本发明公开了一种组合椅子,它由若干张集成椅子组合而成,其中,每个集成椅子由数个具有相同位置插口的椅单元薄片依次排列后在插口上插入带有倒挂钩槽联结块组成。本发明通过精心设计的倒挂钩槽卡接结构,将很多椅单元薄片拼接成为一张椅子;然后再通过这些椅子的薄片间的错位,将这些椅子拼成一张椅子。这样人们平时摆放椅子时可以节省很多的空间。同时,在拆装椅子的过程中,通过人与物的互动,让人们体验到更多生活的乐趣。“;

//自适应分词
test(sInput);

}
catch (Exception ex)
{



}

public static void test(String sInput)
{
try
{
NLPIR testNLPIR = new NLPIR();

String argu = ““;
System.out.println(“NLPIR_Init“);
if (testNLPIR.NLPIR_Init(argu.getBytes(“utf-8“)1) == false)
{
System.out.println(“Init Fail!“);
return;
}
//导入用户词典前
byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes(“utf-8“) 1);//0或1表示是否标出词性
String nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
String singleWord[] = nativeStr.split(“ “);
System.out.println(“分词结果为: “ + nativeStr);
//System.out.println(“分词结果为: “ + singleWord.length);



//初始化分词组件
// String argu1 = “test.TXT“;
// String argu2 = “test_result1.TXT“;

nativeBytes  =testNLPIR.NLPIR_GetNewWords(sInput.getBytes(“utf-8“)50true);
//如果是处理内存,可以调用testNLPIR.NLPIR_GetNewWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
System.out.println(“新词识别结果为: “ + nativeStr);

nativeBytes  =testNLPIR.NLPIR_GetKeyWords(sInput.getBytes(“utf-8“)50false);
//如果是处理内存,可以调用testNLPIR.NLPIR_GetKeyWords
nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
System.out.println(“关键词识别结果为: “ + nativeStr);



// testNLPIR.NLPIR_FileProcess(argu1.getBytes(“utf-8“) argu2.getBytes(“utf-8“) 1);//分词结果写入文件
//
// testNLPIR.NLPIR_NWI_Start();
// testNLPIR.NLPIR_NWI_AddFile(argu1.getBytes(“utf-8“));
//
// testNLPIR.NLPIR_NWI_Complete();
//
// nativeBytes= testNLPIR.NLPIR_NWI_GetResult(true);
// nativeStr = new String(nativeBytes 0 nativeBytes.length “utf-8“);
//
// System.out.println(“新词识别结果 “ + nativeStr);
//
// testNLPIR.NLPIR_NWI_Result2UserDict();//新词识别结果
// argu2 = “test_result2.TXT“;
// testNLPIR.NLPIR_FileProcess(argu1.getBytes(“utf-8“) argu2.getBytes(“utf-8“) 1);

// testNLPIR.NLPIR_Exit();
}
catch (Exception ex)
{

}
}
 

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----

     文件        226  2013-04-23 21:01  Win-32bit-JNI-lib.classpath

     文件        393  2013-04-23 21:01  Win-32bit-JNI-lib.project

     文件        121  2013-04-23 22:08  Win-32bit-JNI-lib.settingsorg.eclipse.core.resources.prefs

     文件     286196  2012-05-18 21:36  Win-32bit-JNI-libDataBIG2GBK.map

     文件     468456  2012-05-18 21:33  Win-32bit-JNI-libDataBIG5.pdat

     文件     158695  2012-05-18 21:33  Win-32bit-JNI-libDataBIG5.wordlist

     文件    3520144  2009-01-16 13:48  Win-32bit-JNI-libDataBiWord.big

     文件      65540  2012-11-08 20:45  Win-32bit-JNI-libDatacharset.type

     文件        856  2012-11-14 20:17  Win-32bit-JNI-libDataConfigure.xml

     文件    1696620  2009-01-16 13:48  Win-32bit-JNI-libDataCoreDict.pdat

     文件    1786424  2009-01-16 13:48  Win-32bit-JNI-libDataCoreDict.pos

     文件     478168  2009-01-16 13:48  Win-32bit-JNI-libDataCoreDict.unig

     文件     262236  2009-01-16 13:48  Win-32bit-JNI-libDataFieldDict.pdat

     文件         72  2009-01-16 13:48  Win-32bit-JNI-libDataFieldDict.pos

     文件     549204  2012-05-18 21:34  Win-32bit-JNI-libDataGBK.pdat

     文件     166985  2012-05-18 21:34  Win-32bit-JNI-libDataGBK.wordlist

     文件     286196  2012-05-18 21:36  Win-32bit-JNI-libDataGBK2BIG.map

     文件     286196  2012-05-18 21:37  Win-32bit-JNI-libDataGBK2GBKC.map

     文件     286196  2012-05-18 21:37  Win-32bit-JNI-libDataGBK2UTF.map

     文件     550848  2012-12-22 11:50  Win-32bit-JNI-libDataGBKA.pdat

     文件     166985  2012-12-22 11:50  Win-32bit-JNI-libDataGBKA.wordlist

     文件     286196  2012-12-22 11:50  Win-32bit-JNI-libDataGBKA2UTF.map

     文件     550848  2012-05-18 21:34  Win-32bit-JNI-libDataGBKC.pdat

     文件     166985  2012-05-18 21:34  Win-32bit-JNI-libDataGBKC.wordlist

     文件     286196  2012-05-18 21:37  Win-32bit-JNI-libDataGBKC2GBK.map

     文件    1978128  2009-01-16 13:48  Win-32bit-JNI-libDataGranDict.pdat

     文件    1778776  2009-01-16 13:48  Win-32bit-JNI-libDataGranDict.pos

     文件        406  2009-01-16 13:48  Win-32bit-JNI-libDataICTPOS.map

     文件        126  2012-12-22 16:00  Win-32bit-JNI-libDataNewWord.lst

     文件      37253  2009-01-16 13:48  Win-32bit-JNI-libDataNLPIR.ctx

............此处省略28个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)