中科院中文分词系统ICTCLAS2015


中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。
资源截图
代码片段和文件信息
// win_cDemo.cpp : 定义控制台应用程序的入口点。
//

#include “../include/NLPIR.h“
#include 
#include 
#include 
#include 

#ifndef OS_LINUX
#pragma comment(lib “../../../bin/ICTCLAS2013/NLPIR.lib“)
#else
#include
#endif

#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 
#include 

#ifndef OS_LINUX
#include 
#include 
#include 
#include 
#include 
#define makeDirectory _mkdir
#pragma warning(disable:4786)
#define PATH_DELEMETER  “\“
#define LONG64U __int64
#define DATE_DELEMETER  “/“
//#include 
#define SLEEP(x) Sleep(x*1000)
#else
#include 
#include 
#include  
#include 
#include 
#include 
#include 
#include 
#include 
#define makeDirectory(x) mkdir(x 0777)    // 这步骤必须,否则文件夹只读
//#define stricmp strcasecmp
//#define strnicmp strncasecmp
#define Sleep(x) sleep(x/1000)
#define min(ab) (((a)<(b)) ? (a) : (b))
#define _stricmp(XY) strcasecmp((X)(Y))
#define stricmp(XY) strcasecmp((X)(Y))
#define strnicmp(XYZ) strncasecmp((X)(Y)(Z))
#define _fstat(XY)     fstat((X)(Y))
#define _fileno(X)     fileno((X))
#define _stat           stat
#define _getcwd         getcwd
#define _off_t          off_t
#define PATH_DELEMETER  “/“
#define DATE_DELEMETER  “/“
#define LONG64U long long
#include 
#define SLEEP(x) sleep(x)
#endif

void SplitGBK(const char *sInput);
void SplitBIG5();
void SplitUTF8();
void testNewWord(int code);
long ReadFile(const char *sFilenamechar **pBuffer);
int testBug()
{

if(NLPIR_Init(“../../“)) 

for(int j=0; j<3000; ++j) 

if (j==1963)
{
int nDebug=1;
}
std::string str = “携号转网拟扩大试验范围,各方不积极形同鸡肋。“; 
int nCount = 0; 
const result_t *pVecResult = NLPIR_ParagraphProcessA(str.c_str() &nCount); 
//根据pVecResult和nCount处理关键词等 
for(int i=0; i
char szKey[16] = { 0 }; 
memcpy(szKey str.c_str() + pVecResult[i].start (pVecResult[i].length < 16) ? pVecResult[i].length : 16 - 1); 
//cout<

printf(“%d
“j);

NLPIR_Exit(); 

else 

//cout<<“nlpir init failed.“< printf(“nlpir init failed.
“);


return 0; 
}
/*********************************************************************
 *
 *  Func Name  : Read(const char *sFilenamechar *pBuffer)
 *  Description: 
 *        Read file to a buffer and return the file size
 *              
 *
 *  Parameters : 
 *               sFilename: filename;
 *               pBuffer: buffer
 *
 *  Returns    : _off_t file size
 *  Author     : Kevin Zhang  
 *  History    : 
 *              1.create 2003-11-28
 **********************************************************

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2014-12-25 15:00  ICTCLAS2015
     目录           0  2014-12-25 15:00  ICTCLAS2015in
     目录           0  2014-12-25 15:00  ICTCLAS2015inICTCLAS2015
     文件     1587200  2013-12-19 21:08  ICTCLAS2015inICTCLAS2015ICTCLAS-tools.exe
     文件          33  2013-09-01 18:30  ICTCLAS2015inICTCLAS2015importuserdict.bat
     文件     1722880  2014-12-25 11:36  ICTCLAS2015inICTCLAS2015NLPIR.dll
     文件       11636  2014-01-02 10:07  ICTCLAS2015inICTCLAS2015NLPIR.lib
     文件     3165184  2014-12-25 11:34  ICTCLAS2015inICTCLAS2015NLPIR_WinDemo.exe
     文件          22  2013-12-19 21:10  ICTCLAS2015inICTCLAS2015userdic.txt
     目录           0  2014-12-25 15:00  ICTCLAS2015Data
     文件          92  2014-12-25 14:58  ICTCLAS2015Data20141225.err
     文件      286196  2012-05-18 21:36  ICTCLAS2015DataBIG2GBK.map
     文件      468456  2012-05-18 21:33  ICTCLAS2015DataBIG5.pdat
     文件      158695  2012-05-18 21:33  ICTCLAS2015DataBIG5.wordlist
     文件     3520144  2009-01-16 13:48  ICTCLAS2015DataBiWord.big
     文件       65540  2012-11-08 20:45  ICTCLAS2015Datacharset.type
     文件        1084  2014-10-31 13:58  ICTCLAS2015DataConfigure.xml
     文件     1696620  2009-01-16 13:48  ICTCLAS2015DataCoreDict.pdat
     文件     1786424  2009-01-16 13:48  ICTCLAS2015DataCoreDict.pos
     文件      478168  2009-01-16 13:48  ICTCLAS2015DataCoreDict.unig
     文件        3356  2014-03-10 18:33  ICTCLAS2015DataDocExtractor.user
     目录           0  2014-12-25 15:00  ICTCLAS2015DataEnglish
     文件     5306976  2013-12-29 20:11  ICTCLAS2015DataEnglishEnglish.pdat
     文件     4496928  2013-12-29 20:14  ICTCLAS2015DataEnglishEnglish.pos
     文件     1681620  2013-12-29 20:14  ICTCLAS2015DataEnglishEnglish.ung
     文件     2874975  2013-12-29 20:14  ICTCLAS2015DataEnglishEnglish.wordlist
     文件      978148  2013-12-29 20:14  ICTCLAS2015DataEnglishIrrel2regular.map
     文件     1167648  2013-12-17 23:03  ICTCLAS2015DataEnglish
e.pdat
     文件     1282112  2013-12-17 23:03  ICTCLAS2015DataEnglish
e.pos
     文件      668398  2013-12-17 23:03  ICTCLAS2015DataEnglish
e.wordlist
     文件      380016  2014-03-23 20:10  ICTCLAS2015DataFieldDict.pdat
............此处省略221个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)