自己动手制作主题搜素引擎
自己动手制作主题搜索引擎,包含数据抓取和搜索,数据抓取采用启发式爬虫,搜索利用正常思路
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-05-21 00:52 search
文件 454 2016-05-20 20:30 search.classpath
文件 382 2016-05-14 16:51 search.project
目录 0 2016-05-14 16:51 search.settings
文件 598 2016-05-14 16:51 search.settingsorg.eclipse.jdt.core.prefs
目录 0 2016-05-21 00:44 searchin
目录 0 2016-05-20 20:30 searchincom
目录 0 2016-05-20 20:30 searchincomhuaban
目录 0 2016-05-20 20:30 searchincomhuabananalysis
目录 0 2016-05-20 20:30 searchincomhuabananalysisjieba
文件 1546 2016-05-20 20:30 searchincomhuabananalysisjiebaCharacterUtil.class
文件 5503 2016-05-20 20:30 searchincomhuabananalysisjiebaDictSegment.class
文件 1703 2016-05-20 20:30 searchincomhuabananalysisjiebaHit.class
文件 1226 2016-05-20 20:30 searchincomhuabananalysisjiebaJiebasegmenter$SegMode.class
文件 8447 2016-05-20 20:30 searchincomhuabananalysisjiebaJiebasegmenter.class
文件 467 2016-05-20 20:30 searchincomhuabananalysisjiebaNode.class
文件 1104 2016-05-20 20:30 searchincomhuabananalysisjiebaPair.class
文件 842 2016-05-20 20:30 searchincomhuabananalysisjiebaSegToken.class
目录 0 2016-05-20 20:30 searchincomhuabananalysisjiebaviterbi
文件 9018 2016-05-20 20:30 searchincomhuabananalysisjiebaviterbiFinalSeg.class
文件 7621 2016-05-20 20:30 searchincomhuabananalysisjiebaWordDictionary.class
文件 5071839 2016-05-20 20:30 searchindict.txt
目录 0 2016-05-21 00:44 searchiniktest
文件 407 2016-05-20 20:30 searchiniktestdict1.txt
文件 1081 2016-05-20 20:30 searchiniktestIKtest.class
文件 391274 2016-05-20 20:30 searchiniktestmydict.txt
文件 5877 2016-05-21 00:44 searchiniktestSAA.class
文件 7859 2016-05-21 00:37 searchiniktestSearch.class
文件 2973 2016-05-20 20:34 searchinikteststopwords.txt
文件 35530 2016-05-20 20:30 searchinjieba.java.code.style.xml
目录 0 2016-05-20 20:30 searchinmain
............此处省略56个文件信息
package com.huaban.analysis.jieba;
import java.util.regex.Pattern;
public class CharacterUtil {
public static Pattern reSkip = Pattern.compile(“(\d+\.\d+|[a-zA-Z0-9]+)“);
private static final char[] connectors = new char[] { ‘+‘ ‘#‘ ‘&‘ ‘.‘ ‘_‘ ‘-‘ };
public static boolean isChineseLetter(char ch) {
if (ch >= 0x4E00 && ch <= 0x9FA5)
return true;
return false;
}
public static boolean isEnglishLetter(char ch) {
if ((ch >= 0x0041 && ch <= 0x005A) || (ch >= 0x0061 && ch <= 0x007A))
return true;
return false;
}
public static boolean isDigit(char ch) {
if (ch >= 0x0030 && ch <= 0x0039)
return true;
return false;
}
public static boolean isConnector(char ch) {
for (char connector : connectors)
if (ch == connector)
return true;
return false;
}
public static boolean ccFind(char ch) {
if (isChineseLetter(ch))
return true;
if (isEnglishLetter(ch))
return true;
if (isDigit(ch))
return true;
if (isConnector(ch))
return true;
return false;
}
/**
* 全角 to 半角大写 to 小写
*
* @param input
* 输入字符
* @return 转换后的字符
*/
public static char regularize(char input) {
if (input == 12288) {
return 32;
}
else if (input > 65280 && input < 65375) {
return (char) (input - 65248);
}
else if (input >= ‘A‘ && input <= ‘Z‘) {
return (input += 32);
}
return input;
}
}
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
目录 0 2016-05-21 00:52 search
文件 454 2016-05-20 20:30 search.classpath
文件 382 2016-05-14 16:51 search.project
目录 0 2016-05-14 16:51 search.settings
文件 598 2016-05-14 16:51 search.settingsorg.eclipse.jdt.core.prefs
目录 0 2016-05-21 00:44 searchin
目录 0 2016-05-20 20:30 searchincom
目录 0 2016-05-20 20:30 searchincomhuaban
目录 0 2016-05-20 20:30 searchincomhuabananalysis
目录 0 2016-05-20 20:30 searchincomhuabananalysisjieba
文件 1546 2016-05-20 20:30 searchincomhuabananalysisjiebaCharacterUtil.class
文件 5503 2016-05-20 20:30 searchincomhuabananalysisjiebaDictSegment.class
文件 1703 2016-05-20 20:30 searchincomhuabananalysisjiebaHit.class
文件 1226 2016-05-20 20:30 searchincomhuabananalysisjiebaJieba
文件 8447 2016-05-20 20:30 searchincomhuabananalysisjiebaJieba
文件 467 2016-05-20 20:30 searchincomhuabananalysisjiebaNode.class
文件 1104 2016-05-20 20:30 searchincomhuabananalysisjiebaPair.class
文件 842 2016-05-20 20:30 searchincomhuabananalysisjiebaSegToken.class
目录 0 2016-05-20 20:30 searchincomhuabananalysisjiebaviterbi
文件 9018 2016-05-20 20:30 searchincomhuabananalysisjiebaviterbiFinalSeg.class
文件 7621 2016-05-20 20:30 searchincomhuabananalysisjiebaWordDictionary.class
文件 5071839 2016-05-20 20:30 searchindict.txt
目录 0 2016-05-21 00:44 searchiniktest
文件 407 2016-05-20 20:30 searchiniktestdict1.txt
文件 1081 2016-05-20 20:30 searchiniktestIKtest.class
文件 391274 2016-05-20 20:30 searchiniktestmydict.txt
文件 5877 2016-05-21 00:44 searchiniktestSAA.class
文件 7859 2016-05-21 00:37 searchiniktestSearch.class
文件 2973 2016-05-20 20:34 searchinikteststopwords.txt
文件 35530 2016-05-20 20:30 searchinjieba.java.code.st
目录 0 2016-05-20 20:30 searchinmain
............此处省略56个文件信息
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)