自己动手制作主题搜素引擎


自己动手制作主题搜索引擎,包含数据抓取和搜索,数据抓取采用启发式爬虫,搜索利用正常思路
资源截图
代码片段和文件信息
package com.huaban.analysis.jieba;

import java.util.regex.Pattern;


public class CharacterUtil {
    public static Pattern reSkip = Pattern.compile(“(\d+\.\d+|[a-zA-Z0-9]+)“);
    private static final char[] connectors = new char[] { ‘+‘ ‘#‘ ‘&‘ ‘.‘ ‘_‘ ‘-‘ };


    public static boolean isChineseLetter(char ch) {
        if (ch >= 0x4E00 && ch <= 0x9FA5)
            return true;
        return false;
    }


    public static boolean isEnglishLetter(char ch) {
        if ((ch >= 0x0041 && ch <= 0x005A) || (ch >= 0x0061 && ch <= 0x007A))
            return true;
        return false;
    }


    public static boolean isDigit(char ch) {
        if (ch >= 0x0030 && ch <= 0x0039)
            return true;
        return false;
    }


    public static boolean isConnector(char ch) {
        for (char connector : connectors)
            if (ch == connector)
                return true;
        return false;
    }


    public static boolean ccFind(char ch) {
        if (isChineseLetter(ch))
            return true;
        if (isEnglishLetter(ch))
            return true;
        if (isDigit(ch))
            return true;
        if (isConnector(ch))
            return true;
        return false;
    }


    /**
     * 全角 to 半角大写 to 小写
     * 
     * @param input
     *            输入字符
     * @return 转换后的字符
     */
    public static char regularize(char input) {
        if (input == 12288) {
            return 32;
        }
        else if (input > 65280 && input < 65375) {
            return (char) (input - 65248);
        }
        else if (input >= ‘A‘ && input <= ‘Z‘) {
            return (input += 32);
        }
        return input;
    }

}

 属性            大小     日期    时间   名称
----------- ---------  ---------- -----  ----
     目录           0  2016-05-21 00:52  search
     文件         454  2016-05-20 20:30  search.classpath
     文件         382  2016-05-14 16:51  search.project
     目录           0  2016-05-14 16:51  search.settings
     文件         598  2016-05-14 16:51  search.settingsorg.eclipse.jdt.core.prefs
     目录           0  2016-05-21 00:44  searchin
     目录           0  2016-05-20 20:30  searchincom
     目录           0  2016-05-20 20:30  searchincomhuaban
     目录           0  2016-05-20 20:30  searchincomhuabananalysis
     目录           0  2016-05-20 20:30  searchincomhuabananalysisjieba
     文件        1546  2016-05-20 20:30  searchincomhuabananalysisjiebaCharacterUtil.class
     文件        5503  2016-05-20 20:30  searchincomhuabananalysisjiebaDictSegment.class
     文件        1703  2016-05-20 20:30  searchincomhuabananalysisjiebaHit.class
     文件        1226  2016-05-20 20:30  searchincomhuabananalysisjiebaJiebasegmenter$SegMode.class
     文件        8447  2016-05-20 20:30  searchincomhuabananalysisjiebaJiebasegmenter.class
     文件         467  2016-05-20 20:30  searchincomhuabananalysisjiebaNode.class
     文件        1104  2016-05-20 20:30  searchincomhuabananalysisjiebaPair.class
     文件         842  2016-05-20 20:30  searchincomhuabananalysisjiebaSegToken.class
     目录           0  2016-05-20 20:30  searchincomhuabananalysisjiebaviterbi
     文件        9018  2016-05-20 20:30  searchincomhuabananalysisjiebaviterbiFinalSeg.class
     文件        7621  2016-05-20 20:30  searchincomhuabananalysisjiebaWordDictionary.class
     文件     5071839  2016-05-20 20:30  searchindict.txt
     目录           0  2016-05-21 00:44  searchiniktest
     文件         407  2016-05-20 20:30  searchiniktestdict1.txt
     文件        1081  2016-05-20 20:30  searchiniktestIKtest.class
     文件      391274  2016-05-20 20:30  searchiniktestmydict.txt
     文件        5877  2016-05-21 00:44  searchiniktestSAA.class
     文件        7859  2016-05-21 00:37  searchiniktestSearch.class
     文件        2973  2016-05-20 20:34  searchinikteststopwords.txt
     文件       35530  2016-05-20 20:30  searchinjieba.java.code.style.xml
     目录           0  2016-05-20 20:30  searchinmain
............此处省略56个文件信息

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。

发表评论

评论列表(条)