本项目利用python实现N-gram语言模型,采用的平滑算法是Kneser-Ney平滑。
代码片段和文件信息
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 372 2018-06-07 10:03 languageModel_kneser-neydealDict.py
文件 519392 2018-05-05 08:55 languageModel_kneser-neydict.txt
文件 722950 2018-05-05 08:50 languageModel_kneser-neydict_old.txt
文件 9972 2018-06-07 10:03 languageModel_kneser-neyLM_train_backoff.py
文件 11528 2018-06-07 10:03 languageModel_kneser-neyLM_train_interpolation.py
文件 3029 2018-06-07 10:04 languageModel_kneser-neyNgram.py
文件 184397 2018-05-04 08:48 languageModel_kneser-ney est.trans
文件 50499426 2018-05-05 12:34 languageModel_kneser-neyTrain.trans
目录 0 2018-06-07 10:04 languageModel_kneser-ney
----------- --------- ---------- ----- ----
51951066 9
#!/usr/bin/python
#coding = utf-8
‘‘‘
This file achieves to deal the dictionary.
‘‘‘
f_out = open(‘dict.txt‘ ‘w‘ encoding = ‘utf-8‘)
with open(‘dict_old.txt‘ ‘r‘ encoding = ‘utf-8‘) as f_in:
lines = f_in.readlines()
for line in lines:
result = line.split(‘ /‘)[0]
f_out.write(result)
f_out.write(‘
‘)
f_out.close()
属性 大小 日期 时间 名称
----------- --------- ---------- ----- ----
文件 372 2018-06-07 10:03 languageModel_kneser-neydealDict.py
文件 519392 2018-05-05 08:55 languageModel_kneser-neydict.txt
文件 722950 2018-05-05 08:50 languageModel_kneser-neydict_old.txt
文件 9972 2018-06-07 10:03 languageModel_kneser-neyLM_train_backoff.py
文件 11528 2018-06-07 10:03 languageModel_kneser-neyLM_train_interpolation.py
文件 3029 2018-06-07 10:04 languageModel_kneser-neyNgram.py
文件 184397 2018-05-04 08:48 languageModel_kneser-ney est.trans
文件 50499426 2018-05-05 12:34 languageModel_kneser-neyTrain.trans
目录 0 2018-06-07 10:04 languageModel_kneser-ney
----------- --------- ---------- ----- ----
51951066 9
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件举报,一经查实,本站将立刻删除。
评论列表(条)