转载:
https://zhuanlan.zhihu.com/p/40806718?utm_source=ZHShareTargetIDMore
几个现成的工具包:
1. https://github.com/shibing624/pycorrector pycorrector
简介:考虑了音似、形似错字(或变体字)纠正,可用于中文拼音、笔画输入法的错误纠正,能够给出给出出错位置。
语言模型:
Kenlm(统计语言模型工具)
RNNLM(TensorFlow、PaddlePaddle均有实现栈式双向LSTM的语言模型)
代码:
import pycorrector
corrected_sent, detail = pycorrector.correct(‘少先队员因该为老人让坐’)
print(corrected_sent, detail)
单词、短句效果:9/13 效果尚可
速度:0.366050 all, 0.028157692 avg ;
可扩展性:词典可扩展,可使用自己的语料进行训练,该repo使用的是人民日报数据。扩展性强。
测试样本效果:‘感帽了’,‘你儿字今年几岁了’, ‘少先队员因该为老人让坐’,‘随然今天很热’,‘传然给我’,‘呕土不止’,‘哈蜜瓜’,‘广州黄浦’,‘在 上 上面 上面 那 什么 啊’,‘呃 。 呃 ,啊,那用户名称是叫什么呢?’, ‘我生病了,咳数了好几天’, ‘对京东新人度大打折扣’,‘我想买哥苹果手机’
2. https://github.com/ccheng16/correction 10 months ago
简介:
使用语言模型计算句子或序列的合理性
bigram, trigram, 4-gram 结合,并对每个字的分数求平均以平滑每个字的得分
根据Median Absolute Deviation算出outlier分数,并结合jieba分词结果确定需要修改的范围
根据形近字、音近字构成的混淆集合列出候选字,并对需要修改的范围逐字改正
句子中的错误会使分词结果更加细碎,结合替换字之后的分词结果确定需要改正的字
探测句末语气词,如有错误直接改正
特点:
训练的语言模型很多,根据介绍看,整体比较完善,看起来高大上。不过code跑不起来,作者没回应—–后面再改一下作者代码,看看能否跑起来。
3. https://github.com/PengheLiu/Cn_Speck_Checker 2 years ago
简介:
针对医学数据训练出来的,基于编辑距离,可自行训练–效果一般,统计词频和共现信息,不太完善,返回大量candidates
特点:
人们通常越往后字打错的可能越大,因而可以考虑每个字在单词中的位置给予一定权重,这中方法有助于改进上面的第一种“传然”- "虽然"的情况;
考虑拼音的重要性,对汉语来讲,通常人们打错时拼音是拼对的,只是选择时候选择错了,因而对候选词也可以优先选择同拼音的字。
单词、短句效果:1/13 效果差,因为训练语料是医学文章
速度:None
可扩展性:词典+模型。扩展性还可以。
测试样本效果:‘感帽了’,‘你儿字今年几岁了’, ‘少先队员因该为老人让坐’,‘随然今天很热’,‘传然给我’,‘呕土不止’,‘哈蜜瓜’,‘广州黄浦’,‘在 上 上面 上面 那 什么 啊’,‘呃 。 呃 ,啊,那用户名称是叫什么呢?’, ‘我生病了,咳数了好几天’, ‘对京东新人度大打折扣’,‘我想买哥苹果手机’
4. proofreadv1 – 效果一般,主要用于搜索引擎中的搜索关键词的别字纠错 5 years ago
词频字典+bi-gram
https://github.com/apanly/proofreadv1
模型比较老旧,不考虑
5. https://github.com/taozhijiang/chinese_correct_wsd 3 years ago
京东客服机器人语料做的中文纠错–更接近我们的应用场景,主要解决同音自动纠错问
题,比如:
对京东新人度大打折扣 – > 对京东信任度大打折扣
我想买哥苹果手机 纠正句:我想买个苹果手机
但代码多年未更新,目前跑不起来。
6. https://github.com/beyondacm/Autochecker4Chinese 9 months ago
original sentence:感帽,随然,传然,呕土
corrected sentence:感冒,虽然,传染,呕吐
original sentence:对京东新人度大打折扣,我想买哥苹果手机
corrected sentence:对京东新人度大打折扣,我国买卖苹果手机
单词、短句效果:5/13 效果差
速度:2.860311 all , 0.220023 avg; with print
可扩展性:词典可扩展,不使用自己的语料进行训练。扩展性一般。
测试样本效果:‘感帽了’,‘你儿字今年几岁了’, ‘少先队员因该为老人让坐’,‘随然今天很热’,‘传然给我’,‘呕土不止’,‘哈蜜瓜’,‘广州黄浦’,‘在 上 上面 上面 那 什么 啊’,‘呃 。 呃 ,啊,那用户名称是叫什么呢?’, ‘我生病了,咳数了好几天’, ‘对京东新人度大打折扣’,‘我想买哥苹果手机’
7. https://github.com/SeanLee97/xmnlp 3-4 months ago
nlp工具包,包含分词、情感分析,没有专注于错别字纠正,效果较差
单词、短句效果:3/13 效果差
速度:2.860311 all , 0.220023 avg; without print: 0:00:00.000017 all
可扩展性:既没发现词典、也没发现模型。扩展性较差。
测试样本效果:‘感帽了’,‘你儿字今年几岁了’, ‘少先队员因该为老人让坐’,‘随然今天很热’,‘传然给我’,‘呕土不止’,‘哈蜜瓜’,‘广州黄浦’,‘在 上 上面 上面 那 什么 啊’,‘呃 。 呃 ,啊,那用户名称是叫什么呢?’, ‘我生病了,咳数了好几天’, ‘对京东新人度大打折扣’,‘我想买哥苹果手机’