CausalKnowledgeBase

CausalKnowledgeBase, causal knowledge base including causal pairs extracted from web text using the methods like PMI, Collocation。基于网络文本的因果知识库项目,采用PMI,搭配抽取等方法,形成因果对频繁集。
项目地址:https://github.com/liuhuanyong/CausalCollocation

项目介绍

因果关系是语言逻辑关系中重要的组成部分,通过挖掘因果关系,可以在多个方向上产生作用,如对词作embedding,基于因果关系的预测等。目前,学术界中关于因果关系的抽取主要分成实体因果关系抽取和事件因果关系抽取,两者分别以实体和事件作为因果单元,实体大多为名词,事件大多为单个动词,这方面的工作可以参考semeval以及causalbank的相关工作。
因果单元的确定是因果关系抽取中的根本问题,不同的因果单元所能应用的场景会有着较大的差异。名词性的实体单元事件性太差,单一动词性单元语义过于抽象,在实际应用中会带来很多的噪声。
在这方面,我主要完成了以下工作:
1)CausalityEventExtraction项目, https://github.com/liuhuanyong/CausalityEventExtraction ,该项目从语言学的角度,给出了因果关系模式集,基于该模式集,可以初步抽取出因果描述单元,可以作为因果事件抽取的前期工作。
2)EventPredictBasedOnEG项目, https://github.com/liuhuanyong/EventPredictBasedOnEG ,该项目从建成因果事理图谱的基础上,给出了一个因果查询api,用于未来事件预测的工作,可作为一个应用环节。
然而,以上两个项目都是从宽泛意义上的事件上来做的,在粒度上介于词语句子之间,泛化能力较差,而且在事件的概率转移上,一直无法得到很好的解决。我在想,是否能够讲搭配抽取的方法引入到因果知识库的构建当中,因为在之前,看到一个在英文因果对抽取的工作(http://www.cs.sjtu.edu.cn/~kzhu/papers/kzhu-copa.pdf), 该工作从Bing网页快照中提取的可能的因果关系对,形成7千万的因果关系对,每一行有三个元素,分别为原因,结果和频率。从下载数据来看,数据很乱,暂时想不出来有什么工业用处。因此,我想到因果频繁项集的概念,能否根据因果对的共现信息,通过计算因果对之间的搭配,从而形成以事件性词语(名词、动词、形容词)的因果搭配知识库。

项目的技术路线

1、通过文本采集的方法,采集大规模文本数据集
2、通过执行CausalityEventExtraction项目项目,得到大规模的因果描述句
3、基于CausalityEventExtraction的结果,分别对原因描述部分和结果描述部分进行分词,词性标注,命名实体识别等预处理操作
4、对原因描述部分和结果描述部分进行词性过滤处理,仅保留分词结果中的名词、动词、形容词,形成原因词列表和结果词列表
5、以原因词列表为中心,统计该词语结果词列表中的词的pmi值,pmi值的计算公式:log(p(x,y)/(p(x)*p(y)))
6、按照pmi值高低,对每个原因词的因果搭配信息写入文件,设置topn=200,只保留每个词的前200个频繁结果词。

项目脚本

结果文件为:data/causal_collocation.json

项目运行结果

1、搭配文件:pmi_word有3项内容构成,分别为结果词,结果词性以及结果词语原因词之间的pmi值,用于衡量两者之间关联强度。

{ "_id" : ObjectId("5cbd878b831b975b8da3d6cc"), 
"word" : "自杀", 
"word_tag" : "v",
"pmi_words" : [
[ "留医", "v", 21.868029795027585 ], 
[ "苦闷", "a", 19.546101700140223 ], 
[ "干什么", "v", 19.28306729430643 ],
[ "杨进", "v", 19.28306729430643 ], 
[ "掀开", "v", 19.259220552352062 ],
[ "抒发", "v", 18.546101700140223 ], 
[ "口诛笔伐", "i", 18.365529454498404 ],
[ "同情", "v", 18.28306729430643 ], 
[ "抢救", "v", 18.115467345810362 ], 
[ "思索", "v", 17.898403444071104 ], 
[ "减肥", "v", 17.67163258222408 ], 
[ "想起", "v", 17.452992295748743 ], 
[ "赞扬", "v", 17.28306729430643 ]  }

2、因果搭配举例:

原因词 结果词
熬夜_v 昏倒_v;交感_v;干涩_a;脱发_v;提神_v;上火_v;超负荷_b;泌尿_v;发烧_v;有心_v;猝死_v;发作_v;睡眠_v;慢性_b;不适_a;脱落_v;诱发_v;急性_b;点燃_v;困扰_v;比赛_v;突发_v;不好_a;感染_v;预防_v;调试_v;造成_v;消耗_v;到位_v;赚钱_v;容易_a;推广_v;健康_a;及时_a;准备_v;处于_v;成为_v;严重_a;工作_v;可以_v;达到_v;出现_v;减少_v;影响_v;存在_v
出轨_v 失恋_v;召唤_v;停播_v;原谅_v;出轨_v;笼络_v;非常_b;起火_v;不知_v;叫停_v;厉害_a;紧急_a;攻击_v;爆炸_v;受伤_v;比如_v;知道_v;造成_v;制定_v;影视_b;担心_v;生活_v;死亡_v;有利于_v;设计_v;一般_a;合作_v;选择_v;没有_v;维持_v;下降_v;反弹_v;面临_v;可以_v
恋爱_v 叹老_v;谈婚_v;论嫁_v;求婚_v;恋爱_v;浪漫_a;打断_v;聊天_v;结婚_v;诱导_v;谈话_v;掌控_v;认真_a;拍摄_v;为由_v;感染_v;吸收_v;下去_v;上网_v;可谓_v;出来_v;担心_v;涌入_v;庞大_a;就是_v;下来_v;放松_v;赚钱_v;鼓励_v;采取_v;私募_v;影视_b;创业_v;失败_v;应该_v;所有_b;发生_v;开始_v;需要_v;获得_v;投资_v
挫败_v 怒斥_v;迷惘_a;渺茫_a;无情_a;出击_v;煎熬_v;简易_a;源于_v;渴望_v;择机_v;自杀_v;阻碍_v;旅行_v;做好_v;付费_v;中小_b;兴起_v;感到_v;爆炸_v;紧急_a;巩固_v;挂牌_v;打破_v;获取_v;主动_a;垄断_v;并购_v;采取_v;成功_a;民营_b;面临_v;准备_v;开始_v;迅速_a;下行_v;亏损_v;调整_v;达到_v;提高_v
沉迷_v 挂科_v;有的视_v;自闭_v;会考_v;斥骂_v;威逼_v;冷漠_a;劝退_v;利诱_v;惨败_v;找上门_v;及格_v;牵动_v;消解_v;沉迷_v;赌博_v;象征_v;疲劳_a;网游_v;批评_v;耽误_v;炒股_v;思考_v;虚拟_v;危险_a;学习_v;遭到_v;娱乐_v;联系_v;真实_a;面对_v;分享_v;大额_b;防止_v;教育_v;担忧_v;全面_a;缺乏_v;丧失_v;安全_a;炒作_v;贸易_v;转移_v;陷入_v;健康_a;巨大_a;连续_a;造成_v;保证_v;可能_v;损失_v;保持_v;带来_v;调整_v;亏损_v;出现_v;存在_v;持续_v;经营_v;下降_v
肥胖_a 顺手作_v;返流_v;发胖_v;肥胖_a;补脑_v;摄取_v;疼痛_a;减肥_v;常见_a;沦为_v;慢性_b;临床_v;治疗_v;危害_v;发达国家_i;集聚_v;诊断_v;运动_v;迫切_a;蔓延_v;培养_v;现有_v;限制_v;改善_v;增多_v;一定_b;体现_v;研究_v;配套_v;容易_a;有利于_v;一般_a;健康_a;迅速_a;高于_v;带来_v;导致_v;达到_v;需要_v;管理_v;发生_v;减少_v;出现_v
赌博_v 妻离子散_i;涉恶_v;反赌_v;金立_v;参赌_v;赌博_v;清查_v;失范_v;涉黑_v;沉迷_v;贱卖_v;自杀_v;贪污_v;抹黑_v;受贿_v;不能自拔_i;洗钱_v;快乐_a;散发_v;乃是_v;屹立_v;逃税_v;斩断_v;离婚_v;并入_v;好像_v;拖欠_v;不知不觉_i;外出_v;整治_v;企图_v;滋生_v;对赌_v;暴富_v;犯罪_v;侦查_v;不明_v;破灭_v;稀释_v;最高_a;发动_v;禁止_v;合伙_v;在于_v;流向_v;意味着_v;带有_v;削弱_v;混乱_a;失去_v;扶贫_v;破产_v;主动_a;证券化_v;必要_a;崛起_v;走向_v;遭到_v;涉及_v;断裂_v;遵循_v;来临_v;立案_v;缓解_v;疯狂_a;从事_v;连续_a;失败_v;开放_v;规避_v;损害_v;监测_v;充满_v;倾向_v;约定_v;想象_v;出来_v;合法_a;可能_v;加大_v;困难_a;享受_v;民事_b;明确_a;保障_v;萎缩_v;监管_v;下跌_v;陷入_v;签订_v;极大_a;期待_v;达到_v;严重_a;稳定_a;出现_v;可以_v;形成_v;获得_v;吸引_v
打架_v 挑事_v;调皮_a;抢客_v;指向_v;同一个_b;罢工_v;头疼_a;误解_v;实属_v;热闹_a;扰乱_v;同样_b;批评_v;罕见_a;超预期_b;把握_v;合并_v;围绕_v;冲突_v;绝对_a;基本_a;矛盾_a;面对_v;争夺_v;剧烈_a;制定_v;国产_b;监管_v;担心_v;强烈_a;属于_v;控制_v;约定_v;损失_v;无法_v;存在_v;持续_v;出现_v
抢劫_v 春假_v;闲逛_v;身故_v;抢劫_v;逮捕_v;作案_v;谋利_v;取现_v;诈骗_v;非正常_b;追究_v;死亡_v;还是_v;出去_v;知道_v;频繁_a;遭遇_v;缺乏_v;严重_a;不同_a;带来_v;造成_v;损失_v
枪击_v 发誓_v;不幸_a;丧生_v;遇难_v;返回_v;恐慌_a;受伤_v;死亡_v;消退_v;伤亡_v;前往_v;损坏_v;犯罪_v;爆炸_v;参加_v;冲突_v;延误_v;修改_v;倾向_v;执行_v;凸显_v;彻底_a;担心_v;帮助_v;能否_v;受损_v;上升_v;取消_v;受到_v;重大_a;回落_v;进入_v;完成_v;明显_a
强奸_v 刑拘_v;抢劫_v;命名_v;身亡_v;对待_v;撤销_v;尴尬_a;真正_b;频繁_a;遭遇_v;处罚_v;研发_v;受到_v
贪污_v 违纪_v;毁谤_v;撤职_v;非同寻常_i;走后门_i;无助_a;调离_v;虾夷_v;降职_v;揭发_v;检控_v;公诉_v;亏空_v;无辜_a;违法_v;空穴来风_i;渎职_v;岌岌可危_i;受贿_v;露出_v;指控_v;舞弊_v;掏空_v;造成_v;犯罪_v;民办_b;反腐_v;举报_v;严厉_a;困难重重_i;抵抗_v;查询_v;腐败_a;巨额_b;挪用_v;代表_v;涉案_v;报道_v;撤销_v;叫停_v;筹措_v;倾斜_v;实践_v;垄断_v;低下_a;临时_b;混改_v;关键_a;思考_v;教育_v;普通_a;查封_v;愿意_v;库存_v;公共_b;自主_v;调查_v;中小_b;变更_v;解决_v;输送_v;流失_v;遭到_v;国有_v;并非_v;上市_v;要求_v;对外_v;购买_v;不及_v;获利_v;严重_a;处罚_v;积极_a;重视_v;亏损_v;负面_b;全面_a;建设_v;监管_v;改革_v;研发_v;构成_v;加大_v;工作_v;竞争_v;成为_v;减少_v;重大_a;影响_v;出现_v;一定_b;存在_v;下降_v
增持_v 汇金_i;反跌_v;增次_v;定投式_b;寿持_v;续增_v;举牌股_v;持工_v;阿合计_v;五牛亥尊_i;停手_v;知晓其_v;如愿以偿_i;领薪_v;尽心_a;走好_v;安邦系_v;牵强_i;狂风暴雨_i;富立_v;监发_v;拔葱_v;张开_v;吃官司_v;凸匹_v;挤出_v;遭疑_v;居首_v;追货_v;高歌猛进_v;围剿_v;炒新_v;悬疑_v;免予_v;让位_v;形不成_v;初始投资_v;雄起_v;保发_v;黯然失色_i;谋取_v;保增_v;消停_v;染指_v;增持_v;征询_v;邀约_v;久违_v;在任_v;详式_b;迷信_v;匪夷所思_i;分布_v;狙击_v;吐槽_v;可想而知_i;更胜一筹_i;添砖加瓦_i;欧债_v;紧逼_v;跌动_v;跃居_v;易主_v;潜水_v;留任_v;改正_v;斥资_v;普涨_v;力保_v;纾解_v;抽资_v;嘲讽_v;稳定_v;捍卫_v;限定_v;议论_v;开山_v;等值_v;出于_v;坐实_v;更替_v;平息_v;托底_a;力挺_v;浮盈_v;好奇_a;自救_v;强平_v;首创_v;拟以_v;井喷_v;掩护_v;趋同_v;责令_v;顺延_v;实施_v;稳住_v;典型_a;热捧_v;濒临_v

总结

1、本项目从名词、动词、形容词作为事件单元出发,使用pmi和高频共现的方式,完成了因果频繁集的提取工作,形成频繁因果搭配知识库。
2、频繁因果搭配知识库能够用于关键词扩展,词向量表征wordembedding等应用。
3、频繁因果搭配知识库中原因词和结果词之间的pmi值是否可以充当因果关系的状态转移概率,这个问题值得我们考虑以及实验。
4、频繁因果搭配知识库还可以有多种提取和构建方式,后续有更多想法可以再进行实验。

如有自然语言处理、知识图谱、事理图谱、社会计算、语言资源建设等问题或合作,请联系我:
邮箱:lhy_in_blcu@126.com
csdn:https://blog.csdn.net/lhy2014
我的自然语言处理项目: https://liuhuanyong.github.io
刘焕勇,中国科学院软件研究所