科技成果

阅读数: 141

成果名称: 面向短文本的知识自动发现关键技术研究

成果登记号: 9612024J0032

第一完成单位: 延安大学

联 系 人: 胡泷艺

成果类型: 基础理论

成果体现形式 : 论文

应用行业: 信息传输、软件和信息技术服务业

学科分类: 知识工程(包括专家系统)(520.2070)

完成人: 马乐荣,宋丹丹,高兴慧,刘哲,曹军梅

成果简介:

在线知识库对于知识的整理与有效利用具有重要意义。首先,在线知识库己经成为人们日常获取实体知识的重要渠道;其次,在线百科知识库为知识图谱、问答系统、机器翻译、实体搜索、推荐、自然语言处理等应用提供数据支持;此外,在线百科知识库对于信息发布与舆论引导具有潜在作用。传统的知识库更新依靠人工编辑,导致内容严重滞后的问题,使得在线百科知识库的自动更新成为研究热点。随着大数据时代的到来,特别是即时通讯与社交媒体迅速发展,产生了不可预计增长速度的大量短文本数据,这些大数据中蕴含着大量知识,成为更新知识库的重要知识来源。但是,由于碎片化文本内容少、噪声多、表述多样、语法不规范,给自动更新知识库实体内容带来很大挑战。

该项目聚焦基于短文本的在线知识库的自动更新关键技术,研究 1)面向实体的短文本可索引内容识别方法,2)实体-短文本相关性分析方法,3)面向实体的聚合短文本属性的自动抽取算法。从而实现基于海量、实时、多样的短文本进行知识库知识的自动更新。

该项目实施以来,共发表相关学术论文20余篇,其中SCI检索5篇,EI检索10篇,出版学术专著1部,申请发明专利3件,国际会议论文5篇。项目探究了知识库自动更新的可行性和有效性,分别从数据获取、算法模型、原型系统等方面给出解决方案,为丰富知识库的知识更新提供了思路,具有重要意义。