项目基本情况Basic information of the project
本项目结合自然语言处理相关技术、统计理论、深度学习方法等,重点研究了面向互联网大数据的事件挖掘中的几个关键问题,包括事件识别与摘要、文本蕴含识别、人物影响力分析以及离群事件检测与识别等,旨在结合事件抽取、时序分析、数据挖掘等技术,获得事件中的关键信息、重要人物、时间序列,分析事件的关键转折点、演化过程等。
(1) 在事件识别与摘要方面,提出了一种新的end-to-end深度学习框架,通过联合学习BLSTM和多个特征进行事件检测和摘要。首先,利用语言工具提取词汇特征,利用Biterm主题模型提取主题特征,利用graph-of-words和k-退化度提取权重特征。然后将所有特征附加到基于BLSTM的联合模型中。在Twitter上对47个地震事件数据集的实验表明,该框架的性能明显优于现有的事件检测模型,主题加权最小代价( )和ROUGE-1分别达到45.11和21.62。
(2) 在文本蕴含识别方面,首先提出了基于有监督和文本特征的词对关系分类模型,将词对关系分类的结果,也就是在各个类别的分布作为词对向量表示;其次,借助成熟的知识库向量化工具TransR对WordNet中的知识向量化,得到的实体向量作为具有知识的词表示,实体之间的差值作为词对表示;最后又专门针对文本蕴含中的反义词和同义词,构建反义词向量,得到新的词向量,将两个词向量的乘积作为表示反义和同义程度的表示。在构建这三种词对向量表示中,均有相应的数据集证明其表示的可用性,同时证明了相比预训练词向量在词对关系上的优越性。
(3) 在人物影响力分析方面,基于主题事件数据流突发检测的方法,以人物特征为数据流,研究在主题事件发展过程中人物影响力的度量方法,并对影响力进行追踪和关键时间段检测。构建的模型使用物理中的矢量概念来对影响力进行抽象,对人物所处的网络空间领域进行分类,提出以矢量表示人物影响力,影响力方向为其所指向的域,人物影响力相对较强的关键时期被定义为具有增长趋势的动量时间区间。影响力的大小和变化趋势由股市中的MACD分析技术指标与人物的 属性结合后得到的 和 来综合评估,指标参数可根据实际情况进行灵活调整。通过对微博平台上的三个热点主题事件进行实验,模型的准确性和有效性得到了科学验证。
(4) 在离群事件检测与识别方面,提出基于增强式模糊化过程来实现传统假设检验中阈值和拒绝域的确定,解决数据分布和控制限确定的局限性;模糊集理论能够为处理过程提供很好的鲁棒性,为"正常"和"异常"提供更好的边界特征;引入最小化模糊度原则,优化模糊化过程中的参数,相应参数不再需要预先设定。该方法以无监督的方式实现,解决训练数据的问题,并使得算法具有很好的可移植性和可扩展性,一系列的实验验证了算法的实用性和有效性。
(5) 在实体关系识别与分类方面,重点研究了远程监督关系抽取方法。关系抽取旨在从半结构的文本中抽取实体关系,是构建知识图谱的重要基础,也是信息抽取的一项子任务。远程监督关系抽取利用外部知识库自动标注数据集,极大地减少了关系抽取对人工标注数据的依赖,但同时也带来了噪声问题。本研究从数据处理的角度阐述了目前远程监督关系抽取模型主要的代表方法,主要是针对错误标注的处理方法、长尾类数据的处理方法和实体关系重叠的处理方法,最后对目前远程监督的发展进行了未来展望。
管理团队与技术团队Management team and technical team
哈尔滨商业大学
效益分析Benefit analysis
该项目为储备库项目资源,暂无效益分析内容。