首页 > 技术交易 > 科技成果
机器翻译中大规模异类特征的迁移学习
发布时间: 2023-12-08 浏览量:29
  • 交易方式:面议
  • 联系电话:86390140
  • 单位名称或姓名:李笑宇
  • 产业领域:数字经济
  • 成果类型:
项目基本情况Basic information of the project
本项目除了考虑传统的文本到文本的生成外,还考虑了更加复杂的数据到文本的生成和语义到文本的生成。上述每项技术均极具挑战性,在自然语言处理与人工智能领域均有相当多的前沿研究,近几年业界已产生了若干具有国际影响力的成果与应用。最值得一提的是,美联社开始采用新闻写作软件自动撰写新闻稿件来报道公司业绩,这大大减少了记者的工作量。美国洛杉矶时报也有一种用来撰写突发新闻的应用软件。美国已有多家公司能够提供新闻写作软件与服务,比如美国“自动洞察力”公司已采用“语言专家”软件撰写了3亿篇报道,包括橄榄球、财经报道。这些进展标志着文本自动生成不再属于纸上谈兵的技术,而是已经对人类工作和生活产生了重大影响。 本项目围绕文本生成若干关键问题展开研究,使用了两种重要的手段,机器学习算法(围绕训练和解码算法的准确性和高效性)和语言学知识(围绕自然语言四个特性:内涵性,模糊性,形态性,多样性),以生成文本的忠实度和流畅度为目标。从机器学习角度来讲:应用了非参贝叶斯模型解决了对齐和短语归约过程中错误传播的问题;使用深度学习模型解决了原有模型的不准确和多个管道模型不统一的问题;使用集束算法解决了搜索空间不准确问题;使用剪枝策略解决了自然语言处理搜索是NP难问题;使用Log-linear模型解决了特征融合的问题;使用评价指标期望最大的训练目标,解决了训练和评价的目标不一致问题;使用将来代价的估计,解决了搜索不准确的问题;使用了自左向右和自底向上的搜索策略,解决了搜索策略多样性的问题。从语言学知识角度来讲:使用词义信息,在文本的融合和生成过程中考虑词义;使用音节信息,考虑到音节以生成更好的名实体;使用短语语义信息和更加精确的短语归约方法,在生成短语的过程中更好考虑短语语义;使用句法信息,在层次化文法和括号转录文法间平衡两者的好处;使用词形和句法联合信息,使得生成的文本在词形和语法结构上互相影响。 文本生成是自然语言处理中一类十分重要且有很多应用场景的任务。在具体应用中,文本到文本可以应用在翻译,对话,问答,文本综述,句子压缩,文本融合中;数据到文本的生成可以应用到自动写诗,写文章,造句子中;语义到文本的生成可以应用到机器对话生成中。本项目的主要研究内容如下: (1)对于文本到文本的生成,从词的音节,词义角度生成文本的研究。 (2)对于文本到文本的生成,从短语,句法,语义角度生成文本的研究。 (3)对于数据到文本生成,文本的数据表示形式词袋生成文本的研究。 (4)对于语义到文本生成,文本的语义表示形式抽象语义图生成文本的研究。
管理团队与技术团队Management team and technical team
哈尔滨理工大学
效益分析Benefit analysis
该项目为储备库项目资源,暂无效益分析内容。
成果推荐Result recommendation