论文贡献记录
Extracting multiple-relations in one-pass with pre-trained transformers论文
贡献
A Novel Document-Level Relation Extraction Method Based on BERT and Entity Information论文
贡献
- 首先,我们提出了一种实体掩码方法(将每个不同实体用不同的special token替代),可以将实体的身份和类型信息引入模型.
。
- 提出了一个基于BERT的“one-pass”模型,该模型通过使用所提出的实体掩码方法来引入实体信息,并且所提出的模型在DocRed数据集上实现了最先进的性能。
DocRED: A Large-Scale Document-Level Relation Extraction Dataset论文
DocRED数据集特点
- DocRED包含5053个Wikipedia文档中注释的132375个实体和56354个关系事实,使其成为最大的带有人类注释的文档级RE数据集。
- 由于DocRED中至少40.7%的关系事实只能从多个句子中提取,因此DocRED要求阅读文档中的多个句子以识别实体并通过综合文档的所有信息来推断它们之间的关系。 这将DocRED与那些句子级RE数据集区分开来。
- 我们还提供了大规模的远程监督数据,以支持弱监督的RE研究。
人工注释数据收集步骤
- 为Wikipedia文档生成远程监督的注释。
- 注释文档中的所有命名实体和共指信息。
- 将命名实体链接到Wikidata项目。
- 标注关系和相应的支持证据。
步骤2和4需要按照下面的步骤迭代处理3次:
- 使用命名实体识别(NER)模型来生成命名实体,或使用远程监督和RE模型推荐关系。
- 来生成命名实体。
- 查看并进一步修改第二遍的注释结果,以获得更好的准确性和一致性。
为了确保注释器训练有素,采用了有原则的训练程序,并且注释器必须在对数据集进行注释之前通过测试任务。 并且只有经过精心选择的有经验的注释器才有资格进行第三遍注释。
- 本文作者: 程序猪-渔枫
- 本文链接: https://over-shine.github.io/2021/05/17/论文贡献记录/
- 版权声明: 本博客所有文章除特别声明外,均采用 MIT 许可协议。转载请注明出处!