模型训练和预测
多关系抽取模型训练
1 2 3 4 5 6 7 8 9 10 11 12 13
| python run_multiple_relations_extraction.py \ --task_name=SKE_2019 \ --do_train=true \ --do_eval=false \ --data_dir=bin/standard_format_data \ --vocab_file=pretrained_model/chinese_L-12_H-768_A-12/vocab.txt \ --bert_config_file=pretrained_model/chinese_L-12_H-768_A-12/bert_config.json \ --init_checkpoint=pretrained_model/chinese_L-12_H-768_A-12/bert_model.ckpt \ --max_seq_length=128 \ --train_batch_size=32 \ --learning_rate=2e-5 \ --num_train_epochs=6.0 \ --output_dir=./output/multiple_relations_model/epochs6/
|
关系分类模型预测
1 2 3 4 5 6 7 8 9
| python run_multiple_relations_extraction.py \ --task_name=SKE_2019 \ --do_predict=true \ --data_dir=bin/standard_format_data \ --vocab_file=pretrained_model/chinese_L-12_H-768_A-12/vocab.txt \ --bert_config_file=pretrained_model/chinese_L-12_H-768_A-12/bert_config.json \ --init_checkpoint=output/multiple_relations_model/epochs6/model.ckpt-2000 \ --max_seq_length=128 \ --output_dir=./infer_out/epochs6/ckpt2000
|
实践
数据变换过程
raw_data 原始数据
删除了 raw_data 中 “postag”
1 2
| {"text": "《逐风行》是百度文学旗下纵横中文网签约作家清水秋风创作的一部东方玄幻小说,小说已于2014-04-28正式发布", "spo_list": [{"predicate": "连载网站", "object_type": "网站", "subject_type": "网络小说", "object": "纵横中文网", "subject": "逐风行"}, {"predicate": "作者", "object_type": "人物", "subject_type": "图书作品", "object": "清水秋风", "subject": "逐风行"}]}
|
standard_format_data 格式化后的数据
把中文text数据按照字为单位分开,然后根据spo_list内容,使用BIO格式标注实体数据,使用关系的位置和值来标注实体之间关系。具体来说,predicte value 表示该实体头对应的整个实含有的关系,predicate location 表示与当前实体发生关系实体的头的位置。
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55
| +-------+-------+------------+----------------------+--------------------+ | index | token | label | predicate value | predicate location | +-------+-------+------------+----------------------+--------------------+ | 0 | 《 | O | ['N'] | [0] | | 1 | 逐 | B-图书作品 | ['连载网站', '作者'] | [12, 21] | | 2 | 风 | I-图书作品 | ['N'] | [2] | | 3 | 行 | I-图书作品 | ['N'] | [3] | | 4 | 》 | O | ['N'] | [4] | | 5 | 是 | O | ['N'] | [5] | | 6 | 百 | O | ['N'] | [6] | | 7 | 度 | O | ['N'] | [7] | | 8 | 文 | O | ['N'] | [8] | | 9 | 学 | O | ['N'] | [9] | | 10 | 旗 | O | ['N'] | [10] | | 11 | 下 | O | ['N'] | [11] | | 12 | 纵 | B-网站 | ['N'] | [12] | | 13 | 横 | I-网站 | ['N'] | [13] | | 14 | 中 | I-网站 | ['N'] | [14] | | 15 | 文 | I-网站 | ['N'] | [15] | | 16 | 网 | I-网站 | ['N'] | [16] | | 17 | 签 | O | ['N'] | [17] | | 18 | 约 | O | ['N'] | [18] | | 19 | 作 | O | ['N'] | [19] | | 20 | 家 | O | ['N'] | [20] | | 21 | 清 | B-人物 | ['N'] | [21] | | 22 | 水 | I-人物 | ['N'] | [22] | | 23 | 秋 | I-人物 | ['N'] | [23] | | 24 | 风 | I-人物 | ['N'] | [24] | | 25 | 创 | O | ['N'] | [25] | | 26 | 作 | O | ['N'] | [26] | | 27 | 的 | O | ['N'] | [27] | | 28 | 一 | O | ['N'] | [28] | | 29 | 部 | O | ['N'] | [29] | | 30 | 东 | O | ['N'] | [30] | | 31 | 方 | O | ['N'] | [31] | | 32 | 玄 | O | ['N'] | [32] | | 33 | 幻 | O | ['N'] | [33] | | 34 | 小 | O | ['N'] | [34] | | 35 | 说 | O | ['N'] | [35] | | 36 | , | O | ['N'] | [36] | | 37 | 小 | O | ['N'] | [37] | | 38 | 说 | O | ['N'] | [38] | | 39 | 已 | O | ['N'] | [39] | | 40 | 于 | O | ['N'] | [40] | | 41 | 2014 | O | ['N'] | [41] | | 42 | - | O | ['N'] | [42] | | 43 | 04 | O | ['N'] | [43] | | 44 | - | O | ['N'] | [44] | | 45 | 28 | O | ['N'] | [45] | | 46 | 正 | O | ['N'] | [46] | | 47 | 式 | O | ['N'] | [47] | | 48 | 发 | O | ['N'] | [48] | | 49 | 布 | O | ['N'] | [49] | | | | | | | +-------+-------+------------+----------------------+--------------------+
|
input model data