(12)发明专利申请
(10)申请公布号 CN 114153982 A(43)申请公布日 2022.03.08
(21)申请号 202111320449.2(22)申请日 2021.11.09
(71)申请人 浙江师范大学
地址 321004 浙江省金华市迎宾大道688号(72)发明人 黄昌勤 朱佳 林志豪
(74)专利代理机构 广州嘉权专利商标事务所有
限公司 44205
代理人 黎扬鹏(51)Int.Cl.
G06F 16/36(2019.01)G06Q 50/20(2012.01)
权利要求书2页 说明书9页 附图5页
(54)发明名称
联邦教育知识图谱补全方法、设备及介质(57)摘要
本发明公开了一种联邦教育知识图谱补全方法、设备及介质,摒弃中央服务器,保护教育数据持有方隐私数据,采用全局关系学习和本地节点感知强化建立教育知识图谱。该方法包括:将满足要求的节点分为训练节点和对抗委员会节点;获取对应全局教育知识图谱补全模型第一权重;对本地教育知识图谱补全模型训练,得到本地教育知识图谱补全模型第二权重;将第二权重传递到对抗委员会节点;上传第二权重至区块链;当区块链上第二权重个数大于预设值,触发全局教育知识图谱补全模型权重聚合,更新全局教育知识图谱补全模型权重,得到全局教育知识图谱补全模型第三权重;当全局教育知识图谱补全模型第三权重变化值小于阈值,保存全局教育知识图谱补全模型。
CN 114153982 ACN 114153982 A
权 利 要 求 书
1/2页
1.一种联邦教育知识图谱补全方法,其特征在于,包括以下步骤:
将全局教育知识图谱补全模型中满足预设要求的节点分为训练节点和对抗委员会节点;
获取所述训练节点对应所述全局教育知识图谱补全模型中的第一权重;根据所述第一权重对本地教育知识图谱补全模型训练,更新所述本地教育知识图谱补全模型的权重,得到所述本地教育知识图谱补全模型的第二权重;
将所述第二权重传递到所述对抗委员会节点;
确定所述对抗委员会节点对所述第二权重验证通过,将所述第二权重上传至区块链上;
确定所述区块链上的所述第二权重的个数大于预设值,触发所述全局教育知识图谱补
更新所述全局教育知识图谱补全模型的权重,得到所述全局教育全模型的权重聚合步骤,
知识图谱补全模型的第三权重;
将所述第三权重上传至所述区块链;
确定所述全局教育知识图谱补全模型的第三权重的变化值小于阈值,对所述全局教育知识图谱补全模型进行保存。
2.根据权利要求1所述的联邦教育知识图谱补全方法,其特征在于,所述方法还包括以下步骤:
确定所述全局教育知识图谱补全模型的第三权重变化值大于阈值,根据选举规则重新选举所述对抗委员会节点和所述训练节点,进行新一轮的训练。
3.根据权利要求1所述的联邦教育知识图谱补全方法,其特征在于,所述对抗委员会节点包括优先委员会节点和随机委员会节点,所述优先委员会节点和所述随机委员会节点采用相同的方式对训练节点的可信支持程度进行评分。
4.根据权利要求1所述的联邦教育知识图谱补全方法,其特征在于,所述将所述第二权重传递到所述对抗委员会节点,包括以下步骤:
将所述第二权重传递到外部储存器进行储存,所述外部储存器生成所述第二权重的权重地址;
将所述权重地址上传至所述对抗委员会节点,所述对抗委员会节点根据所述权重地址获取所述第二权重。
5.根据权利要求4所述的联邦教育知识图谱补全方法,其特征在于,所述外部储存器包括FastDFS,所述FastDFS用于存储所述第二权重,所述区块链存储所述FastDFA存储的所述第二权重的权重地址。
6.根据权利要求1所述的联邦教育知识图谱补全方法,其特征在于,所述区块链包括本地更新区块和全局模型区块,所述本地更新区块用于记录所述本地更新块的数量和本地教育知识图谱补全模型更新的权重地址,所述全局模型区块用于记录训练的轮次以及所述全局教育知识图谱补全模型的权重地址。
7.根据权利要求3所述的联邦教育知识图谱补全方法,其特征在于,所述对抗委员会节点包括优先委员会节点和随机委员会节点,所述优先委员会节点和所述随机委员会节点采用相同的方式对训练节点的可信支持程度进行评分,还包括:
所述优先委员会节点采用优先选举制度,选取所述优先委员会节点以可信支持得分优
2
CN 114153982 A
权 利 要 求 书
2/2页
先;
所述随机委员会节点从上一轮的训练节点随机抽取。8.根据权利要求1所述的联邦教育知识图谱补全方法,其特征在于,所述根据所述第一权重对本地教育知识图谱补全模型训练包括全局关系学习和本地节点感知强化;
所述全局关系学习通过联邦平均算法进行全局计算,训练全局教育知识图谱补全模型;
所述本地节点感知强化采用补全模型,并利用本地节点嵌入信息以及关系路径,进行本地节点感知个性化增强。
9.一种联邦教育知识图谱补全设备,其特征在于,包括:至少一个处理器;
用于存储至少一个程序;至少一个存储器,
当所述至少一个程序被所述至少一个处理器执行,使得至少一个所述处理器实现如权利要求1至8任一项所述的联邦教育知识图谱补全方法。
10.一种计算机存储介质,其中存储有处理器可执行的程序,其特征在于,所述处理器可执行的程序在由所述处理器执行时用于实现如权利要求1至8任一项所述的联邦教育知识图谱补全方法。
3
CN 114153982 A
说 明 书
联邦教育知识图谱补全方法、设备及介质
1/9页
技术领域
[0001]本发明涉及人工智能技术以及教育领域,尤其涉及一种联邦教育知识图谱补全方法、设备及介质。背景技术
[0002]随着人工智能的飞速发展,知识图谱技术逐渐成熟,被广泛应用于各种不同的领域,如推荐系统、搜索引擎、智能问答系统等。在教育领域中,很多机构都有各自的教育知识图谱,但由于数据隐私逐渐受到人们的重视,各方面的数据往往不能共享,这也导致了教育知识图谱的不完备问题尤为突出。相关技术中,通过联邦学习,能够联合若干个不同的机构构建更为完善的知识图谱。但是传统的联邦学习架构下,整个训练过程很大程度上取决于服务器的状态,容易出现模型训练过程被延迟的情况。另外,中心化的服务器可能使得教育数据持有方的隐私数据被获取,或者恶意地污染全局模型导致模型训练过程受到影响。发明内容
[0003]为了解决上述技术问题的至少之一,本发明提出联邦教育知识图谱补全方法、设备及介质,能够摒弃传统的第三方中央服务器,较好地保护教育数据持有方的隐私数据,并且能够有效降低全局模型被污染概率,从而建立较为完善的教育知识图谱。[0004]第一方面,本发明实施例提供了一种联邦教育知识图谱补全方法,包括以下步骤:[0005]将全局教育知识图谱补全模型中满足预设要求的节点分为训练节点和对抗委员会节点;
[0006]获取所述训练节点对应所述全局教育知识图谱补全模型中的第一权重;[0007]根据所述第一权重对本地教育知识图谱补全模型训练,更新所述本地教育知识图谱补全模型的权重,得到所述本地教育知识图谱补全模型的第二权重;[0008]将所述第二权重传递到所述对抗委员会节点;[0009]确定所述对抗委员会节点对所述第二权重验证通过,将所述第二权重上传至区块链上;[0010]确定所述区块链上的所述第二权重的个数大于预设值,触发所述全局教育知识图谱补全模型的权重聚合步骤,更新所述全局教育知识图谱补全模型的权重,得到所述全局教育知识图谱补全模型的第三权重;
[0011]将所述第三权重上传至所述区块链;[0012]确定所述全局教育知识图谱补全模型的第三权重的变化值小于阈值,对所述全局教育知识图谱补全模型进行保存。
[0013]根据本发明实施例的一种联邦教育知识图谱补全方法,至少具有如下有益效果:将全局教育知识图谱补全模型中满足预设要求的分为训练节点和对抗委员会节点,训练节点获取对应的全局教育知识图谱补全模型的权重后进行本地教育知识图谱补全模型训练,通过对抗委员会节点对本地教育知识图谱补全模型的权重进行验证打分,即对本地教育知
4
CN 114153982 A
说 明 书
2/9页
识图谱补全模型的第二权重进行验证打分。对抗委员会节点能够降低发生样本不均匀的情况,减少一些恶意节点的攻击次数以及减缓全局模型偏向某一类数据分布的节点,从而降低了全局教育知识图谱补全模型被污染的概率。根据对抗委员会节点验证结果,将第二权重上传至区块链上,通过区块链实现对传统的第三方中央服务器进行抛弃,利用区块链与联邦学习进行结合,模型训练过程中不需要可信的第三方服务器,提高了模型所属者的隐私数据不被获取的概率。当区块链上的第二权重的个数大于预设值,聚合第二权重,计算新的全局教育知识图谱补全模型,并上传至区块链。当全局教育知识图谱补全模型的权重变化小于阈值,则对该全局教育知识图谱补全模型进行保存,从而各个教育知识图谱持有方可以构建出一个较为完善的教育知识图谱。[0014]根据本发明的一些实施例,所述方法还包括以下步骤:[0015]确定所述全局教育知识图谱补全模型的第三权重变化值大于阈值,根据选举规则重新选举所述对抗委员会节点和所述训练节点,进行新一轮的训练。[0016]根据本发明的一些实施例,所述对抗委员会节点包括优先委员会节点和随机委员会节点,所述优先委员会节点和所述随机委员会节点采用相同的方式对训练节点的可信支持程度进行评分。
[0017]根据本发明的一些实施例,所述将所述第二权重传递到所述对抗委员会节点,包括以下步骤:
[0018]将所述第二权重传递到外部储存器进行储存,所述外部储存器生成所述第二权重的权重地址;
[0019]将所述权重地址上传至所述对抗委员会节点,所述对抗委员会节点根据所述权重地址获取所述第二权重。
[0020]根据本发明的一些实施例,所述外部储存器包括FastDFS,所述FastDFS用于存储所述第二权重,所述区块链存储所述FastDFA存储的所述第二权重的权重地址。[0021]根据本发明的一些实施例,所述区块链包括本地更新区块和全局模型区块,所述本地更新区块用于记录所述本地更新块的数量和本地教育知识图谱补全模型更新的权重地址,所述全局模型区块用于记录训练的轮次以及所述全局教育知识图谱补全模型的权重地址。
[0022]根据本发明的一些实施例,所述对抗委员会节点包括优先委员会节点和随机委员会节点,所述优先委员会节点和所述随机委员会节点采用相同的方式对训练节点的可信支持程度进行评分,还包括:
[0023]所述优先委员会节点采用优先选举制度,选取所述优先委员会节点以可信支持得分优先;
[0024]所述随机委员会节点从上一轮的训练节点随机抽取。[0025]根据本发明的一些实施例,所述根据所述第一权重对本地教育知识图谱补全模型训练包括全局关系学习和本地节点感知强化;
[0026]所述全局关系学习通过联邦平均算法进行全局计算,训练全局教育知识图谱补全模型;
[0027]所述本地节点感知强化采用补全模型,并利用本地节点嵌入信息以及关系路径,进行本地节点感知个性化增强。
5
CN 114153982 A[0028]
说 明 书
3/9页
第二方面,本发明实施例提供了一种联邦教育知识图谱补全设备,包括:
[0029]至少一个处理器;[0030]至少一个存储器,用于存储至少一个程序;
[0031]当所述至少一个程序被所述至少一个处理器执行,使得至少一个所述处理器实现如第一方面所述的联邦教育知识图谱补全方法。[0032]第三方面,本发明实施例还提供了一种计算机存储介质,其中存储有处理器可执行的程序,所述处理器可执行的程序在由所述处理器执行时用于实现如上述第一方面实施例所述的联邦教育知识图谱补全方法。
附图说明
[0033]图1是根据本发明实施例提供的一种联邦教育知识图谱补全方法方案架构图;[0034]图2是根据本发明实施例提供的一种联邦教育知识图谱补全方法流程框图;[0035]图3是根据本发明实施例提供的另一种联邦教育知识图谱补全方法流程框图;[0036]图4是根据本发明实施例提供的另一种联邦教育知识图谱补全方法流程框图;[0037]图5是根据本发明实施例提供的另一种联邦教育知识图谱补全方法流程框图;[0038]图6是根据本发明实施例提供的一种联邦教育知识图谱补全设备原理框图。具体实施方式
[0039]本申请实施例所描述的实施例不应视为对本申请的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。[0040]在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解“,一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。
[0041]除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本申请实施例的目的,不是旨在限制本申请。[0042]参照图1,本发明实施例提供的一种联邦教育知识图谱补全方法的方案架构包括:节点管理模块110、训练节点120、对抗委员会节点130、区块链140以及外部储存器150。具体地,在该架构下,节点管理模块110对各个全局教育知识图谱补全模型持有的节点进行管理,维护所有节点的可信支持得分表,并将全局教育知识图谱补全模型中满足预设要求的节点划分为训练节点120和对抗委员会节点130。训练节点120在训练本地教育知识图谱补全模型后,得到本地教育知识图谱补全模型的权重作为第二权重,将第二权重上传到外部储存器150上。同时,对抗委员会节点130对本地教育知识图谱补全的第二权重进行验证打分。当权重通过验证,则将其相应的权重地址打包到区块链140中。进一步地,当区块链140
更中更新的第二权重块数量达到预设值,则触发全局教育知识图谱补全模型的权重聚合,
新全局教育知识图谱补全的权重,得到全局教育知识图谱补全模型的第三权重,并将第三权重打包到区块链140中。通过区块链140的设置,摒弃了传统的第三方中央服务器的使用,能够有效的保护模型所属者的隐私数据。同时,通过对抗委员会节点130对本地教育知识图谱补全模型的第二权重进行验证,能够有效降低全局教育知识图谱补全模型被污染的概
6
CN 114153982 A
说 明 书
4/9页
率,从而各个教育知识图谱持有方构建出一个较为完善的教育知识图谱。[0043]参照图2,本发明实施例提供一种联邦教育知识图谱补全方法,摒弃了传统的第三方中央服务器,能够较好地保护教育数据持有方的隐私数据,并且能够有效使得全局模型被污染的概率降低,从而实现一个较为完善的教育知识图谱的建立。本发明实施例的方法包括但不限于步骤S210、步骤S220、步骤S230、步骤S240、步骤S250、步骤S260、步骤S270和步骤S280。
[0044]具体地,本实施例在图1所示的架构中的应用过程包括以下步骤:[0045]S210:将全局教育知识图谱补全模型中满足预设要求的节点分为训练节点和对抗委员会节点。[0046]S220:获取训练节点对应全局教育知识图谱补全模型中的第一权重。其中,第一权重是全局教育知识图谱补全模型中的初始权重。[0047]S230:根据第一权重对本地教育知识图谱补全模型训练,更新本地教育知识图谱补全模型的权重,得到本地教育知识图谱补全模型的第二权重。[0048]S240:将第二权重传递到对抗委员会节点。[0049]S250:确定对抗委员会节点对第二权重验证通过,将第二权重上传至区块链上。[0050]S260:确定区块链上的第二权重的个数大于预设值,触发全局教育知识图谱补全模型的权重聚合步骤,更新全局教育知识图谱补全模型的权重,得到全局教育知识图谱补全模型的第三权重。[0051]S270:将第三权重上传至区块链。[0052]S280:确定全局教育知识图谱补全模型的第三权重的变化值小于阈值,对全局教育知识图谱补全模型进行保存。
[0053]在上述实施例的工作过程中,节点管理模块110将全局教育知识图谱补全模型中满足预设要求的节点分为训练节点120和对抗委员会节点130。训练节点120获取其对应的全局教育知识图谱补全模型中的初始权重作为第一权重,并根据第一权重开始进行本地教育知识图谱补全模型训练。具体地,各个训练节点120会从区块链140上获取对应的全局教育知识图谱补全模型的第一权重,然后根据第一权重进行本地教育知识图谱补全模型的训练,得到本地教育知识图谱补全模型的第二权重,并更新本地教育知识图谱补全模型的权重。将第二权重传递到对抗委员会节点130,对抗委员会节点130根据第二权重的地址从外部储存器150获取第二权重,并对第二权重进行验证评分。当第二权重通过对抗委员会节点130的验证,将第二权重上传到区块链140上。当区块链140上存储的第二权重数量大于预设值,则触发全局教育知识图谱补全模型的权重聚合,更新全局教育知识图谱补全模型的权重,得到全局教育知识图谱补全模型的第三权重。例如,当区块链140上存储第二权重的区块数量超过一百个,便触发全局教育知识图谱补全模型的更新,得到全局教育知识图谱补全的第三权重。得到全局教育知识图谱补全模型的第三权重后,将全局教育知识图谱补全模型的第三权重上传至区块链。对全局教育知识图谱补全模型的第三权重的变化值进行比较,当确定全局教育知识图谱补全模型的第三权重的变化值小于阈值,则说明全局教育知识图谱补全模型训练已经完成,并对全局教育知识图谱补全模型进行保存。需要说明的是,各个教育知识图谱持有方可以通过全局教育知识图谱补全模型在本地进行补全。[0054]在上述具体实施例中,通过将区块链技术与联邦学习模型结合,能够构建出一个
7
CN 114153982 A
说 明 书
5/9页
较为完善的教育知识图谱。通过区块链对本地教育知识图谱补全模型的第二权重以及全局教育知识图谱补全模型的第三权重存储,摒弃了传统联邦学习模型将所有本地模型更新累积到中心服务器的中心化分布式系统方案,全局教育知识图谱补全模型的训练过程不再需要可信的第三方服务器,能够有效地提高了模型所属者的隐私数据不被获取的概率。进一步地,通过对抗委员会节点130对本地教育知识图谱补全模型的第二权重进行验证打分,能够减少有效恶意节点的攻击次数以及缓解全局模型偏向某一类数据分布的节点,从而降低全局教育知识图谱补全模型被污染的概率,构建出较为完善的教育知识图谱。[0055]此外,参照图3,在本发明的一些实施例中,本发明实施例的方法还包括但不限于以下步骤:
[0056]S310:确定全局教育知识图谱补全模型的第三权重变化值大于阈值,根据选举规则重新选举对抗委员会节点和训练节点,进行新一轮的训练。[0057]在上述具体实施例中,当得到的全局教育知识图谱补全模型的第三权重变化值大于阈值,则说明全局教育知识图谱补全模型的训练未达到最优效果,需要继续进行训练。具体地,节点管理模块110根据选举规则将全局教育知识图谱补全模型中达到预设条件的节点重新分为对抗委员会节点130和训练节点120,然后重新进行新一轮的本地教育知识图谱补全模型训练和全局教育知识图谱补全模型训练,即重复执行上述步骤S220至步骤S280,直到确定全局教育知识图谱补全模型的第三权重变化值小于阈值。当训练得到全局教育知识图谱补全模型的第三权重变化值小于阈值,则说明全局教育知识图谱补全模型已经趋于稳定,则对该全局教育知识图谱补全模型进行保存。[0058]需要说明的是,在本发明的一些实施例中,对抗委员会节点130包括优先委员会节点131和随机委员会节点132。其中,优先委员会节点131和随机委员会节点132采用相同的方式对训练节点120的可信支持程度进行评分。具体地,通过可信支持得分表记录每个训练节点120的可信支持得分,可信支持得分是指一个训练节点120的可信支持程度。对抗委员会节点130的数据作为验证集对训练节点120提供的本地教育知识图谱补全模型更新进行验证,验证的结果作为该本地教育知识图谱补全模型的可信支持得分,然后记录在节点管理模块110的可信支持得分表。进一步地,优先委员会节点131以及随机委员会节点132分别选择在优先委员会节点131以及随机委员会节点132中得分的中位数作为本地教育知识图谱补全模型的第二权重最终得分,并且根据优先委员会节点131以及随机委员会节点132判断本地教育知识图谱补全模型的第二权重是否满足验证条件。当本地教育知识图谱补全模型的第二权重通过验证,则将第二权重的地址上传至区块链140上。另外,优先委员会节点131采用优先选举制度,在选取优先委员会节点131时,可信支持得分高的节点优先选择,从上一轮训练中选取可信支持得分高的节点组成优先委员会节点131。随机委员会节点132则从上一轮训练的训练节点120中随机抽取,从而能够降低一些可信支持得分高的节点被选中的概率。具体地,优先委员会的评分为Sf,随机委员会的评分为Sr。采用动态自适应学习的参数Ws进行学习,最终可信支持得分为
其中bs是偏差值。通过在对抗委
员会节点130中设置优先委员会节点131和随机委员会节点132,能够有效降低发生样本不均匀的情况。例如,在单一委员会的设置中,委员会节点会偏向于选择具有相似数据的训练节点120,从而导致全局教育知识图谱补全模型在这些训练节点上运行良好,而与委员会节点成员数据不同的训练节点120的得分较低,则导致其提供的本地教育知识图谱补全模型
8
CN 114153982 A
说 明 书
6/9页
更新不被采用,进而导致全局教育知识图谱补全模型在这些节点上的表现较差。通过优先委员会节点131的设置,能够降低一些恶意节点的攻击次数,同时,随机委员会节点132的设置能够使得更多的节点参与到训练过程中,有效降低了全局教育知识图谱补全模型偏向于某一类数据分布的节点的概率,从而降低了全局教育知识图谱补全模型被污染的概率。[0059]参考图4,在本发明的一些实施例中,将第二权重传递到对抗委员会节点,包括但不限于以下步骤:[0060]S410:将第二权重传递到外部储存器进行储存,外部储存器生成第二权重的权重地址。
[0061]S420:将权重地址上传至对抗委员会节点,对抗委员会节点根据权重地址获取第二权重。
[0062]在上述实施例的工作过程中,将第二权重传递到对抗委员会节点的具体过程为,将本地教育知识图谱补全模型的第二权重上传至外部储存器150,外部储存器150对第二权
训练节点120将返回的第二权重的地址重进行存储并返回对应的存储地址到训练节点120。
发送到对抗委员会节点130,对抗委员会节点130根据第二权重的地址从外部储存器150获取第二权重。通过外部储存器150对本地教育知识图谱补全模型的权重进行存储,对抗委员会节点130根据权重地址获得对应的第二权重进行验证,减少了本地教育知识图谱补全模型权重传输的数据量,提高了效率。需要说明的是,在本发明的一些实施例中,将全局教育知识图谱补全模型的第三权重上传至区块链,具体地,先将全局教育知识图谱补全模型的第三权重上传至外部储存器150上,然后将外部储存器150返回的全局教育知识图谱补全模型的第三权重的地址发送到区块链140进行储存。[0063]容易理解的是,通过外部储存器150对本地教育知识图谱补全模型的第二权重以及全局教育知识图谱补全模型的第三权重进行存储,区块链140上只对应地存储本地教育知识图谱补全模型的第二权重的地址以及全局教育知识图谱补全模型的第三权重的地址,有效的降低了区块链140的存储量,使得区块链140的存储限制不会成为本地教育知识图谱补全模型和全局教育知识图谱补全模型训练的瓶颈。同时,区块链140中传输的不是本地教育知识图谱补全模型和全局教育知识图谱补全模型的权重而是本地教育知识图谱补全模型和全局教育知识图谱补全模型对应的权重地址,有效地提高了效率。需要说明的是,在本发明的一些实施例中,区块链140包括本地更新区块和全局模型区块。具体地,本地更新区块用于记录本地更新块的数量和本地教育知识图谱补全模型更新的权重地址,即本地教育知识图谱补全模型的第二权重的地址。当本地更新块的数量,即第二权重的地址个数大于预设值,则触发全局教育知识图谱补全模型的权重聚合步骤,对全局教育知识图谱补全模型的权重进行更新,得到全局教育知识图谱补全模型的第三权重。另外,全局模型区块记录训练的轮次以及全局教育知识图谱补全模型的权重地址,即将得到的全局教育知识图谱补全模型的第三权重地址存储在全局模型区块中。当判断得到全局教育知识图谱补全模型的第三权重的变化值小于阈值,则完成全局教育知识图谱补全模型训练,并对该全局教育知识图谱补全模型进行保存。[0064]需要说明的是,在本发明的一些实施例中,外部储存器150包括FastDFS。FastDFS(Fast Distributed File System)是一种开源的高性能分布式文件系统,能够提供文件存储、文件同步和文件访问接口。由于本地教育知识图谱补全模型以及全局教育知识图谱补
9
CN 114153982 A
说 明 书
7/9页
全模型的训练过程中,得到的本地教育知识图谱补全模型的第二权重以及全局教育知识图谱补全模型的第三权重会占用大量的存储空间,而区块链140的存储限制会限制本地教育知识图谱补全模型以及全局教育知识图谱补全模型的训练。通过FastDFS能够缓解大容量存储的问题,区块链140中存储和传输的不是本地教育知识图谱补全模型的第二权重以及全局教育知识图谱补全模型的第三权重,而是其对应的存储地址,大大的减少了对区块链140的存储空间的占用,有效地提高了全局教育知识图谱补全训练的效率。[0065]在本发明的一些实施例中,联邦教育知识图谱补全包括本地教育知识图谱补全模型训练和全局教育知识图谱补全模型训练。其中,根据第一权重对本地教育知识图谱补全模型训练包括全局关系学习和本地节点感知强化。具体地,全局关系学习,对于每个教育知识图谱持有节点,通过聚合(h,t)对的关系上下文表示c(h,t)及关系路径表示sp来预测(h,t)对可能存在的关系r,如公式(1)所示,表示v节点存在的关系上下文信息,i表示第i次迭代聚合信息,这里的关系上下文信息表示为v节点邻接边边信息的聚和,N(v)表示v节点的临接边集合。对于教育知识图谱里的每个三元组对(h,r,t),边信息的更新如公式(2)所示,σ表示非线性激活函数,[,]表示连接操作,
分别为转换矩阵参数以及偏差值。公
式(3)用于计算(h,t)对的关系上下文表示c(h,t),c(h,t)表示为(h,t)对的上下文信息,
表示为h,t节点最终表示,k‑1是信息聚合最终迭代次数。公式(4)中P(h,t)为(h,t)
对存在的路径集合,path代表存在的所有路径,路径由经过的边的类型组成,onehot()表示为独热编码,Wp为路径转置矩阵参数,αp是p的注意力权重,通过attention机制计算出来,sp(h,t)是(h,t)对最终的关系路径聚合表示。公式(7)对存在的(h,t)对,结合关系上下文表示及关系路径的对结果进行预测。通过以下公式,能够得到Wc,Wp,bc是全局教育知识图谱模型学习的参数,通过联邦平均算法进行全局计算,从而训练全局教育知识图谱补全模型。
[0066][0067][0068][0069][0070][0071]
P(h,t)=onehot(path)*Wp (4)
αp=attention(p,c(h,t)) p∈P(h,t) (5)
predict(r|h,t)=softmax(c(h,t)+sp(h,t)) (7)
[0073]另外,本地节点感知强化通过全局教育知识图谱补全模型训练,通过联邦平均算法获得一个全局教育知识图谱补全模型,在本地教育知识图谱补全模型训练时,进行本地节点感知个性化增强,采用传统的补全模型,能够更好地适用于本地节点,利用本地节点嵌入信息,结合关系路径sp(h,t),Wp,通过本地节点感知个性化增强的全局教育知识图谱补全模型,能够较好地适应本地的数据,进一步地反馈到关系路径的权重更新,从而提升了全局教育知识图谱补全模型的训练效果。[0074]参照图5,在本发明的一些实施例中,联邦教育知识图谱补全方法的流程包括但不限于以下步骤:
[0072]
10
CN 114153982 A[0075]
说 明 书
8/9页
S510:将全局教育知识图谱补全模型中满足预设要求的节点分为训练节点和对抗
委员会节点。[0076]S520:获取训练节点对应全局教育知识图谱补全模型中的第一权重。[0077]S530:根据第一权重对本地教育知识图谱补全模型训练,更新本地教育知识图谱补全模型的权重,得到本地教育知识图谱补全模型的第二权重。[0078]S540:将第二权重传递到对抗委员会节点。[0079]S550:确定对抗委员会节点对第二权重验证通过,将第二权重上传至区块链上。[0080]S560:判断区块链上的第二权重的个数是否大于预设值。[0081]S570:触发全局教育知识图谱补全模型的权重聚合步骤,更新全局教育知识图谱补全模型的权重,得到全局教育知识图谱补全模型的第三权重。[0082]S580:将第三权重上传至区块链。[0083]S590:判断全局教育知识图谱补全模型的第三权重的变化值是否小于阈值。[0084]S5100:保存全局教育知识图谱补全模型。[0085]在上述实施例的工作过程中,首先将全局教育知识图谱补全模型中满足预设要求的节点分为训练节点120和对抗委员会节点130。训练节点120获取其对应的全局教育知识图谱补全模型中的第一权重并开始进行本地教育知识图谱补全模型训练。具体地,各个训练节点120会从区块链140上获取对应的全局教育知识图谱补全模型的第一权重的地址,根据获取的第一权重的地址从外部储存器150中获取对应的第一权重,然后根据第一权重进行本地教育知识图谱补全模型的训练,得到本地教育知识图谱补全模型的第二权重,并更新本地教育知识图谱补全模型的权重。将第二权重传递到对抗委员会节点130,具体地,本地教育知识图谱补全模型的第二权重被上传至外部储存器150,外部储存器150对第二权重进行存储并返回对应的存储地址到训练节点120。训练节点120将返回的第二权重的地址发送到对抗委员会节点130,对抗委员会节点130根据第二权重的地址从外部储存器150获取第二权重,并对第二权重进行验证评分。当第二权重通过对抗委员会节点130的验证,将第二权重的地址上传到区块链140上。对区块链140上的第二权重的地址数量进行判断。当区块链140上存储的第二权重的地址数量大于预设值,则触发全局教育知识图谱补全模型的权重聚合,更新全局教育知识图谱补全模型的权重,得到全局教育知识图谱补全模型的第三权重。例如,当区块链140上存储第二权重地址的区块数量超过一百个,便触发全局教育知识图谱补全模型的更新,得到全局教育知识图谱补全的第三权重。当区块链140上存储的第二权重的地址数量小于预设值,则重复执行上述步骤S530至步骤S560,直到确定区块链140上存储的第二权重的地址数量大于预设值。得到全局教育知识图谱补全模型的第三权重后,将全局教育知识图谱补全模型的第三权重上传至区块链。具体地,先将全局教育知识图谱补全模型的第三权重上传至外部储存器150上,然后将外部储存器150返回的全局教育知识图谱补全模型的第三权重的地址发送到区块链140进行储存。对全局教育知识图谱补全模型的第三权重的变化值进行判断,当确定全局教育知识图谱补全模型的第三权重的变化值小于阈值,则说明全局教育知识图谱补全模型训练已经完成,并对全局教育知识图谱补全模型进行保存。当全局教育知识图谱补全模型的第三权重的变化值大于阈值,则说明当前全局教育知识图谱补全模型的训练未趋于稳定,需要继续训练。然后重复执行上述步骤S510至步骤S590,直到确定全局教育知识图谱补全模型的第三权重的变化值小于阈值,
11
CN 114153982 A
说 明 书
9/9页
对全局教育知识图谱补全模型进行保存,结束全局教育知识图谱补全模型训练。[0086]参照图6,本发明的一个实施例还提供了一种联邦教育知识图谱补全设备,包括:至少一个处理器610;至少一个存储器620,用于存储至少一个程序;该至少一个存储器620上存储有可执行程序,该可执行程序被该知识一个处理器610执行,例如执行以上实施例描述的步骤。
[0087]本发明的一个实施例还提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个控制处理器执行,例如,执行以上实施例描述的步骤。
[0088]本领域普通技术人员可以理解,上文中所公开方法中的全部或某些步骤、系统可以被实施为软件、固件、硬件及其适当的组合。某些物理组件或所有物理组件可以被实施为
或者被实施为硬件,或由处理器,如中央处理器、数字信号处理器或微处理器执行的软件,
者被实施为集成电路,如专用集成电路。这样的软件可以分布在计算机可读介质上,计算机可读介质可以包括计算机存储介质(或非暂时性介质)和通信介质(或暂时性介质)。如本领域普通技术人员公知的,术语计算机存储介质包括在用于存储信息(诸如计算机可读指令、数据结构、程序模块或其他数据)的任何方法或技术中实施的易失性和非易失性、可移除和不可移除介质。计算机存储介质包括但不限于RAM、ROM、EEPROM、闪存或其他存储器技术、CD‑ROM、数字多功能盘(DVD)或其他光盘存储、磁盒、磁带、磁盘存储或其他磁存储装置、或者可以用于存储期望的信息并且可以被计算机访问的任何其他的介质。此外,本领域普通技术人员公知的是,通信介质通常包含计算机可读指令、数据结构、程序模块或者诸如载波或其他传输机制之类的调制数据信号中的其他数据,并且可包括任何信息递送介质。[0089]以上是对本发明的较佳实施进行了具体说明,但本发明并不局限于上述实施方式,熟悉本领域的技术人员在不违背本发明精神的前提下还可作出种种的等同变形或替换,这些等同的变形或替换均包含在本发明权利要求所限定的范围内。
12
CN 114153982 A
说 明 书 附 图
1/5页
图1
13
CN 114153982 A
说 明 书 附 图
2/5页
图2
图3
14
CN 114153982 A
说 明 书 附 图
3/5页
图4
15
CN 114153982 A
说 明 书 附 图
4/5页
图5
16
CN 114153982 A
说 明 书 附 图
5/5页
图6
17
因篇幅问题不能全部显示,请点此查看更多更全内容