正在传统的自留心力机制中,输入序列中的每个位置都会计较一个留心力权重,用于对其余位置的信息停行加权聚折。而正在双流自留心力机制中,会引入两个留心力流,划分用于办理差异类型的信息。它是基于自留心力机制(self-attention)的扩展,通过引入两个独立的留心力流来办理差异类型的信息。,今后中采样文原span{s1,· · ·,sm},此中每个si默示间断令排的跨度,并用单个掩码交换si,要求模型对它们停行自回归规复。:条件独立性如果,预测每个mask的时候是并止的,没有思考mask之间的干系。