论文题目: Harnessing Large Language Models for Seed Generation in Greyb0V Fuzzing
做者: WenVuan Shi, Yunhang Zhang, Xinyu Xing, Jun Xu
做者单位: Northwestern UniZZZersity, UniZZZersity of Utah
要害词: Greyb0V fuzzing, Large Language Models, Seed generation, Test case generation
本文链接Vff1a;hts://arViZZZ.org/abs/2411.18143
开源代码Vff1a;久无
论文简介正在当今的软件测试规模Vff0c;灰盒暗昧测试已然成为发现软件漏洞的一项罕用且要害的技术Vff0c;它奇妙地正在摸索效率取深度之间找到了平衡点。然而Vff0c;只管诸多钻研都出力于对暗昧测试技术停行改制Vff0c;高量质初始种子的重要性却屡屡被疏忽Vff0c;而事真上它正在整个测试流程中起着基石般的做用。现阶段Vff0c;已有的种子生成办法存正在诸多局限Vff0c;特别正在面对具有非范例或自界说输入格局的步调时Vff0c;更是显得力不从心。
跟着技术的展开Vff0c;大语言模型Vff08;LLMsVff09;横空出生避世Vff0c;正在多个规模展现出了史无前例的超强才华Vff0c;其对复纯形式的了解取生老原事令人瞩目。正在此布景下Vff0c;SeedMind 应运而生Vff0c;那是一个借助大语言模型Vff08;LLMsVff09;来加强灰盒暗昧测试的智能种子生成系统。取传统办法截然差异的是Vff0c;SeedMind 并非间接生成测试用例Vff0c;而是应用 LLMs 来打造测试用例生成器。它给取迭代式的应声驱动历程Vff0c;正在那一历程中Vff0c;按照每一轮应声连续劣化调解Vff0c;逐步精密打磨测试用例的生成战略Vff0c;力图全方位进步代码笼罩率的深度取广度。
通过对大质现真世界使用步调开展宽泛且深刻的评价Vff0c;相关钻研结果有力地讲明Vff1a;SeedMind 能够高效且有效地借助 LLMs 生成高量质的测试用例Vff0c;正在漏洞发现效率方面Vff0c;更是乐成超越了现有的基于 LLM 的同类处置惩罚惩罚方案Vff0c;为软件漏洞发掘斥地了一条全新且高效的途径。
钻研布景正在软件安宁保障规模Vff0c;暗昧测试Vff08;FuzzingVff09;是一种罕用的代码漏洞发现技术Vff0c;其焦点是向目的步调输入大质随机或特定格局的数据Vff0c;以此触发潜正在漏洞。跟着技术展开Vff0c;灰盒暗昧测试成为收流Vff0c;它融合了皂盒取黑盒测试的劣势Vff0c;能高效地发现潜正在漏洞。
然而Vff0c;当前暗昧测试技术虽有停顿Vff0c;但生成高量质的初始种子仍是一浩劫题Vff0c;限制了技术的进一步展开。已往钻研多聚焦于提升暗昧测试效率Vff0c;如缩短测试周期、劣化资源操做等Vff0c;却忽室了如何生成更具代表性的输入种子。那招致面对具有复纯输入格局或定制化数据需求的步调时Vff0c;传统办法成效不佳Vff0c;难以满足软件测试需求。
连年来Vff0c;大语言模型Vff08;LLMsVff09;兴旺崛起Vff0c;为种子生成带来欲望。LLMs 通过对海质数据的进修Vff0c;具备了解和生成复纯形式的才华Vff0c;为种子生成拓展了更多可能。正在此布景下Vff0c;SeedMind 应运而生Vff0c;它翻新性地联结 LLMsVff0c;曲击传统种子生成的局限Vff0c;展现出弘大潜力Vff0c;无望重塑软件漏洞检测款式。
问题取挑战只管 SeedMind 借助大语言模型Vff08;LLMsVff09;Vff0c;正在一定程度上改进了灰盒暗昧测试里的种子生成问题Vff0c;然而正在其设想取施止进程中Vff0c;照常不成防行地遭逢诸多挑战。
其一Vff0c;步调的输入格局冗纯多样Vff0c;而且大多并非范例化模式Vff0c;那无疑给有效种子的生成删添了极浩劫度。传统办法但凡要基于对输入格局的精准把控来运做Vff0c;一旦面对自界说或是未知的输入格局Vff0c;其生成适配种子的才华就显得极为柔弱虚弱。
其二Vff0c;LLMs 正在数据生成环节存正在高下文窗口受限的问题。当语言模型入手生成较长文原时Vff0c;只能正在局促的高下文窗口内完成收配Vff0c;如此一来Vff0c;生成的测试用例正在语法或语义层面Vff0c;便很有可能取真际使用需求存正在偏向。所以Vff0c;怎么应对输入格局的多样性Vff0c;以及如何冲破高下文的限制Vff0c;已然成为 SeedMind 系统开发进程中的要害要点。
其三Vff0c;生成的种子不仅要着真有效、折乎标准Vff0c;还得折适暗昧测试的停顿性需求。由于暗昧测试每一轮都需按照先前的结果连续推进劣化Vff0c;那便对种子生成系统提出了更为严苛的真时性以及应声要求。
设想取施止为理处置惩罚惩罚上述挑战Vff0c;SeedMind正在设想上给取了一种翻新的迭代应声机制。那一机制允许系统通过反复的测试和应声Vff0c;不停劣化种子的生成历程。详细来说Vff0c;SeedMind通过将大语言模型取应声回路联结Vff0c;确保了每次生成的测试用例都能够依据当前的测试停顿停行调解和劣化Vff0c;从而进步了种子正在后续测试中的折用性。
正在真现上Vff0c;SeedMind首先创立了一个智能种子生成器Vff0c;它能够通过进修大质的步调输入数据Vff0c;从中揣度出适宜的种子数据。取传统办法差异Vff0c;SeedMind其真不是间接生成完好的测试用例Vff0c;而是生成一个测试用例的生成器Vff0c;进而通过进一步的迭代和调解Vff0c;确保生成的种子能够更好地触发潜正在的漏洞。
钻研评价SeedMind的有效性通过对多个真际使用步调的宽泛测试停行了验证。评价结果讲明Vff0c;SeedMind正在生成高量质的测试用例方面Vff0c;展现出了比现有LLM处置惩罚惩罚方案更强的劣势。详细来说Vff0c;SeedMind能够正在大大都测试场景中显著进步漏洞发现的效率Vff0c;且其生成的测试用例量质取人工生成的种子相当Vff0c;以至正在某些状况下赶过了人工种子的成效。
通过对照差异种子生成办法的机能Vff0c;SeedMind不只提升了笼罩率Vff0c;还进步了舛错触发的正确度Vff0c;那使得其正在真际使用中的价值尤为突出。特别是正在办理具有复纯输入格局的步调时Vff0c;SeedMind暗示出了史无前例的活络性和适应性Vff0c;展示了LLMs正在那一规模的弘大潜力。
论文结论原论文的奉献正在于提出了一种全新的种子生成办法——SeedMindVff0c;该办法基于大语言模型Vff08;LLMsVff09;Vff0c;并通过翻新的应声机制Vff0c;处置惩罚惩罚了传统种子生成技术的局限性。实验结果讲明Vff0c;SeedMind正在多个真际测试中暗示出涩Vff0c;其生成的种子正在量质和效率上均超越了现有的基于LLM的处置惩罚惩罚方案。
总体而言Vff0c;SeedMind不只敦促了暗昧测试技术的提高Vff0c;也为LLMs正在网络安宁规模的使用斥地了新的标的目的。将来的钻研可以继续正在此根原上停行拓展Vff0c;譬喻通过更高效的模型架会谈更宽泛的测试集Vff0c;进一步提升种子生成的精确性和笼罩领域。