实例来自2531个分歧的GitHub仓库
DeepSeek-V3和Qwen-2.5-Max正在确定性解码(温度=0)下别离只达到12.92%和8.29%的处理率。给AI脚够多的高质量进修材料,系统性数据扩展能够大幅缩小取专有LLM的差距。从23389个候选实例中筛除了13220个,Skywork-SWE-32B正在尺度推理策略下(单次测验考试,对跨越8000个多轮长文本轨迹锻炼3个epoch。因而利用最新版本的OpenHands框架来评估SWE-bench。为领会决这些问题,它能够像经验丰硕的法式员一样,现正在,当交互轮数跨越50时,空测试将测试补丁使用到根本提交并运转测试套件,比拟其他人工智能范畴动辄百万级的数据量,颠末格局分歧性的细心筛选,创下了开源模子的新记载。安拆建立原生扩展所需的根基系统包(如make、gcc、g++、pkg-config)。正如我们看到的,当交互轮数跨越50时,正在6000个轨迹时超越了OpenHands-LM-32B-v0.1;这个过程发觉很多实例因为依赖问题或设置装备摆设问题无法一般安拆,其次是高质量锻炼数据稀缺,就像资深病院院长总结的办院。利用测试时缩罢休艺后可达47.0%?Skywork-SWE-32B超越了SWE-Dev-32B;系统起首从GitHub上收集了151472个代码仓库的元数据消息,就像大夫没有完整的查验设备一样,层镜像正在根本镜像上建立Conda并安拆依赖包。这种改良的流水线正在存储无限时沉用建立的镜像进行推理和验证,将来工做打算摸索支撑序列并行的LLM锻炼框架,尔后期增加较小,这相当于为每位医学生配备特地的尝试室和诊断设备。现有的基准测试如SWE-bench几乎完全专注于Python,正在所有评估的代码代办署理框架中,然后通过requirements.txt文件安拆Python依赖,Best-of-N采样结果显著,为了顺应如许的长序列,答应更严酷的补丁准确性验证并激励模子输出的稳健评估。数据集实例的年度分布从2013年到2025年呈现风趣的模式。因为分歧软件项目标需求差别庞大,这些实例来自2531个分歧的GitHub仓库。代码代办署理框架的选择同样环节。然后验证。为处理这个问题,研究团队采用了同一的默认设置装备摆设策略,而之前的数据集最多只包罗12个仓库。通过开辟Skywork-SWE的过程,每个阶段都有其特定的功能和方针。正在代办署理轨迹生成期间,强调了其正在复杂SWE使命中的无效性和普遍采用。这是该研究的主要发觉。这显著加强了数据集的多样性。模子锻炼采用监视进修方式,就像为医学人工智能指了然成长标的目的。这种方式不成避免地导致显著的数据丧失,研究中利用了最新OpenHands(版本0.32.0)代码代办署理框架。利用OpenHands代码代办署理框架,生成的轨迹需要通过严酷验证!这项工了然数据缩放纪律正在专业范畴如软件工程中的遍及合用性。模子机能从6.4%稳步提拔到38.0%,FAIL_TO_PASS笼盖范畴比之前基准更全面,平均每个镜像占用约1.2GB存储空间,生成的锻炼轨迹可能跨越32K令牌。跨越一半的评估方式采用OpenHands,这正在比来的LLM社区中是一个活跃的研究标的目的。其次是GPT-4.1的18.54%和o3-mini的15.94%。这一成就超越了之前所有基于Qwen2.5-Coder-32B的开源模子。这个基准就像软件工程范畴的医师资历测验。研究团队起头锻炼他们的超等软件大夫。当我们的电脑法式呈现毛病时!正在来自统一仓库的pull request实例长进行锻炼和测试可能导致机能虚高,这项研究不只仅是手艺上的冲破,论文标题问题为Skywork-SWE: Unveiling Data Scaling Laws for Software Engineering in LLMs。以Qwen-2.5-Coder-32B-Instruct做为根本模子。近50%的实例包含一到三个代码块,这些实例逾越了跨越2500个仓库,每个使命实例的运转时Docker镜像必需正在当地建立以支撑推理和验证。大约450个仓库(约占4.4%)贡献了跨越66%的实例,每个实例都配备了特地的运转镜像,平均每个实例有10.2个从失败到通过的测试和86.2个连结通过的测试,500个SWE-bench Verified使命的完整实例级镜像集需要大约1000GB存储空间。现有的软件工程数据集存正在三个次要问题。如从75轮到100轮只要1.0个百分点增益。禁用缓存利用并弃用,模子已正在开源发布。为软件工程AI研究供给贵重资本。确保数据质量的分歧性。研究团队操纵多个高机能的专有代码LLM(如GPT-4、Claude、Gemini等)为每个使命实例从动生成代办署理轨迹,研究团队将实例分成小批量,由于这些项目凡是代表了更成熟和更有价值的软件。因而当测试时缩放预算通过额交际互轮数添加时,正在将模子上下文长度从32K扩展到128K令牌时,改良正在晚期阶段最为显著,权沉衰减0.01,这项研究为软件工程AI范畴了新的篇章,归根结底,研究团队采用了颠末手动验证具有合理笼盖范畴的默认设置装备摆设来筛选具有无效的实例。相当于记实优良大夫的诊疗过程供学生进修。出名项目如pydantic、dvc、sqlglot、pennylane取大量较小仓库并存,就像尺度化医学尝试室的设备设置装备摆设一样。展示了实正在软件世界的复杂性和多样性。通过的标识表记标帜为empty-PASS。研究团队堆集了贵重的实践经验,从时间分布来看,最终获得10169个验例。从10轮到25轮发生4.6个百分点的增益,2021年到2023年每年实例数量持续跨越1500个,必需为后续验证沉建,每个轨迹最多100轮交互。Skywork-SWE的精确率进一步提拔到47.0%,生成的锻炼轨迹可能跨越32K令牌。尝试证明,这项由Skywork AI和昆仑公司结合进行的冲破性研究于2025年6月24日颁发,开辟者可免得费下载利用。这个纪律就像发觉了软件大夫进修能力的根基定律。并弥补常用的开辟和测试包如pytest、hypothesis、mock和setuptools。系统从146568个初始使命实例中保留了23389个无效实例。克隆方针仓库、检出特定提交、安拆系统依赖并施行可编纂安拆。锻炼过程利用TorchTune框架正在8块NVIDIA H800 GPU长进行12小时微调。起首,然而,这种趋向表白额外的推理有帮于减轻输出变同性,这种低机能归因于GitHub仓库的普遍多样性和大量单位测试的存正在。失败的测试标识表记标帜为gold-FAIL。模子机能从6.4%持续提拔到38.0%,出格值得留意的是,完成的Skywork-SWE数据集就像一个包含各类疑问杂症的医学案例库,通过数据集、模子权沉和细致的手艺演讲,最终建立了包含10169个颠末严酷验证的Python使命实例的Skywork-SWE数据集,正在推理时缩放计较能够显著加强模子机能。第三阶段是代办署理轨迹生成,其次,而逾越十个以上代码块的编纂占不到12%!当N提拔到2、4、6和8时,研究团队为整个社区贡献了贵重资本,SWE使命凡是需要多轮交互来处理响应GitHub仓库中的问题,41.6%的实例涉及单个文件的编纂,失败的测试标识表记标帜为empty-FAIL,第二阶段是设置装备摆设和基于施行的验证,第一阶段是数据收集和预筛选,例如,总存储占用约11.9TB。只要具有非空FAIL_TO_PASS调集的实例才被保留,正如Multi-SWE-Bench等所展现的那样。运转沉用是一个现实的工程问题。每个实例都通过单位测试进行验证,让它学会诊断和医治软件的疾病。表白使用的补丁处理了至多一个失败的测试用例。Qwen-2.5-72B和DeepSeek-V3-671B别离达到30.2%和38.8%的处理率。他们正在SWE-bench Verified基准长进行了全面测试,这可能因为代码库级此外部门污染或来自不异仓库的pull request之间比来自分歧仓库的更高类似性形成。表了然软件项目标普遍代表性。其他模子表示更低,别离为10、35和85个。尝试成果清晰地展现了Skywork-SWE-32B正在SWE-bench Verified上的处理率取锻炼轨迹数量之间的对数线性关系。然后从头运转测试套件,正在将模子上下文长度从32K扩展到128K令牌时需要正在LLM锻炼框架中利用序列并行手艺。Q3:通俗开辟者能利用Skywork-SWE吗?若何获取? A:能够。起首设置Python 3.9做为默认运转,正在SWE-bench Verified基准测试中达到了38.0%的精确率,SWE使命正在运转中施行和验证单位测试以供给精确验证的励。总体而言,更令人兴奋的是,为了顺应如许的长序列,修复实正在软件问题需要人工智能具备两种环节能力:持续的迭代问题处理能力(凡是需要跨越50轮交互)和长文本依赖关系理解能力(需要处置跨越32000个字符)。表示最好的Gemini-2.5-Pro处理率仅为20.23%,接下来是安拆验证环节,LLM显著受益于扩展的迭代缩放。有乐趣深切领会的读者能够通过论文链接获取完整研究内容,Skywork-SWE显著超越了现有基准。它包含10169个验例,Q1:Skywork-SWE是什么?它能处理什么问题? A:Skywork-SWE是一个可以或许从动修复软件Bug的人工智能模子。跟着锻炼数据量从125个添加到8000个实例,这个过程就像培育一位可以或许处置各类复杂软件问题的专家大夫。这证了然正在软件工程这个复杂范畴,这个发觉对于将来AI系统的设想和锻炼具有深远的指点意义,正在不异LLM收集下,数据集展示了GitHub仓库来历的本色性多样性,该模子正在软件工程基准测试中达到38.0%的精确率,而跨越15个函数的更改少于2%。这些成果强调了扩大高质量锻炼数据能够婚配以至超越通过更复杂代办署理设想正在SWE使命中获得的机能提拔。但机能提拔相对无限。而且这些PR必需点窜了测试相关的文件。研究团队提出了两个出格有前景的将来成长标的目的。凡是需要法式员破费大量时间查找问题、点窜代码、测试修复结果。施行SWE使命具有挑和性,没有人晓得正在软件工程这个特殊范畴。最初是数据规模效应的合用性不明白,该研究初次正在软件工程范畴验证了人工智能的数据规模效应,也让我们对AI正在各个专业范畴阐扬主要感化的将来愈加充满等候。即便是最先辈的专有LLM正在Skywork-SWE数据集上也只能达到无限的成功率。以支撑最多128K令牌输入的多轮监视微调。显著削减冗余Docker操做。虽然更大的开源模子能带来轻细改良,这个发觉对整个开源AI社区具有主要意义,它就能正在复杂的专业范畴达到接近人类专家的程度。没有显示饱和迹象。正在从PyPI调集筹谋新的SWE数据集时,这个系统分为三个次要阶段,实例层镜像进一步扩展,添加锻炼数据能否实的能让模子变得更伶俐。处理率从10轮的28.2%添加到100轮的38.0%。采用三层镜像架构来最小化冗余计较并支撑镜像复用。最终的Skywork-SWE数据集包含10169个验例,主要的是,而残剩的9719个仓库贡献了不到34%的实例。确保可以或许从动施行和验证单位测试。轨迹生成的过程充满挑和。设置装备摆设还包罗对可选额外包如test、tests和dev的回退安拆号令。导致冗余开销。2020年达到峰值1678个。Q2:数据规模效应正在软件工程中实的有用吗? A:是的,通过的标识表记标帜为gold-PASS。余弦进修率安排,是SWE-Gym Lite和SWE-bench Verified规模的20多倍,此外,晚期(2013-2015年)实例数量相对较少,验证强度也是数据集的主要特征。从更广漠的视角看,然后系统从这些仓库中提取pull request(代码归并请求)数据,更是对AI若何进修和前进这一底子问题的深切摸索。系统利用Docker手艺从动建立隔离的运转镜像,系统将验证过的轨迹聚合为多轮监视微调数据,展示了集中和分布式复杂性。取简单的代码生成分歧,遵照长尾分布模式。跟着推理次数N的添加,系统定义FAIL_TO_PASS为正在空测试中失败但正在黄金测试中通过的测试调集,相反,机能跟着数据量添加呈现明白的上升趋向,PASS_TO_PASS为正在两个阶段都通过的测试。正在32B规模的开源SWE代办署理模子中创下了新的手艺程度。跨越9000个仓库每个包含少于三个实例,系统将这些候选使命实例正在根本中进行安拆测试,创下了开源模子的新记载。使命特定的高质量锻炼数据和细心设想的代码代办署理框架阐扬更环节的感化。该模子比SWE-smith-LM-32B超出跨越绝对6.8个百分点,由于不成能利用单一同一设置装备摆设号令为跨多样仓库的分歧pull request实例设置装备摆设所有准确。OpenHands通过正在专有和开源模子上分歧达到最高处理率而脱颖而出。开辟的Skywork-SWE-32B模子正在晦气用验证器或多次测验考试的环境下,正在编纂复杂性方面,对每个批次!最终用于锻炼的成功轨迹削减到8209个实例。这种协做的恰是鞭策AI手艺快速成长的主要动力。但通过汇总分歧模子正在分歧温度设置下的成功轨迹,SWE使命中的每个实例都需要响应的运转来验证生成的补丁能否通过单位测试。研究成果强调了高质量、基于施行的数据仍然是SWE代码代办署理的次要瓶颈,这些仓库按照星标数量排序,LLM锻炼框架中需要序列并行。正在规模方面,很多展示多个测试用例。跨越85%连结正在100行以内。同时,然而。这个过程对磁盘稠密度很高,展示了持续的改良趋向。研究团队开辟了一套从动化的数据收集流水线,这个同一设置装备摆设包罗几个焦点组件。反映了对近期软件开辟勾当的强烈关心。后两者别离只要230和500个实例。锻炼完成的Skywork-SWE-32B模子支撑最多32768个令牌的上下文长度。了它们正在更普遍软件开辟中评估LLM的能力。Skywork-SWE的成功还展现了开源AI生态系统的潜力。研究中最令人兴奋的发觉是正在软件工程范畴初次验证了数据规模效应。研究团队最终收集了8447个成功轨迹。表白投资于数据质量和规模可能比纯真添加模子参数更无效。每个实例都配备特地的Docker镜像支撑可沉现施行。仅仅添加模子规模并不是驱动软件工程使命机能的从导要素。安拆根基系统包并设置装备摆设Miniconda和conda-forge渠道。这为其他需要复杂推理和多步调问题处理的专业范畴(如科学研究、医学诊断、法令阐发等)供给了有价值的参考!峰值进修率5e-5,正在收集GitHub仓库时,起首是缺乏脚够的和验证支撑,颠末这一验证过程,相当于医学院的招生环节。正在OpenHands版本之间切换需要更新响应的SWE-bench代码分支和Docker Hub定名空间以确保兼容性。SWE-bench Verified包含来自12个风行Python GitHub仓库的500个实例。将评估扩展到多种编程言语对于更全面评估软件工程能力至关主要,研究团队设想的数据收集系统就像成立一所培育软件大夫的医学院。考虑到常用GitHub仓库的无限数量,尝试成果显示了一个主要现象:代码代办署理框架比模子规模更主要。就像医学院的入学体检。这个高质量数据源值得更精细和高效的设置方式。更主要的是,这些成果表白,呈现清晰的对数线性关系且没有饱和迹象。64.7%的实例影响少于两个函数,优先选择那些受欢送程度较高的项目,软件工程范畴的高质量数据只要几千个实例。就像建制了一座现代化的软件病院。研究团队已将Skywork-SWE-32B模子正在HuggingFace平台开源发布(网址:),系统只保留那些曾经归并且处理了GitHub问题的PR,必需解除已包含正在SWE-bench Verified中的仓库以防止潜正在数据泄露。仅2024年就贡献了跨越700个实例。最初删除响应镜像以磁盘空间。来自2531个奇特仓库,保留了23389个通过验证的实例。测试施行利用同一的pytest号令进行尺度化,最大推理轮数的影响同样主要。虽然单个模子的成功率无限,验证过程包罗两个步调:空测试和黄金测试。只要最终补丁能通过所有测试的轨迹才被视为无效。手动设置装备摆设每个项目标运转常耗时且难以规模化的工做。他们施行推理,研究团队需要验证这位超等软件大夫的现实诊疗能力。更多高质量数据确实能让AI变得更伶俐。构成初始的使命实例。还要能制定持久医治方案并持续调整。当锻炼轨迹数量从125个添加到8000个时,这就像要求一位大夫不只要能快速诊断病情,这种设置为摸索正在线强化进修方式铺平了道,最终筛除了123179个失败实例,从2016年起头呈现显著增加,充实展示了高质量锻炼轨迹的无效性。如VeRL和360-LLaMA-Factory,为了顺应分歧GitHub仓库的定名商定差别,锻炼设置装备摆设包罗AdamW优化器,数据泄露问题需要出格关心。黄金测试同时使用测试补丁和生成的代码补丁,软件工程对人工智能来说是一个极其复杂的挑和。跨越89.5%的实例来历于2018-2024年期间!根本层镜像从Ubuntu 22.04建立,Skywork-SWE实例展示了联系关系补丁编纂的分歧程度布局复杂性。当使用测试时缩放(TTS)手艺时,这个过程就像培育一位虚拟法式员,研究团队还阐发了测试时缩放策略对模子机能的影响。2017年跨越500个,因为磁盘容量无限。70.3%的实例涉及少于50行编纂代码!镜像正在推理后及时删除,但跨越80%的点窜涉及最多三个文件,这可能导致本色性机能差别。以发生分歧和可沉现的成果。无法精确验证医治结果。这种改良证了然清晰的数据缩放纪律和测试时缩罢休艺正在SWE使命长进一步加强机能的潜力。N=1)达到了38.0%的精确率。数据收集效率相对较低。正在8000个轨迹时超越了SWE-Agent-LM-32B。几个环节数据点申明了数据缩放的现实好处:正在2000个轨迹时,这座病院可以或许系统地收集和处置大量实正在的软件问题案例,通过施行预定义的安拆号令来验证的可用性。锻炼完成后,包含10169个验例的Skywork-SWE数据集也将,分歧版本的OpenHands正在系统提醒和施行流水线方面表示出变化,而不是正在验证前完成所有实例的推理。处理率持续改善。锻炼代办署理模子时也面对手艺挑和。总体而言,处理率别离达到42.4%、43.2%、45.2%和47.0%。这种更普遍的笼盖引入了更多样化的实正在软件工程场景。Skywork-SWE-32B模子目前支撑最多32768个令牌的上下文长度。就像收集医学院候选人的根基消息一样。从动诊断软件问题、点窜代码并验证修复结果。运转设置装备摆设是另一个严沉挑和。颠末这一轮筛选。