软件所在代码注释数据治理方面取得研究进展

文章来源:  |  发布时间:2022-07-07  |  【打印】 【关闭

  

    近日,软件所互联网软件技术实验室在代码注释数据治理方面取得研究进展。该研究针对当前代码注释大数据质量治理难的问题,通过分析4个大规模代码注释基准数据集,归纳出12种类型的噪声数据并研发了基于规则的代码注释数据噪声清理工具,能够高效、精准地自动治理代码注释数据质量,为代码注释自动生成模型形成高质量数据提供保障,有效促进现有的代码注释自动生成模型提升性能。 

  代码注释自动生成技术旨在减轻人工编写注释代码的工作量,从而提高软件开发效率。目前主流的代码注释生成模型大多采用深度学习框架,模型的有效性依赖大规模高质量数据集。然而现实中基准数据集主要采集自真实的开源项目代码,其数据质量到底如何未有研究深入分析。 

  针对上述问题,团队检测了4个基准数据集中的噪声,发现这些数据集中都广泛存在噪声数据,噪声数据占比最低31%,最多高达到65%;定义了12种类型的噪声数据并给出了具体示例;并研发了基于规则的代码注释数据噪声清理工具,治理准确率达到97.5%。最后团队对比了清理前后的3个最新代码注释自动生成模型,发现去除噪声后,模型的性能普遍提升了21%-27% 

  该研究成果的主要贡献者为软件所副研究员石琳、博士研究生沐方文、硕士研究生陈啸和研究员王青。研究成果以“Are We Building on the Rock? On the Importance of Data Preprocessing for Code Summarization”为题被软件工程领域顶级会议ESEC/FSE 2022录用。该研究获国家重点研发计划项目支持。 

 代码注释数据质量分析方法框架