华东师范大学学报(自然科学版)

AI赋能的开源技术与应用

  • 基于多维特征融合的GitHub开发者地理位置预测

    赵思嘉;韩凡宇;王伟;

    开发者地理位置信息对理解全球开源活动分布和制定区域政策具有重要意义.然而, GitHub平台上存在大量开发者账户缺失地理位置信息,因而限制了对全球开源生态系统地理分布的全面分析.提出了一种基于多维特征融合的层次化地理位置预测框架,通过整合时间行为、语言文化、网络特征这3大类多维特征,构建了规则驱动快速定位、姓名文化推断、时区交叉验证、深度学习集成的4层递进预测机制.基于50 000名全球活跃开发者构建的大规模数据集的实验表明,该方法成功预测了82.52%开发者的地理位置信息.其中,姓名文化推断层覆盖用户最多,准确率达到了0.762 9;深度学习集成层处理最复杂案例,准确率为0.755 7.通过对比Moonshot大语言模型的预测结果,验证了该方法在复杂地理推断任务中的优势.

    2025年05期 No.243 1-13页 [查看摘要][在线阅读][下载 1581K]
    [下载次数:25 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ]
  • 大语言模型在开源项目主题标注中的应用与评估研究

    何德鑫;韩凡宇;王伟;

    随着开源社区的快速发展, GitHub项目的数量持续激增;然而一部分项目未提供明确的主题标签,给开发者在技术选型和项目检索的过程中带来了挑战.现有的主题生成方法主要依赖于监督学习范式,存在对高质量标注数据有较强依赖性等问题.针对开源项目主题标注的准确性及效率问题,首次研究了大语言模型在GitHub项目主题预测任务中的应用效果;构建了包含3 000个GitHub热门项目的数据集,涵盖项目仓库名、README文档和描述信息等多维度特征;选择Claude 3.7 Sonnet、DeepSeek-V3、Gemini 2.0Flash、GPT-4o和Qwen-Plus等数个国内外主流大语言模型进行了对比实验.实验结果表明, Claude 3.7Sonnet在多数评估指标上表现最优,且随着数据集规模扩大,各模型的性能表现趋于稳定.实验证明,大语言模型在项目主题标注任务中展现出了良好的适用性,但不同模型间存在显著性能差异,这为开源项目管理和智能化标注系统设计提供了重要参考依据.

    2025年05期 No.243 14-24页 [查看摘要][在线阅读][下载 1496K]
    [下载次数:83 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:4 ]
  • 大语言模型时代生态产业的流动性设计——以开源社区为代表的流动性要素分析

    任旭东;黄之鹏;彭佳恒;王伟;

    随着数字经济发展、移动互联网的爆发和云商业模式的兴起,生态型产业在资本市场上展现出显著的活力.通过探讨生态产业的“流动性”要素,分析了其在打造生态产业中的价值与作用,并提出了以开源社区和开源人才为核心构建生态产业集群的建议.此外,结合国内主流开源生态建设的生态产业发展案例,提出了具体策略和改进建议.

    2025年05期 No.243 25-31页 [查看摘要][在线阅读][下载 1336K]
    [下载次数:71 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:1 ]
  • 基于智能体的可交互数据结构和算法可视化实现

    庞瑞洋;陆雪松;

    数据结构与算法(Data Structure and Algorithm, DSA)作为计算机教育的核心课程,在培养学生的编程能力与算法思维方面起着关键作用.可视化在DSA教学中可以起到提高教学效率和加深学生理解的重要作用.然而,现有的DSA可视化工具大多依赖人工编写可视化代码,存在覆盖范围有限、更新成本高和缺乏交互性等局限性,难以满足动态演示与个性化教学的需求.随着大型语言模型(Large Language Model, LLM)在代码生成方面的出色表现,基于LLM实现自动化的DSA可视化成为可能.为此,提出了一种基于ReAct(Reasoning and Acting)智能体的交互式可视化代码生成方法,旨在解决传统可视化工具自动化程度低、交互性不足的问题.该方法结合LLM的代码生成能力和DSV(Data Structure Visualization)平台的接口,能够将基于Python编写的DSA代码转换为可交互、可执行的动态可视化的代码,从而提升教学直观性和学习体验.为系统评估该方法的有效性,构建了包含150对DSA代码及其对应的DSV可视化代码的数据集,并对比了3种方法 (直接提示、思维链提示、ReAct智能体)在多种主流LLM上的表现.实验结果显示,所提出的基于ReAct智能体的方法在编译通过率(Compilation Rate,CR)、执行通过率(Execution Rate, ER)和可用率(Usability Rate, UR)这3项指标上均显著优于其他方法,尤其在DeepSeek-R1模型下表现最优,显著提升了生成可视化代码的准确性与可交互性,验证了结合LLM与智能体框架在DSA可视化教学中的可行性与优势,为构建高效、个性化、自动化的计算机编程教学工具提供了新路径.

    2025年05期 No.243 32-42页 [查看摘要][在线阅读][下载 1528K]
    [下载次数:361 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ]
  • ATBench:面向端到端数据分析任务的分析轨迹评估基准

    王旭飞;许华容;陈攀峰;陈梅;马丹;陈正曦;田旭;李晖;

    提出了一个用于端到端数据分析任务中分析轨迹的评估基准ATBench,以弥补现有评估基准在粒度细节和领域覆盖方面的不足.分析轨迹是智能体围绕分析目标,在多轮交互中持续提出问题、生成洞察,最终形成总结的分析链.通过结合已有评估基准和Kaggle平台的真实任务数据,采取目标驱动与探索驱动相结合的标注策略,构建了151个评估数据集,涵盖8个领域.此外,提出了一个细粒度的评估指标:分析轨迹得分T_(score),用于量化智能体在执行端到端数据分析任务过程中的连贯分析能力.实验结果显示,ATBench具备较高的稳定性与判别效能,能够可靠区分不同模型在端到端数据分析任务中的性能差异.同时,该基准揭示了智能体在连贯分析和洞察发现方面的不足,可为后续智能体优化提供数据支持.

    2025年05期 No.243 43-52页 [查看摘要][在线阅读][下载 1445K]
    [下载次数:21 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 树木倒伏场景中多模态大模型的应用挑战与优化研究

    冯雷;李超楠;盛春杰;施宇星;黄奕铖;金剑虹;许韵;杜聿洲;周妮娜;缪思好;

    针对多模态大模型在处理如树木倒伏等复杂视觉场景时,因依赖单路径推理而导致的决策鲁棒性不足问题,提出了一种基于束搜索思维链(Beam Search Chain-of-Thought, BS-CoT)的推理优化方法.该方法通过并行探索和评估多条潜在的推理路径,有效克服了传统模型易陷入单一错误逻辑的缺陷,显著增强了模型在复杂场景下的视觉决策能力.为验证该方法的有效性,构建了一个面向城市治理中树木倒伏场景的专用数据集.实验结果表明,与基线模型相比,本方法在事件召回率和关键信息捕获率上均有显著提升.本研究不仅为解决城市公共安全领域的视觉决策难题提供了可靠的技术方案,也为提升大模型在关键任务中的推理可靠性提供了新的范式.

    2025年05期 No.243 53-65页 [查看摘要][在线阅读][下载 1667K]
    [下载次数:150 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:1 ]

开源与人工智能在教育中的创新实践

  • 大语言模型与开源生态协同的人工智能课程创新探索与研究

    许立君;杨丽;黄子祎;

    为应对教学资源滞后、实践能力不足及价值引导缺失等挑战,探索并构建了以“大语言模型(Large Language Model, LLM)与开源生态”双轮驱动的创新教学模式.该模式通过引入开源生态中的真实工程资源与社区协作机制,提供动态更新的代码仓库与应用场景,提升学生工程实践能力.同时借助LLM的智能交互能力,实现个性化学习路径、自动化反馈与沉浸式思政场景生成.研究结合“人工智能及应用”课程实施教学实验,量化分析了学生在参与度、学习效率与社会责任感方面的变化.结果显示,该协同模式显著提升了学生的技术素养、伦理认知和跨平台迁移能力,为相关课程改革具备高实践性和可推广性提供了参考范式.

    2025年05期 No.243 66-75页 [查看摘要][在线阅读][下载 1455K]
    [下载次数:429 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ]
  • 基于知识点关系增强的静态认知诊断模型

    梁恒贵;朱益辉;唐晓雯;朱命冬;

    认知诊断作为个性化教育的核心任务,旨在通过学生历史答题记录评估其对知识点的掌握程度.现有静态认知诊断模型通常依赖人工标注的关键知识点,忽视题目中潜在关联的知识点及不同题目对知识点的侧重差异.提出了一种基于知识点关联关系增强的静态认知诊断模型(Q-matrix Enhanced Neural Cognitive Diagnosis, QENCD),通过构建知识点依赖关系和题目侧重信息优化题目-知识点关联向量,并引入残差连接融合两者特征.实验表明, QENCD模型在ASSIST09、ASSIST17和Junyi数据集上的性能表现均显著优于现有模型.

    2025年05期 No.243 76-86页 [查看摘要][在线阅读][下载 1480K]
    [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:1 ]
  • 基于学生开源社区行为的数字岗位就业预测

    谢林娜;陆雪松;

    预测学生职业走向对于高校人才培养与企业招聘策略具有重要意义.现有学生的就业预测大多依赖在校期间的学业数据或者其他校园行为数据,忽略了学生开源贡献行为在数字类岗位求职过程中的作用.为此,基于学生的开源社区行为数据,开展了面向数字岗位的就业预测研究.具体而言,文章构建了一个包含学生、代码仓库及其多种语义关系的异构信息网络来提取学生的技术特征,并探索了两类融合大语言模型(Large Language Model, LLM)与图神经网络(Graph Neural Network, GNN)的建模策略,大语言模型分别作为编码器(LLM-as-Encoder)和解释器(LLM-as-Explainer)来预测学生毕业后可能从事的数字岗位.在构建的数据集上开展的大量实验表明,所提方法在准确率和Macro-F1上较对比方法分别提升了7.71%和9.19%.从开源参与角度为高校就业指导提供了数据驱动的决策支持,帮助企业精准识别技术人才,并为学生的职业规划提供量化参考.

    2025年05期 No.243 87-98页 [查看摘要][在线阅读][下载 2444K]
    [下载次数:60 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]

开源生态发展与治理

  • 开源生态在地理信息系统领域的发展研究与分析

    张雨昂;谢忠;邱芹军;陶留锋;

    随着信息技术飞速进步,开源理念在各领域蓬勃兴起,地理信息系统(Geographic Information System, GIS)也迎来开源浪潮.构建开放协同、可持续繁荣的开源GIS生态,有助于推动GIS技术创新、降低应用成本并促进领域发展.旨在系统研究开源GIS生态建设方法与发展趋势,工作内容分为4个方面:梳理开源GIS的发展历程与当前技术的发展态势,凝练出4个阶段的演进脉络;基于GIS视角依托当前开源生态基础提出适用于GIS领域的多层次开源生态建设模式;引入Hypercrx对8个代表性开源GIS项目的OpenRank、Activity、Contributors和Participants 4个指标进行量化分析与可视化,揭示其影响力、活跃度和社区参与度的差异,进而体现当前开源GIS生态发展态势;总结开源GIS生态在社会认知、人才培养、治理机制、数据与软件协同及可持续商业模式等多方面的挑战,展望大模型时代下的未来发展方向与领域研究热点.

    2025年05期 No.243 99-108页 [查看摘要][在线阅读][下载 1770K]
    [下载次数:171 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 开源协同结构建模与多层网络链路预测方法

    赵普;彭庆喜;张雨昂;金协杰;赵德洲;

    开源生态中项目间协同关系日益复杂,涵盖依赖共现、语言一致与开发者共享等多维复用机制.传统图模型难以统一表达此类异构结构,限制了对潜在协作关系的识别能力.面向开源场景,提出了一种基于多层图结构建模与结构融合链路预测方法相结合的分析框架.通过构建包含3类协同层的无权多层网络,并设计结构重合度调节与社群差异性评分机制,来增强模型的结构感知与语义解释能力.实验结果表明,该方法在多个真实数据集上均优于现有主流链路预测算法,尤其在结构异质性强的开源网络中表现显著.进一步分析显示,模型预测结果具备良好的社群一致性与语义可还原性.研究表明,该方法能够有效识别开源项目间潜在协同路径,并为复用结构建模与社群分析提供结构性支撑.

    2025年05期 No.243 109-124页 [查看摘要][在线阅读][下载 1703K]
    [下载次数:56 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 开源创新的现状、热点及趋势分析——基于2005—2024年知网文献的计量研究

    王锐;吕秋月;廖佳;

    基于中国知网(CNKI) 2005—2024年篇名包含“开源”的期刊文献,构建了涵盖732篇有效文献的样本库,采用文献计量方法,从年度发文量、学科分布、关键词共现与聚类、突现词及时间区间演化等维度系统分析了我国开源创新研究的演进特征与热点主题.结果表明,我国开源创新研究经历了起步探索、稳步发展和快速增长3个阶段,近5年的发文量显著攀升;学科分布呈现多学科交叉格局,以图书情报、计算机科学与工业技术为核心,并延伸至教育、管理、法学等领域;关键词聚类揭示出九大核心研究领域,并对各领域代表性成果进行了述评;时间区间演化分析显示,未来的研究将主要聚焦于人工智能与开源生态的深度融合、开源社区协作与治理模式演进、开源软件安全与供应链风险识别,以及开源法律与知识产权保护.基于上述发现,提出强化人工智能与开源生态协同治理,完善供应链安全体系,推进法律与许可制度创新,构建面向产业与公共服务的数字开源基础设施等建议,以推动我国开源创新的可持续发展.

    2025年05期 No.243 125-139页 [查看摘要][在线阅读][下载 1580K]
    [下载次数:433 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:1 ]
  • 基于DTA的GitHub高星仓库活跃度评估方法

    游明东;彭佳恒;韩凡宇;王伟;

    以识别GitHub长期活跃高星仓库帮助开源社区构建和数字基础设施建设为背景,提出了一种基于时间序列预测模型的GitHub高星仓库长期活跃度评估方法,旨在解决识别仓库是否能够保持长期活跃的问题.该方法首次引入开发者活跃周期作为关键特征,用以提升仓库发展趋势预测的准确性.通过对活动指标的时间序列数据进行建模与挖掘,该方法提出了全新的活跃度计算公式DTA(Development Trendbased Activity),实现了对仓库活跃水平的准确量化评估.设计并制作了一个时间粒度细、覆盖范围广的基准数据集,并系统评估了多种预测模型的表现,最终确定了适用于开源仓库活跃度预测的最优模型.实验结果验证了所提方法的有效性,能够准确预测仓库的长期活跃情况.因此,引入DTA对仓库活跃度进行评估,能够帮助开源参与者识别长期活跃的仓库,确定参与重心,促进开源社区的构建和数字基础设施建设.

    2025年05期 No.243 140-150页 [查看摘要][在线阅读][下载 1692K]
    [下载次数:27 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:3 ]
  • 开源评价学:基于评价学理论的开源生态系统评价框架与方法

    赵生宇;王伟;韩凡宇;彭佳恒;游兰;

    开源生态系统作为现代软件产业的重要组成部分,其评价问题日益受到学术界和产业界的关注.然而,当前开源评价方法存在评价标准不统一、评价过程缺乏理论支撑、评价结果可比性差等问题.以评价学基础理论为指导,提出了开源评价学这一新的交叉研究领域,构建了面向开源生态系统的评价理论框架与方法体系.主要内容:基于评价学五大公理,构建了开源评价学的理论体系,提出了开源生态系统评价的基本概念、评价维度和评价标准;设计了包含问题定义、任务实例、算法机制、实现实例和支撑系统5个层次的评价条件框架,并提出了统计度量和网络度量相结合的评价模型;基于GitHub数据集进行实验验证,从开源仓库、开发者和社区3个维度对方法进行了有效性验证,结果表明所提出的评价模型在开源应用中具有较强的适用性与解释力.

    2025年05期 No.243 151-161页 [查看摘要][在线阅读][下载 1412K]
    [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 开源硬件:新工业革命的驱动力及未来趋势

    胡孟晗;成文静;戴翔;刘一清;

    面对新工业革命背景下算力复杂性上升与定制化需求加剧的挑战,开源硬件正成为打破封闭架构限制、增强技术自主可控能力的重要途径.重点关注了以RISC-Ⅴ(Reduced Instruction Set ComputerFive)为代表的开源指令集架构,系统梳理了其生态优势和产业价值;同时比较了国内外主要开源项目在设计开放性、系统灵活性及协同创新机制方面的不同特点;从时间维度展开分析,可以明确开源硬件从底层架构创新逐步走向异构融合和场景拓展的发展趋势.研究表明,开源硬件在智能制造、边缘计算、沉浸式终端等关键领域有着广阔的应用前景,能够有效提升算力利用效率,降低开发难度和系统成本.开源硬件正推动芯片设计从封闭模式向共享模式转变,为工业智能化升级和技术安全战略提供新的支撑.

    2025年05期 No.243 162-169页 [查看摘要][在线阅读][下载 1110K]
    [下载次数:66 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • OSS Insight:开源生态时空数据分析和智能洞察平台

    陈小伟;王伟;韩凡宇;包光磊;董菲;霍昊;刘辰;

    为更好地利用海量开源生态数据为社区开发和协作提供洞察,开发了OSS Insight.其系统架构和查询引擎的创新在于,利用HTAP(Hybrid Transactional Analytical Processing)数据库高效存储和查询GitHub数十亿事件数据,通过前端可视化实时生成洞察;其时空数据的深度挖掘在于,基于事件时间序列和开发者地理信息,对开发者行为模式和开源生态演变进行建模分析;其与LLM(Large Language Model)集成应用Data Explorer,利用LLM将自然语言查询自动转换为SQL(Structured Query Language),实现了对开源数据的智能问答和趋势洞察. Kubernetes案例的实证研究从开发者洞察、项目演进和组织协作这3方面进行了开源洞察分析.实验表明, OSS Insight能够对超大规模开源数据进行高效、全面的分析,其LLM驱动的交互式探索降低了数据分析门槛,可辅助用户进行数据洞察,可为开源社区治理提供实用的分析工具.

    2025年05期 No.243 170-182页 [查看摘要][在线阅读][下载 1601K]
    [下载次数:21 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]

开源与AI的伦理、法律及安全

  • 略论开源大模型数据集分发的合理使用

    赵云虎;杨宇宙;秦琳;

    大模型的开源不仅需要开放传统的计算机软件形式的模型架构、训练代码等,也需要开放模型的参数和数据集.根据“四要素分析法”和“三步检验法”的分析框架,尤其是考虑到以开放许可证分发的数据集具有转换性使用的性质和目的,以及对于科技发展和应用的公共利益,可以认定开源大模型数据集的分发属于合理使用,不需要上游权利人的著作权许可.这样,既满足了对于人工智能透明度的治理要求,也具有促进知识共享的积极作用.

    2025年05期 No.243 183-190页 [查看摘要][在线阅读][下载 1109K]
    [下载次数:187 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 生成式AI偏差认知传播的双层网络动力学模型与案例研究

    朱宏淼;赵晓冬;周慧敏;齐佳音;

    基于耦合网络与传播动力学,构建了企业管理者-普通员工双层网络中生成式AI(Generative Artificial Intelligence, GAI)偏差认知传播动力学模型,以揭示GAI偏差认知的传播机理.模型综合考量了层级间交流与认知培训的影响,并运用下一代矩阵法精确计算出传播阈值R0,为有效治理提供了关键量化依据:当R0<1时,偏差认知自发消失;当R0>1时,偏差认知存在扩散风险.此外,通过数值仿真对比评估两种干预策略,并结合案例研究深度解析了偏差认知在企业内生成与传播的驱动机制.

    2025年05期 No.243 191-201页 [查看摘要][在线阅读][下载 1489K]
    [下载次数:194 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 开源伦理的历史嬗变与未来展望

    庄表伟;刘润涛;

    开源伦理具有独特性,是开源生态应遵循的道德准则和价值观.通过对开源社会化行为、开源经典文本与典型事例的伦理评价发现,开源伦理发展演变经历了3个阶段:由早期黑客推动的“精英伦理”阶段,发展为以企业参与为标志的“商业伦理”阶段,以及当前由社会责任、隐私和地缘政治所决定的“外部伦理”阶段.中国开源技术与传统文化的结合正推动开源伦理进入新的发展阶段.

    2025年05期 No.243 202-208页 [查看摘要][在线阅读][下载 1097K]
    [下载次数:127 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:1 ]

  • “开源驱动AI:未来引擎”专辑导读

    <正>如果说蒸汽机是驱动人类从农业文明迈向工业文明的物理引擎,那么开源则是推动我们从物理世界跃迁至数字世界的核心创新范式.它并非单纯的技术协作模式,而是一个具有自组织保障、制度规则和文化价值观,并能像“机器”一样自动运行的创新系统.其带来的变革,正如工业革命一般,是全方位和颠覆性的,必将重塑经济、社会与全球格局.开源的内涵也已从软件延展至硬件、数据、算法、标准乃至内容,成为特斯拉重构汽车产业、DeepSeek变革AI产业链的底层力量.

    2025年05期 No.243 6-7页 [查看摘要][在线阅读][下载 627K]
    [下载次数:29 ] |[网刊下载次数:0 ] |[引用频次:0 ] |[阅读次数:2 ]
  • 下载本期数据