详情

基于函数拟合与机器学习模型的人工智能领域潜在高价值论文预测与特征分析研究

申报人:申娅 申报日期:2023-03-15

基本情况

2023
基于函数拟合与机器学习模型的人工智能领域潜在高价值论文预测与特征分析研究 盲选
创新训练项目
管理学
管理科学与工程类
B、学生来源于教师科研项目选题
创新类
2023-04
2024-04
利用函数拟合法和机器学习技术,完成对近年人工智能领域潜在高价值论文的分类预测,对比分析潜在高价值论文、普通论文和零被引论文的特征差异,探究并总结出潜在高价值论文的特征。预计项目期限内在高水平期刊上发表1篇相关论文或申请1-2项软著,为未来相关人员提供一定帮助。

(1)国家自然科学基金青年项目,716031282017/01-2019/12,结题,主持

(2)教育部人文社会科学研究青年基金,15YJC8700112015/03-2018/03,结题,主持

(3)江苏省自然科学基金青年项目,BK201609742016/072019/06,结题,主持

(4)Zewen Hu#, Angela Lin, Peter Willett. Identification of research communities in cited and uncited publications using a co-authorship network. Scientometrics, 2018, 96(03): 119. SSCI二区期刊)

(5)Zewen Hu, Yishan Wu, & Jianjun Sun. A quantitative analysis of determinants of non-citation using a panel data model. Scientometrics, 2018, 116(2), 843861. SSCI二区期刊)

(6)Zewen Hu, Yishan Wu. A survey-based structural equation model analysis on influencing factors of non-citation. Current Science, 2018, 114(11): 2302-2312. SSCI期刊)

(7)Zewen Hu, Yishan Wu. Regularity in the time-dependent distribution of the percentage of never-cited papers: An empirical pilot study based on the six journals. Journal of Informetrics, 2014, 8(01): 136146. SSCI一区期刊)

       本项目来源于教师科研项目选题,属于国家社会科学基金项目“面向海量科技文献的潜在‘精品’识别方法与应用研究”中的一部分,得到了指导老师的支持和肯定。
校级

项目成员

序号 学生 所属学院 专业 年级 项目中的分工 成员类型
申娅 管理工程学院 大数据管理与应用 2021 第一负责人,负责项目的整体规划
沈舒妍 管理工程学院 大数据管理与应用 2021 第二负责人,数据的处理分析,论文书写
许可 应急管理学院 安全工程 2021 论文的特征差异分析
沈夏冰雪 管理工程学院 大数据管理与应用 2021 论文数据搜集

指导教师

序号 教师姓名 教师账号 所属学院 是否企业导师 教师类型
胡泽文 002580 管理工程学院

立项依据

运用python编程软件,通过函数拟合法,对人工智能领域现存的高价值论文进行识别和分析,得到高价值论文的共性特征。并以此类论文作为正向样本,通过机器学习技术中的分类预测方法,预测出潜在高价值论文;将潜在高价值论文与普通论文、零被引论文进行对比分析,深入探究三类论文之间的特征差异,从中总结出领域潜在高价值论文的特征,为更精确地识别潜在高价值论文提供依据,以期为国内人工智能领域的相关研究提供一定的建议和指导。

运用python编程软件,对Web of Science中人工智能领域的潜在高价值论文进行预测和特征分析。以文献为原始数据,利用函数拟合法,识别出其中存在的高价值论文,再通过机器学习技术,分类预测得出潜在高价值论文,并将识别出的潜在高价值论文与领域内的普通论文、零被引论文进行对比,挖掘潜在高价值论文的特征。为了系统化和定量化地对人工智能领域潜在高价值论文进行分析和研究,我们准备重点研究以下四个方面的内容:

①人工智能领域高价值论文的识别

通过Web of Science数据库搜索人工智能领域的相关文献,利用函数拟合法,基于拟合的函数对论文的引文曲线进行拟合,参照已公认的高价值论文的特征指标,识别出其中的高价值论文。

②高价值论文的特征分析和数据预处理

将识别出的高价值论文作为正向样本,利用文献的标题对原文及引文库进行合并,得到原文引文库。基于该数据库,将各论文是否为开放文献等信息标记为0-1变量,并且对除了0-1变量以外的指标数据(如摘要长度指标)进行测度和归一化处理。

③潜在高价值论文的预测

通过机器学习技术中的分类预测方法,基于机器学习模型中的决策树、随机森林等模型,设计和实现人工智能领域潜在高价值论文的自动识别模型。将近年内的海量低被引论文放入模型之中,实现论文的自动识别和分类,从中识别出潜在高价值论文。

④潜在高价值论文、普通论文、零被引论文的特征差异分析

在识别出潜在高价值论文之后,对潜在高价值论文、普通论文、零被引论文之间的特征差异进行对比,从三类论文本身的研究内容、研究方向等属性和论文的关键词数量、文献篇幅等外部指标,多角度全面分析三类论文之间的特征差异,从中总结出潜在高价值论文的特征。

        机器学习是一门多领域交叉学科,涉及概率论、统计学等多门学科,它是人工智能核心,是使计算机具有智能的根本途径。机器学习是研究怎样使用计算机模拟或实现人类学习活动的科学,是人工智能中最具智能特征,最前沿的研究领域之一。近十几年来,机器学习已成为人工智能的重要课题之一。传统机器学习的研究方向主要包括决策树、随机森林、神经网络等方面的研究。分类预测是机器学习中一种常用的算法,被广泛用于数据挖掘之中。

        引文分析法是利用各种数学和统计学的方法,对科学期刊、论文、著者等各种分析对象的引证与被印证现象进行分析,以便解释其数量特征和内在规律的一种文献计量分析方法。运用函数拟合的方法对论文的引文曲线进行研究,是识别高价值论文的重要方法之一。

        随着人工智能领域的快速发展,国内外已经涌现出大量论文。这些论文中有一经发表便得到了广泛关注的高价值论文,也有大量在最初不受关注,但之后被广泛引用的潜在高价值论文,这些论文的研究方向、研究方法等同样值得探究和借鉴。因此,从海量的低被引文献中识别出潜在高价值论文,已成为当今的热门研究话题之一。

1)在识别高价值论文时,对引文曲线进行先计算拟合度并判断对称轴位置是否符合要求,而非直接先进行曲线的批量拟合,从而提高在面对大量的数据时的识别效率;

2)在拟合引文曲线时,为提高拟合值的准确性,保证后期识别的准确性,运用Python编程,采用最小二乘法计算误差,利用迭代的算法降低误差,使拟合参数达到最优化;

3)引入机器学习中的分类预测方法,以高价值论文作为正向样本,实现潜在高价值论文识别模型的建模,并运用模型识别出人工智能领域现存的潜在高质量论文。

(1)技术路线

(2)拟解决的问题

       完善人工智能领域与图情领域数据分析的合作,旨在通过函数拟合方法识别高价值论文,通过机器学习方法预测和分析人工智能领域潜在高价值论文

(3)预期成果

对人工智能领域高质量论文、潜在高质量论文的识别方法和特征分析有较为完整和理性的认识;

②可以熟练掌握并应用python编程软件以及函数拟合和机器学习方法;

可以熟悉掌握并应用机器学习中的分类预测模型,领悟扎根理论思想,提高对资料的敏感度,对科研理论进行理论评价;

④将所学的专业知识熟练应用于项目研究中,熟练利用专业建模软件解决实际的研究问题,项目参与人员的实践动手能力与科研能力得以明显提高;

⑤预期到202441日,在高水平期刊上发表1篇相关论文或申请1-2项软著。

研究期限:20234-20244

20234-20236

1)组建团队,建立项目的研究规范,制定详细的工作计划,明确分工;

2)文献检索与现有资料的整理,通过Web of Science数据库搜索人工智能领域的相关论文。利用函数拟合法,对论文的引文曲线进行拟合,参照公认高价值论文的特征指标,识别出其中的高价值论文。

20237月—20239

将识别出的高价值论文作为正向样本,利用文献的标题对原文及引文库进行合并,得到原文引文库。基于该数据库,通过标记0-1变量、归一化处理等方法,对论文的相关数据进行数据预处理。通过机器学习分类预测方法,基于决策树等模型,设计和实现人工智能领域潜在高价值论文的自动识别模型。将近年内的低被引论文放入模型之中,实现论文的自动识别和分类,识别潜在高价值论文,并撰写相关论文。

202310月—202312

对潜在高价值论文、普通论文、零被引论文的特征进行对比,从三类论文本身的研究内容、研究方向等属性和论文的关键词数量、文献篇幅等外部指标,多角度全面分析三类论文之间的特征差异,从中总结出潜在高价值论文的特征,为未来识别潜在高价值论文提供理论依据。

20241月—20244

撰写结题报告“基于函数拟合与机器学习模型的人工智能领域潜在高价值论文预测与特征分析研究”(20000字),提出有待进一步研究和解决的问题

目前,已初步完成函数拟合相关编程内容的撰写,并经过试验证明了编程内容的可行性。

机器学习是人工智能及模式识别领域的共同研究热点,其理论和方法已被广泛应用于解决科学领域的复杂问题。机器学习技术可以实现对海量数据的自动处理,其中的决策树、随机森林等方法为人工智能领域论文的分类预测提供了支持。目前,项目组全体成员已熟悉掌握机器学习的相关方法,且全组成员对该项目的研究内容、研究方向清晰明确。

由于分析需要的数据量庞大,需要更大的数据库来支持我们的研究,从而保证研究的全面性和准确性。数据处理设计较多编程内容,所需更专业编程人员;同时,需要更加专业的文献检索软件来精准定位数据。

经费预算

开支科目 预算经费(元) 主要用途 阶段下达经费计划(元)
前半阶段 后半阶段
预算经费总额 6000.00 数据分析及论文发表 3800.00 2200.00
1. 业务费 4000.00 数据采集分析及论文出版 2300.00 1700.00
(1)计算、分析、测试费 0.00 0.00 0.00
(2)会议、差旅费 1500.00 用于会议、差旅 1000.00 500.00
(3)文献检索费 500.00 专业学科网站文献检索下载 300.00 200.00
(4)论文出版费 2000.00 论文发表及出版 1000.00 1000.00
2. 实验装置试制费 0.00 0.00 0.00
3. 材料费 2000.00 资料购置、打印、复印、印刷等费用 1500.00 500.00

项目附件

  • 管理工程学院+基于函数拟合与机器学习模型的人工智能领域潜在高价值论文预测与特征分析研究+申娅.doc
    下载
结束