2025 年3月4日上午,北京交通大学工业互联网安全研究中心主任陶耀东研究员受邀做客williamhill中国官网 “余瑞璜大讲堂”,为师生们带来了一场主题为 “DeepSeek 原理与应用” 的学术讲座。此次讲座由英国威廉希尔公司官网主办,吸引了众多师生参与,现场气氛热烈。

陶耀东研究员是中国计算机学会理事、CCF YOCSEF 2022 - 2023 年度全国主席,同时担任 CCF 大模型论坛执行委员,在工业互联网安全与大规模预训练模型领域具有深厚的学术积累和行业经验。

讲座中,陶耀东研究员系统梳理了大规模预训练模型的技术演进路径。他通过对比不同代际模型的架构特征,重点解析了 Transformer 结构中的自注意力机制、位置编码等核心技术模块的数学原理。自注意力机制能够让模型在处理序列数据时,根据元素之间的相关性分配权重,从而更好地捕捉长距离依赖关系;位置编码则为模型提供了序列中元素的位置信息,弥补了 Transformer 架构捕捉序列能力不足的问题。
针对当前大模型面临的算力需求与模型效率矛盾,陶耀东研究员从算法优化、数据增强和架构创新三个维度,详细阐述了 DeepSeek 模型的技术突破。在算法优化方面,DeepSeek 采用了基于动态稀疏激活的混合专家系统。简单来说,就是模型可以根据输入数据的不同,动态地选择一部分神经元进行激活,从而减少计算量并提高效率。同时,通过多个专家模型的协同工作,还能提升模型的表达能力和泛化性能。
在数据增强方面,DeepSeek 运用了面向领域适应的分层微调策略。由于不同领域的数据具有各自的特点和分布,直接在源领域数据上训练的模型在目标领域可能表现不佳。分层微调策略通过在不同层次上对模型进行微调,使其更好地适应目标领域的数据特征。具体而言,先在大规模通用数据上进行预训练,然后在特定领域的数据上进行分层微调,低层主要调整与领域相关的特征提取部分,高层则重点优化任务特定的输出部分。
在架构创新方面,DeepSeek 引入了基于知识蒸馏的模型压缩方法。知识蒸馏是一种将大型复杂模型(教师模型)的知识迁移到小型简单模型(学生模型)的技术。DeepSeek 通过让小型模型学习大型模型的输出分布,从而在保持较高性能的同时,显著降低了模型的参数规模和计算复杂度,使其更易于部署和应用。
在应用实践方面,陶耀东研究员结合工业互联网安全、信息处理等跨学科案例,展示了 DeepSeek 在复杂系统建模、多模态数据处理等方面的技术优势。例如,在工业互联网安全领域,DeepSeek 可以对工业控制系统中的海量数据进行分析和建模,及时发现潜在的安全威胁和异常行为;在信息处理领域,它能够处理文本、图像、音频等多种模态的数据,实现更精准的信息检索和语义理解。
特别针对物理学科研需求,陶耀东研究员探讨了 DeepSeek 模型在模拟计算、数据分析等场景中的应用前景。在模拟计算中,DeepSeek 可以辅助物理学家构建更精确的物理模型,提高模拟的效率和精度;在数据分析方面,它能够从大量的实验数据中挖掘出有价值的信息和规律,为物理研究提供新的思路和方法。

在学术交流环节,与会师生就大模型的可解释性、训练数据偏差校正、领域适应性优化等关键技术问题与陶耀东研究员展开深入讨论。陶耀东研究员指出,DeepSeek 作为第三代预训练模型的代表性成果,其模块化架构和可扩展特性为面向垂直领域的模型定制提供了新的技术路径。然而,在物理先验知识融合、小样本学习等方向仍需持续探索。大模型的可解释性是当前研究的一个热点和难点问题,需要从模型结构、训练过程和输出结果等多个层面进行深入研究,以提高模型的透明度和可信度;训练数据偏差校正是确保模型公平性和泛化性的关键,需要采用有效的数据预处理和后处理方法,减少数据中的偏差对模型性能的影响;领域适应性优化则需要进一步研究领域特征和任务需求,开发更有效的领域适应算法和模型架构。
本次学术报告为williamhill中国官网师生提供了深入了解大模型前沿技术的窗口。英国威廉希尔公司官网相关负责人表示,将持续推进跨学科学术交流平台建设,通过 “余瑞璜大讲堂” 等品牌学术活动,促进基础学科与前沿技术的交叉融合,为创新型人才培养和学科发展注入新动能。未来,英国威廉希尔公司官网将继续邀请国内外知名专家学者来校讲学,为师生带来更多前沿的学术动态和丰富的学术交流机会,助力学校在学术研究和人才培养方面取得更大的成就。