AI赋能的甲骨文语义分析:商代 “王—祭” 关系与华夏思想起源研究


2026年05月25日 02:14     美中时报    邓卓毅 (Troy Deng)
字号:较大   适中


       作者: 邓卓毅 (Troy Deng)上海协和国际外籍人员子女学校

       电子邮件(E-mail):troywdeng@gmail.com

       指导教授:范毓周,南京大学历史学院教授,博士生导师,中国社会科学院古代文明研究中心专家委员会委员,原芝加哥大学客座教授,国际著名甲骨文专家


       【摘要】针对传统甲骨文研究的诠释难题与小规模历史语料的限制,本文探讨简单词嵌入模型能否在商代卜辞中揭示有意义的概念关系。本文采用自然语言处理(NLP)技术,尤其是Word2Vec模型,对甲骨文(Oracle Bone Inscriptions, OBI)开展系统性的语义分析。通过构建包含三十条具有代表性的卜辞语料库,本文对十个核心字的语义关系进行定量分析。研究发现,“王”(king)与“祭”(sacrifice)的语义相关度达到0.88,表明商代王权与祭祀活动之间存在深度绑定。进一步的聚类分析识别出三个概念簇。研究表明,商代已形成“神权政治”的社会结构与“以农业为基础”的经济基础。祭祀活动不仅是宗教仪式,更是维系政治秩序、社会认同与王权合法性的核心机制。本文为理解中华文明早期国家形成与思想起源提供新的定量证据,展示智能人文学在传统历史研究中的应用潜力。


       【关键词】甲骨文;人工智能;语义分析;商代思想;智能人文


       1. 引言


       甲骨文(Oracle Bone Inscriptions, OBI)是理解商代社会的关键材料。传统上,相关研究在很大程度上依赖专家解读,缺乏对深层语义结构的系统性定量分析。近年来,数字人文与自然语言处理(NLP)的进展为此类分析提供了新的方法。本文将人工智能(AI)中的Word2Vec模型引入甲骨文研究,以计算方式考察核心概念关系及其社会意涵。


       尽管数字化工作已取得进展,但现有研究主要集中于数据保存与字形处理。语义关系的定量分析仍存在显著空白。诸如“政教合一”等理论虽广为流行,却缺乏来自文本数据的定量实证支持,从而限制了我们对商代社会及华夏思想起源的理解。


       本文聚焦以下问题:卜辞中“王”(king)与“祭”(sacrifice)之间的语义关系为何?该关系是否反映出以仪式为中心的社会政治结构?本文提出如下假设:


       1) “王” 与 “祭” 在语义上高度接近,显示概念绑定.


       2)这一核心关系与其他领域(如军事、农业)相连接,呈现不同的概念簇.


       3)这些结构可为 “祭祀国家” 模型提供定量证据,并阐明早期中国思想的起源。


       为检验上述假设,本文构建主题语料库,通过尝试使用Word2Vec模型训练字向量,并进行相关度计算与聚类分析这一跨学科路径不仅旨在为甲骨学提供新的分析工具,也希望在技术分析与人文解释之间建立桥梁,为理解商代社会结构、宗教观念与早期中国思想史提供新的经验性视角。


       2. 文献综述与研究问题


       理解商代“王—祭”关系,需要考察三个方面,即:传统甲骨文研究、数字人文应用,以及关于商代社会政治结构的理论。


       2.1 传统甲骨文研究


       甲骨文研究经历了若干阶段并形成关键方法进展。早期阶段(约1899–1920年代)以破译与编纂为主,包括Sun(1904)的开创性文本分析以及Luo(1913)的系统性汇编。1928年殷墟科学发掘开启了第二阶段(约1928–1949)的系统研究,代表性成果包括董作宾对卜辞的断代框架(Dong, 1933)以及郭沫若的社会史阐释(Guo, 1978–1982)。当代阶段(1949年以后)则在多学科综合研究方面投入巨大,如陈梦家的综合性梳理(Chen, 1956)与裘锡圭在文字释读上的突破(Qiu, 1988)。


       尽管取得诸多成就,传统范式仍存在明显局限:其一,过度依赖专家直觉;其二,偏重个案分析而非系统性的概念关系;其三,对“王”与“祭”等核心关系的讨论主要基于定性分析,缺乏定量证据。


       2.2 数字智能人文应用


       近年来,智能数字化研究进展包括基础数据库建设(如华东师范大学汉字智能检索网络数据库与香港中文大学多功能汉字数据库),以及碎片缀合、字形识别等初步计算技术(如Huang(2018)的计算机辅助甲骨缀合研究与Liu(2020)的甲骨文字深度学习识别研究)。


       然而,这类方法仍存在显著缺口,例如研究重点多在文本数字化与物质载体处理,而非对语义内容进行计算分析。多数既有研究成果主要发挥高级检索作用,往往忽视将卜辞作为“语言数据”来揭示潜在概念结构的机会,因此本文正拟在此处作出回应。


       2.3 理论争论:祭祀、国家与王权


       对“王—祭”关系的解释,直接关联到关于商代社会性质的核心争论,主要体现为三种观点:


       · 祭祀国家说(以Zhang(2002)为代表):强调商代是“政教合一”的雏形,王权合法性来自对祖先与神灵祭仪沟通的垄断。祭祀不仅是宗教行为,更是国家最核心的政治活动。


       · 早期国家说(以Ito(2002)为代表):更强调官僚组织、军事控制等国家性特征,同时承认祭祀的重要性;在此框架中,祭祀被视为多种治理工具之一。


       · 部落联盟说(部分西方学者主张,Keightley, 2000):质疑商代的集权程度,提出以区域政治体联盟为基础的相对松散结构;该观点认为王权及其对祭祀的控制未必绝对。


       上述理论分歧虽基于相近材料,却缺乏来自文本本身的系统性定量证据。


       2.4 研究立场


       综上,既有研究奠定了坚实基础,也揭示出清晰的创新路径:传统研究长于释读,却缺少宏观层面的量化方法;数字智能人文强调“数字化”,但“语义计算”仍处于起步阶段。理论争论则迫切需要更多来自文本内部的系统性证据。


       因此,本文是一项方法论探索,尝试运用词嵌入模型对甲骨文开展探索性的定量语义分析。通过计算绘制围绕“王”与“祭”的概念联结,本文力求为史学研究提供一种数据知情的补充视角,为持续的学术讨论增加新的证据层次。


       3. 研究方法


       本文采用如图1所示的研究框架,融合语料库语言学、自然语言处理(NLP)技术(Raschka, 2024)与历史文本分析,对商代甲骨文中“王”与“祭”的语义关系进行定量研究。整体流程包括三个阶段:数据准备、计算建模与历史验证。


图1 研究框架




       3.1 语料库构建与预处理


       本文以三十条高质量卜辞(表1)构成专门语料库作为数据基础。卜辞选自《甲骨文合集》(Guo, 1978–1982)等权威资料,并遵循如下筛选标准:1)释读上具有学界共识,以降低争议;2)覆盖祭祀、战争、农业与天象等主要主题;3)包含核心字;4)能够代表不同历史时期。


表1 卜辞语料库



       鉴于文字系统的特殊性,本文按Hu(1999)制定文本规范化规则:1)将异体字统一为常见的现代释读;2)对假借字按语境标注其所指意义;3)将合文拆分为单字;4)专名作为单一单位处理。每条处理后的卜辞被表示为记号序列(如[“王”, “祭”, “河”]),作为模型训练的原始输入。最后,形成包含十个核心字的列表。


      3.2 词嵌入模型选择与训练


       本文选用Skip-gram架构的Word2Vec模型,为每个字生成向量表示(embedding)(Mikolov, 2013)。选择该模型基于三点考虑:第一,其对小数据集更高效,相比BERT等大模型更适配本文语料规模;第二,输出向量便于进行余弦相关度等简单且可解释的计算,以量化概念接近性;第三,该模型能够有效捕捉分布式语义,是构建概念网络的关键步骤。


       针对小规模数据,本文设定关键参数如下:上下文窗口为3;向量维度为50,以平衡表达能力与过拟合风险;训练轮次为800,以保证收敛。


       3.3 分析与可视化


       分析阶段将向量输出转化为定量与可视化结果(Van Rossum, 2023)。


表2 相关度矩阵




       · 语义相关度计算:计算所有核心字向量两两之间的余弦相关度,生成相关度矩阵(表2)。该矩阵可直接衡量“王” 与 “祭” 等概念之间的语义接近性,并进一步以矩阵热图形式展示(图2)。


图2 语义接近性热图



图3 二维空间分布图





       · 降维可视化:采用主成分分析(PCA)将50维向量投影到二维平面,得到空间分布图(图3),用于呈现核心字在语义空间中的相对位置。同时,连线粗细表示字与字之间的语境关联强度,线条越粗代表关系越强。


       3.4 验证策略


       为应对样本量较小的挑战,并将计算结果落实到既有历史研究之中,本文采用多维度验证策略。


表3 通过改变向量维度(v.d.)进行敏感性分析




       · 敏感性分析:通过改变关键模型参数(向量维度)检验核心结果(如高排名相关度字对)的稳定性。为便于展示,列出四个核心字及其最相关的三个对应字(表3)。比较表明核心语义关系具有较强稳定性:最高相关度字对(如“王-雨”“雨-祭”)及其高分在不同维度下均可被稳定识别。尽管“征”对参数更敏感,但前三个核心字关系的稳健一致性仍支持主要发现的可靠性。


       · 历史语境化:将计算得到的概念簇(如“王-祭-征”)与《左传》(Zuo, 1980)“国之大事,在祀与戎”等记载进行对照;并回到原始卜辞中核查高相关度字对(如“祭-雨”)是否确实在相关语境(如祈雨)中频繁共现。


       本文所呈现的相关性旨在提供研究指引,而非证明完全契合。计算方法用于引导研究,而非以技术炫示为目的。注:


       · 在语料极为有限的情况下,本文未采用大型预训练模型,将可解释性置于性能之上。


       · 相关度分数以比较方式使用,用以呈现受限语义空间内概念间的相对接近性。


       4. 分析与讨论


       本文使用Word2Vec为甲骨文字生成语义向量表示(Nicholson, 2021),并在此基础上开展定量分析,以验证核心假设并系统揭示“王—祭”关系的结构特征,从而呈现商代社会的概念景观。


       4.1 “王—祭” 关系的定量验证


       语义相关度分析直接回应本文的核心研究问题。结果显示,“王”与“祭”的余弦相关度为0.88,在所有字对中排名第二。这一量化证据有力支持“王权与祭祀礼仪深度绑定”的核心假设,表明在甲骨文的语义世界中,“王”与“祭”具有高度相关的语境分布,概念上难以分割。进一步分析显示,“王”与“征”(warfare)的相关度最高,达到0.67,说明王权与军事力量密切相关。综合而言,这表明商王具有政治、军事与宗教权威三位一体的角色。


       4.2 商代的概念结构与社会逻辑


       聚类分析清晰识别出三个主要概念簇(图4),直观回答商代观念如何被组织。


图4 空间分布图中的聚类分析结果




       · 政治—祭祀簇(“王”“祭”“征”):簇内平均相关度为0.73(即(0.88+0.67+0.65)/3)。该簇揭示祭祀与征伐作为国家核心事务的概念统一性,为《左传》(Zuo, 1980)“国之大事,在祀与戎”的后世记载提供语义层面的证据,支持政权与宗教权威相融合的治理模型。


       · 自然神祇簇(“帝”“河”):该簇将至上神“帝”与具体自然神“河”联系在一起,反映商代多层次的信仰体系。


       · 农业—气候簇(“雨”“禾”“年”):簇内高相关度0.73(即(0.66+0.70+0.84)/3)凸显农业生产对气候条件的显著依赖,以及商人对丰收的深切关切,揭示以农业为基础的经济结构与潜在的生计焦虑。


           PCA可视化显示,“祭” (祭)处于多个领域的交汇位置。这一空间分布直观确认祭祀在沟通人神、整合社会方面的核心作用(Zhang, 2002)。


       “天”在语义网络中的相关性最弱,表明其在核心语境关系中处于边缘位置。这提示在商代,“天”的观念尚未具备与“帝”或“王”同等的神圣性或王权权威(Zhang, 2002;Allan, 1991)。从另一角度看,若商代政治结构更为松散去中心化,则我们应预期“王”更紧密地与家族或地域标识相联系,而非与祭祀活动高度相关。


       4.3 结果综合与对假设的回应


       综合结果验证核心假设:0.88的高语义相关度为“王”与“祭”的概念绑定提供定量证明。三个概念簇的结构揭示出以王权与礼仪为中心、组织化的观念体系。由此,本文以数据驱动的方式为商代“祭祀国家”及其政教合一的治理逻辑提供了补充视角,从而回应关键史学争论。


       5. 讨论


       5.1 学术反思与定位


       “王”与“祭”的高语义相关度(0.88)及其同属“政治—祭祀—征伐”概念簇,为理解商代社会提供数据驱动的证据。该结果与“祭祀国家说”(Zhang, 2002)高度一致,为经典的“政教合一”观点提供了系统性的文本支持。相较传统历史分析,本文的网络化方法在一定程度上减少了选择性诠释偏差。不同于以数字化或数据库建设为主的既有数字人文工作,本文探索将词嵌入模型用于甲骨文深层语义挖掘,体现了从“文本数字化”迈向“语义计算”的方法路径。


       5.2 局限与挑战


       本文的主要局限源于研究的探索性。首要约束是样本量,限制了统计意义上的普遍性。在方法层面,Word2Vec的静态向量难以捕捉语境化的语义细微差别,且仅依赖现代释读字形,可能导致原始字形信息的损失。此外,本文对历时性变化的分析仍不足;单一模型难以精确追踪超过两百年的商代语义演化。上述限制在一定程度上亦源于材料稀缺与可机读语料建设不足。


       5.3 未来研究方向


       后续研究可:1)通过构建更大规模、精细标注的可机读语料库扩充数据;2)通过测试具备语境感知能力的模型(如BERT)并引入字形多模态信息来改进方法;3)通过严格的历时比较(训练分期模型)与跨文本分析(如与西周金文比较)深化问题意识。最终,构建交互式“甲骨文概念知识图谱”有望将该范式转化为可持续的研究基础设施。


       6. 结论


       商人曾以龟甲兽骨与神灵沟通;而今天,我们则尝试以数据、算法与跨学科方法重新理解历史。本文尝试将词嵌入模型应用于聚焦的甲骨文语料库,以定量视角呈现商代的概念结构。分析表明,“王”与“祭”之间存在紧密的语义联结,并给出与部分关于商代社会政治结构的历史理论一致的初步数据驱动观察。


       在承认其探索性质与限制(如数据有限与模型简化)的前提下,本文主要作为案例,用以评估计算工具如何更为负责地用于甲骨学研究。本文的价值并不在于给出关于商代社会的终局性结论,而在于展示人工智能与数字人文方法如何与传统历史学研究形成互补,并为古代文明研究提供新的观察路径。未来研究可通过扩展数据集、整合语境与图形信息,并开展更系统的历时分析来进一步推进该方向。


       参考文献


       Sun, Y. (1904). Examples of oracle bone inscriptions. Yiwen Press.

       Luo, Z. (1913). Yinxu writings on oracle bones. Yongmuyuan.

       Dong, Z. (1933). Examples of periodization in oracle bone inscriptions studies. Institute of History and Philology, Academia Sinica.

       Guo, M. (Ed.). (1978–1982). Collected oracle bone inscriptions. Zhonghua Book Company.

       Chen, M. (1956). A comprehensive study of the oracle bone inscriptions from Yinxu. Science Press.

       Qiu, X. (1988). Essentials of Chinese writing. Commercial Press.

       Huang, T., et al. (2018). A study on the application of computer-assisted oracle bone fragment rejoining techniques. Cultural Relics, (2), 56–64.

       Liu, Y., et al. (2020). Research on oracle bone character recognition based on deep learning. Acta Scientiarum Naturalium Universitatis Pekinensis, 56(1), 123–130.

       Zhang, G. (2002). Shang civilization. Liaoning Education Press.

       Ito, M. (2002). The formation of ancient Chinese dynasties. Zhonghua Book Company.

       Keightley, D. N. (2000). The ancestral landscape: Time, space, and community in Late Shang China (ca. 1200–1045 B.C.). Institute of East Asian Studies, University of California, Berkeley.

       Raschka, S., et al. (2024). An overview of large language models. Journal of Machine Learning Research, 25(137), 1–73.

       Hu, H. (Ed.). (1999). Interpretations of the collected oracle bone inscriptions. China Social Sciences Press.

       Mikolov, T., et al. (2013). Efficient estimation of word representations in vector space. In Proceedings of the International Conference on Learning Representations (ICLR) Workshop.

       Van Rossum, G., & Drake, F. L., Jr. (2023). Python 3 tutorial: An introduction to Python. Python Software Foundation.

       Zuo zhuan. (1980). Zhonghua Book Company. (Annotated ed. of the Thirteen Classics)

       Nicholson, B., et al. (2021). Digital history and the vector space: Word embeddings for historical research. Journal of Digital History, 1(1), 1–41.

       Allan, S. (1991). The shape of the turtle: Myth, art, and cosmos in early China. State University of New York Press.

   



 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
分享按钮
 
评论 请在下方区域中输入……
内容 
提交