摘要:数据挖掘技术是在近来信息化进程的发展和人们对信息需求的快速增加的大背景下应运而生的一项新技术。考古研究的进步使得找寻考古数据之间关系、并以此为途径研究其背后的社会和历史发展规律成为主题,将数据挖掘技术引入考古研究领域正好顺应了这一大趋势。决策树算法是典型的数据挖掘中的分类算法。为了适应考古研究的具体要求,我们基于C4. 5算法,提出了两点改进:增加了一个表示研究背景的参数向量以改进决策树算法无法充分利用先验背景的确定;改变了分裂判定准则——信息增益率的计算方法以提高算法运行速度。经过检验二者都获得了较好的效果。 关键词:数据挖掘;决策树;C4. 5分类算法;领域知识;等价无穷小 一、背景 当前社会信息化程度不断加深,更加广泛和深刻的影响着我们生活的方方面面。随着数据爆炸式的增加,我们熟悉、识别和利用数据的困难就越来越大,从而从中得到有用信息的开销就越来越高。也就是所谓的“数据富裕,知识缺乏”。数据挖掘技术正是在这种背景下不断发展和完善起来的。数据挖掘就是从大量的、无特定规律的数据中发现“有趣”模式的过程。所谓“有趣”是指易于理解的、具有某种必然性,在新的情况下可以推广适用的、潜在有用的、新颖的或者符合用户某种假设。 当前的考古研究也发展到了一个新的阶段。之前的考古研究,更多地着眼于遗迹和遗物的技术、功能、或者通过遗物和遗迹将考古学文化作为单位来考察,较少研究遗迹和遗物之间的关系,即使研究他们之间的“总体关系”,也很少考察这种“关系”背后的文化含义和社会含义。今天的考古研究已经从之前相对的“静态”变为“动态”,即考古研究将不止关注单体研究对象的单独意义,而是将其放在历史和当时社会的大背景下,来虑研究对象的完整的考古学价值。比如希望通过与相同类型不同时期的研究对象的对比,发现历史发展的轨迹;希望通过同一时期不同类型、地域的研究对象之间的联系,描绘当时的社会和文化。考古学已经不是单纯的为历史学的发展提供证据和补充的学科了,而是具有人类学和社会学背景的一门综合性学科。在这种情况下,根据当前技术和考古学本身的发展趋势,我们提出将数据挖掘技术引入到考古数据的处理之中,为实现上述目标创造条件。 正是在这双重背景下,社科院考古所安阳考古队同清华大学自动化系决定联合开发一种符合当前考古研究需要、并且反映考古学发展趋势的信息管理系统———E-Arch系统。此系统是基于严谨科学的考古逻辑和研究规律,利用信息科学发展的最新成果,整合翔实完整的考古学资料,构建一个大型的、开放性的综合考古系统,这一领域目前学术界还没有类似的研究,我们也很希望用自己的实践,为后来者提供某种经验和启示。 …… 全文阅读下载 作者简介:毛延辉,清华大学硕士研究生;张涛,清华大学自动化系博士生导师;唐际根,男,中国社会科学院考古研究所研究员,主要从事商代考古发掘与研究;郭志伟,中国社会科学院研究生院博士研究生 原文发表在《殷都学刊》2010年第1期 (责任编辑:admin) |