Autumn E-Learning  秋天数位学习

关注于现代远程教育,力求专业,努力成为E-learning方面专家!

文本智能处理技术在远程教育元研究中的应用 一月 10, 2008

Filed under: 技术 — Iautumn @ 3:31 下午

魏顺平 何克抗

【摘要】随着远程教育研究的不断开展,对远程教育领域学术论文的研究,即远程教育元研究,也日渐显示出其必要性和可行性,一些学者如张伟远、殷丙山等人于不同时期开展了远程教育元研究。然而,由张伟远和殷丙山所开展的两项研究中均未对得出各项统计数据的方法做出详细的描述。为了改善远程教育元研究中数据统计的效率,本研究将引入面向文本的智能处理技术,如信息提取、新词识别、文本分类等,设计并开发对文献文本进行元数据信息提取、新术语识别、文献分类等处理的一套方案,让计算机程序帮助研究者自动完成一些任务。经检验,本研究所提出的文献文本处理方案是有效的,术语识别查全率在70%左右,文献分类准确率也在 85%左右,能够满足快速获得一些统计数据的要求。

【关键词】 远程教育元研究;信息抽取;新词识别;文本分类

问题的提出

  学术期刊所登载内容反映了某领域研究的最新进展,因此,我们要发现远程教育研究的热点问题,最好的办法就是研读远程教育领域及相关领域的学术期刊,从中发现大家讨论比较频繁的一些问题和这些问题的研究结果。这其实就是远程教育元研究。

  张伟远(张伟远,1999)曾于1999年选择1997年和1998年中国和英国、美国5份著名的开放和远程教育的学术杂志中的638篇论文为样本,分析比较中国和英、美在论文的格式、研究方法、数据处理、研究主题、论文撰写方面的不同。五年之后,殷丙山等人(殷丙山,张柘,陈丽,2005)选取了2001 年到2004 年两份国内远程教育学术杂志(《中国远程教育》和《开放教育研究》)中的论文为调研对象,总结归纳了这些研究论文的数量、参考文献、摘要、图表、研究方法、论文主题、论文研究领域等方面的内容。

  然而,这两项研究均未对得出各项统计数据的方法做出详细的描述,使得后来的研究者只能采取人工的方法去计算一些指标的数量,比如参考文献数量、论文主题、论文研究领域等,并且,他们在得出论文主题、论文研究领域的一些统计结果后并未能针对某些关注度较高的主题、领域所包含的文献进行人工研读,从而就无法发现中国远程教育学术研究现状。

  杨开城等人(杨开城,张润芝,贺红星,2006)于2006年对教育技术领域杂志的论文进行了元研究,这项研究由两部分组成:一是文献选择,研究者通过教育技术领域的术语来对文献样本进行分词处理,从,度信息来选择人工研读文献;二是文献研读,研究者人工研读文献,从中分析教育技术基本研究中的话语逻辑。

  随着远程教育研究的不断开展,研究文献必然会越来越多,以往全靠人工方法去分析、处理文献的方式显然是低效的,杨开城等人通过计算机程序来对大量文献进行处理无疑是一种高效的处理方法,我们可以参考他们的文献选择方法来研制我们的文献选择方法,从而提高研究效率,将更多的时间用于研究者所感兴趣的领域的文献的人工研读。张伟远、殷丙山等人的研究则给远程教育元研究树立了范型,我们将参考他们的文献统计项进行统计分析。这里我们选取论文主题、论文研究领域两个耗时较多的统计项作为本研究试图采用智能方法来完成的统计任务。

  论文主题一般通过一个或几个术语来表示,比如文献中的主题词就是术语,因此我们可以通过计算机程序来统计术语在篇章中的出现频率来达到确定论文主题的目的。一般而言,在某篇文献中出现频率排在前列的术语便可作为该文献的主题。论文研究领域则可通过一组术语来表示,比如“远程教育教与学”研究领域可以通过“同步课堂、网络教学、网络教学环境、网络学习、网络学习环境、网上教学”等一组术语来表示,因此我们可以对术语按照研究领域进行分类,然后在术语频率统计的基础上按照研究领域类别进行术语频率求和统计,从而得到各个研究领域所包含的术语频率之和,以此作为文献所属研究领域的判断依据,从而达到自动统计论文研究领域的目的。而要完成这两个统计项的自动统计任务,还需要做一系列的准备工作,如:文献收集、术语提取、术语分类等等,这些工作将构成一个完整的文献文本处理方案,这也是本研究的研究目的。

研究方法

  要设计并开发一套文献文本的自动处理方法,首先需要对前人在这方面的研究成果,特别是面向文本的智能信息处理方面的成果进行重点调研。这可以通过文献研究法来完成。

  在文献研究的基础上,总结前人的已有成果,包括现有的软件和算法说明,然后设计并开发计算机程序,在开发过程中需要反复调试,以求得到一个较好的处理结果,这就需要用到开发研究方法。

  1. 文献研究法

  由于本研究所要研制的方法主要是对文献文本进行处理,这就涉及到自然语言处理领域中的面向文本的智能信息处理技术。于是,笔者采用文献研究法,主要是通过互联网,如搜索引擎、CNKI中国期刊网,以及学术书籍来查阅资料,从中对面向文本的智能信息处理的各种技术进行全面而深入的了解,从而为下一步的程序开发做好准备。

  面向文本的智能信息处理,包括自动文本分类、信息检索、信息提取、自动文本摘要,得到了广泛的应用。本研究将要应用的技术有中文分词、信息提取和文本分类。

  中文分词是面向文本的智能信息处理中的一项基础技术,该领域的其它技术都必须用到分词技术。由于开发分词工具需要建立大型的词库和语法知识库,费时费力,也非笔者能力所及。所幸的是,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(中科院计算技术研究所,2002),并在网上公布了源码。该系统的功能有:中文分词,词性标注。该系统的分词正确率高达97.58%。因此笔者在研究过程中采用了该分词工具。

  信息提取系统是这样一个计算机程序系统,这个系统的输入是非受限文本,系统按照用户的预期,从文本中提取出用户预先指定的某些类型的信息。实质上,信息提取系统进行的工作是从非结构化的文本中提取结构化的信息。所谓非结构化信息,是指用户感兴趣的信息未经整理,分散在文本的各处,用户必须通过阅读并理解文本的方式获取这些信息。结构化信息是指那些已经过整理,并按照一定格式编码存放且不含无关(俞士汶,2003,p307)。

  文本分类系统(Text Categorization,或Text Classification)就是按照文本的主题以及事先制定的类别系统将具体文本划归适当类别的计算机系统,完成自动分类任务的计算机程序有时也称做分类器(Classifier)(俞士汶,2003,p324)。一种典型的文本分类过程如图1所示。

  领域知识库就是一个类别系统,它将某个领域的术语分成若干层次,纳入不同的类别中。各个类别的频次通过每个类别下属的术语的频次来得到,简单的处理方法就是通过术语频次求和来得到。

  2. 开发研究方法

  教育技术学的研究有着自己独特的方法论原则,该原则就是开发取向。所谓开发取向,是指通过研究开发和设计的原理以及各种可重用的技术来尝试解决实际的教育教学问题,并在这个过程中体验理解教育教学规律,以形成对教育教学规律的独特认识的研究取向(杨开城,2004)。

  本研究的目的是设计并开发一套文献文本处理方案。要保证该套方案的有效性,本研究在研究过程中将依照开发研究方法,先构造出一个基本能达成目标的初步方案,然后将这个方案应用于实践,通过实践来检测这个方案的缺陷,并有针对性地改进。因此文献文本处理方案的设计开发将分为三步展开,即初步方案的制定、实施、方案的缺陷分析及改进。其实不仅限于三步,如果研究者对方案仍不满意,需要“实施-改进-实施”多次循环,直至满意为止。

研究结果

  针对远程教育元研究中的需求,通过综合应用各种面向文本的智能信息处理技术,本研究提出一套文献文本处理流程,如图2所示。

  1. 从期刊网上下载文献及复制元数据信息

  这一步操作主要由人工完成。首先从学术期刊网(CNKI)上检索所需要的文献,并下载PDF格式的文件,还要收集关于该文献的元数据信息,诸如标题、作者、年份、期次、摘要、关键词等。从期刊网上采集得到的文献元数据信息以文本形式存储,其中一个片断如表1所示。

  2. 文献格式批量转换

  PDF格式的文件可通过Acrobat Reader转换为文本(TXT)格式,但是只能一个一个转,费时费力。于是笔者从网上找到Foxit Software公司开发的PDF Text Converter(V1.1),该工具可以批量地将PDF文件转为文本文件,省去了原来通过Acrobat Reader逐个转换的麻烦,大大提高了工作效率。

  3. 文献文本内容及元数据入库

  我们知道,原始的元数据形式如表1所示,各种信息混同在一起。这里我们便要用到信息提取技术,通过总结每类信息的呈现规则,如文献标题以“题名 ”开始、关键词信息以“中文关键词”开始等,并用正则表达式将这些规则表达出来,以便计算机程序能够理解这些规则。这样我们便完成了元数据信息提取的工作。由于文献标题与文献从期刊网上下载时得到的文件名是一致的,因此我们可以通过文献标题来将文献文本也读入数据库中,便于后面的操作。

  4. 术语识别

  在本文的“文献研究法”部分已经阐述了术语识别的一般原理,下面直接给出实现术语识别的过程。整个程序的实现过程如下:

  ①从数据库中读取文献内容;

  ②将文献根据标点符号等标志划分成子句;

  ③利用中科院分词工具ICTCLAS对子句进行切分,得出分词碎片;

  ④将分词碎片按照组合规律进行组合,形成候选术语,例如某个字句经过切分得到w1、w2、w3等三个词语,按照组合规律,存在的候选术语有w1w2w3、w1w2、w2w3;

  ⑤在文献中对候选术语进行出现频率统计分析,将频率超过两次的候选术语存储到新术语表中;

  ⑥判断文献集合是否全部处理完成,如果完成转⑦,否则转①;

  ⑦结束。

  通过上述过程我们将得到一批新术语。然后人工对这些候选术语进行筛选,筛选的标准由研究者自己把握,从而得到较正规的术语。接着,将这些术语交给领域专家审核,进一步剔除非术语,最终得到所需要的术语集合。

  5. 以术语为词表对文献文本进行分词处理,得到术语在文献中出现的频次

  此次利用术语表作为词表进行分词采用了效率较高的最大匹配分词算法。通过分词,求得每个术语在各篇文献中的出现次数即术语频次,得到一张“术语 -频次”表,为后面的统计做好铺垫。表2是某篇文献部分术语的“术语-频次”信息。从“术语-频次”表中我们可以对文献的研究主题做出判断。

  6. 统计术语总频次和术语的文献频次

  在“术语-频次”表的基础上进行术语总频次和术语的文献频次的统计。术语的文献频次是指所选取的文献样本包含某术语的篇章数。术语总频次可用于帮助我们判断远程教育研究的热点主题,术语的篇章频次则可为成为热点主题判断的参考数值。对于一个术语而言,如果它在某个文献样本中出现的总频次排在前列,并且它的文献频次也位于前列,那么该术语必将成为该文献样本的核心术语,应该成为研究者的重点关注对象。

  7. 建立远程教育领域知识库

  按照张伟远等人提出的远程教育研究领域的分类,我们将远程教育领域的术语纳入如下10类:

  ● 开放与远程教育的一般原理

  ● 管理与规划

  ● 学习材料的设计和发展

  ● 教育技术和媒体

  ● 远程教育教与学

  ● 教育经济学

  ● 师资培训与职业教育

  ● 教育经济学

  ● 质量保证

  ● 其它

  将某个术语纳入某个领域由研究者本人决定,这里必须借助领域专家的帮助。这样就得到一个远程教育领域的、简单的只包含上下位关系的领域知识库。该知识库的一个片断如表3所示。

  该语义词典建立好后通过SQL Server2000的数据导入功能自动导入到数据表中备用。

  8. 按研究领域对文献进行分类操作

  在这里我们将建立一个文本分类系统,借助前面建立的远程教育领域知识库和“术语-频次”表,我们便可以求得每篇文献中各个领域的频次。由于我们所建立的知识库只有两层,因此在计算某个研究领域的频次的时候,我们采用简单的研究领域所包含的术语的频次求和的方法,即默认每个术语的频次对于其所属的研究领域的频次的影响权值为1。

  假定研究领域用C表示,术语用t表示,文献用d表示。对于研究领域Ci,它下面所包含的术语有t1,t2,t3,……,tn。对于某篇文献 di,Ci下面的术语出现的频次用f(t1),f(t2),f(t3),……,f(tn)表示,Ci的频次用 f(Ci)表示,那么,f(Ci)可以表示为:

f(Ci)=■f(tj)

  例如下表4是一篇文献各个领域的频次信息。

  我们可以选取频次最大的研究领域,即“教育技术和媒体”作为该文献所属的研究领域。

  以上就是用于处理文献文本、得到新术语、找到文献主题、对文献进行分类的一整套方法。要保证方法的有效性,我们必须对其进行检验。

对研究结果的检验

  1. 样本的选取

  笔者从《电化教育研究》2005年9月至2006年8月共12期期刊的文章中选取了关于远程教育的全部文章共计47篇,选择的标准由研究者控制。

  2. 测试结果

  笔者采用上述一套文献文本处理方案来对这个文献样本进行处理。现在只展示文本处理方案中比较重要的环节,如新术语提取、热点研究主题发现和文献分类等的检验结果。

  ①新术语提取

  通过术语识别操作,笔者从文献样本中得到术语共计185个。为了验证术语识别方法的准确程度,笔者通过人工的方法从文献样本中提取术语,得到术语共计129个。对比自动术语识别方法得到的结果和人工提取术语的结果,笔者发现有87个术语是重合的,占人工提取术语结果的67%。并且,笔者通过人工校对自动术语识别方法的结果,发现其中有部分术语不在人工提取结果的范围内,即自动术语识别方法发现了人工提取方法不能发现的术语。实验表明,自动提取术语方法能够找到文献样本中的大部分术语,能够满足辅助研究者提取术语的要求。

  ②热点研究主题发现

  通过统计术语总频次和术语的文献频次,得到频次和排在前10位的术语表,如表5所示。

  从表5可以看出,在文献样本中,关于资源建设和远程教育学与教的理论的研究得到了足够的重视。“交互”、“学习环境”、“协作学习”都是与学与教的理论相关的主题;而“网络课程”、“教学资源”、“学习资源”则是对资源建设的关注。

  ③文献分类

  通过对文献进行自动分类操作,得到每个研究领域的文献频次,如表6所示。

  由于《电化教育研究》不是纯粹的远程教育学术期刊,所以该杂志中的论文不可能关注远程教育中的所有领域,所以有些领域就没有文献。其中,“远程教育教与学”研究领域最受关注,有20篇文献属于该领域。通过人工校对,发现这20篇文献中有3篇不属于该领域,分类准确率为85%,基本上能满足要求。

研究结论

  本研究针对目前远程教育元研究中获得统计项,如研究主题、研究领域等费时费力的问题,提出了一套基于面向文本的智能信息处理技术的文献文本处理方案。经检验,该方案在新术语识别、热点研究主题发现、文献分类等方面均有较高的准确性,有实用价值,能够切实提高研究者开展远程教育元研究的效率。

[参考文献]

[1] 张伟远. 中英美三国开放与远程教育研究论文的比较研究[J]. 开放教育研究,1999,(2)(3):59-62.
[2] 殷丙山,张柘,陈丽. 中国远程教育学术研究现状[J]. 中国远程教育,2005,(2):18-22.
[3] 杨开城,张润芝,贺红星. 从话语词汇的使用看教育技术学的理论研究[J]. 中国电化教育,2006,(9):5-8.
[4] 中科院计算技术研究所. 计算所汉语词法分析系统ICTCLAS[DB/OL]. http://www.nlp.org.cn/project/project.php?proj_id=6.
[5] 梁刚. 基于机械分词与统计学的新词识别研究[J]. 情报理论与实践,2005,(5):475-477.
[6] 俞士汶. 计算语言学概论[M]. 北京:商务印书馆,2003.
[7] 杨开城. 教育技术学——“开发取向”的教育理论探究[J]. 教育研究,2004(5):30-34.

作者简介:魏顺平,博士研究生;何克抗,博导,教授。北京师范大学现代教育技术研究所(100875)。

Advertisements
 

发表评论

Please log in using one of these methods to post your comment:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out / 更改 )

Twitter picture

You are commenting using your Twitter account. Log Out / 更改 )

Facebook photo

You are commenting using your Facebook account. Log Out / 更改 )

Google+ photo

You are commenting using your Google+ account. Log Out / 更改 )

Connecting to %s