您当前的位置:首页 >  公文大全 >  乡镇街道公文 > 内容

教务门户网自动问答系统的设计与实现

无忧文档网    时间: 2019-09-26 06:13:05     阅读:


  摘要:教务门户信息的查询等操作存在交互性差的问题,利用搜索引擎又不能有效解决这个问题,基于聊天机器人的自动问答系统(Automatic Question Answering System, QA)在人机交互上的优势及其自主性的问答机制有助于解决用户在教务门户网站交互性差的问题。通过对教务门户网的用户需求分析和信息操作分类,构建底层数据结构以文档形式储存;对自动问答系统核心的三个模块:问题分析、信息检索和答案抽取作了深入的分析和设计,给出了实现的方法,最后通过实际测试验证了系统的可行性和互操作性。
  关键词:自动问答系统;聊天机器人;LUCENE;XML
  中图分类号:TP391文献标识码:A 文章编号:1009-3044(2009)36-10506-02
  Design and Implementation of QA System for Educational Administration Portal Website
  HUANG Jian-gang, ZHANG Ai-hua
  (Computer Science and Information Engineering College, Tianjin University of Science & Technology, Tianjin 300222, China)
  Abstract: There exists the poor interactivity in the information services of EAP, and the search engines cannot effectively solve this problem, the QA based on chat robot in terms of the advantage of the human-computer interaction and the autonomy helps us to solve the problem. Through user requirement analysis and information classification of EAP it constructed the underlying data structures by document storage; analysed the three modules of the core of the QA: problem analysis, information retrieval and answer extraction, gave out the implementation, and finally through actual test verified the feasibility and interoperability of the system.
  Key words: QA; chat robot; LUCENE; XML
  高校EAP提供从介绍教学研究、教学运行、实践教学和师生信息查询等大量的网上服务,这些服务以Web页来构建。随着信息量的丰富,信息分类越来越多,当获取所需信息时,通常要在各个页面间跳转,花费大量的时间和精力。QA是一种全新的概念,它是以自然语言处理和人机交互等多种人工智能技术和互联网技术为基础[1],使用Web或IM(即时通讯工具)作为表现形式的智能自动客服系统。目前自动问答类型主要有聊天机器人、基于知识库的问答系统、问答式检索系统,以及基于自由文本的问答系统等。基于自由文本的问答系统是基于自由文本进行知识问答,不需要建立大规模知识库;并且系统返给用户的是具体答案,而不是和用户查询相关的文本或网页,故代表着QA的发展方向。
  1 需求分析与数据层设计
  1.1 需求分析
  EAP的服务对象是全校师生,可分为学生服务和教师服务两大类。师生关心的问题如下:
  1)关于政策的提问
  如对某事务原则的提问
  2)关于某事务具体操作细节的提问
  如关于时间的提问,提问类型:{在}+{何时|什么时候|什么时间}+{可以|做|进行|开始|能}+{事务};关键词:何时、时候、时间、事务;信息关键词:{事物}+{时间}。
  1.2 数据层设计
  系统的底层数据可以采取文本存储(如Word、XML、TXT等文档),占资源少,适合小数据量的存储,易维护。由用户提问内容可知,内容组织形式分为通知和政策两种,故系统可用XML文档用于存储通知数据,TXT文档用于政策数据。
  1.3 信息导航目录设置
  信息导航目录是为简单快速有效地引导用户找到相关的信息而设置。用户在实际使用时只要根据系统提示输入分类名称对应的类型编号即可。
  一级导航目录共分为学生选课、学籍处理、培养计划、学生注册、英语四六级考试等,类型编号分别为A、B、C、D、S;二级导航目录分为通知信息(notice)、政策法规(law)等。
  2 系统实现
  2.1 总体结构
  基于聊天机器人的系统总体采用三层结构[2](如图1)。数据层专门存放数据,应用服务器提供各类服务部件来访问数据和响应客户端的请求,界面表现层浏览器端只显示结果和发出请求。
  2.2 系统模块架构
  根据需求分析的结果,本系统主要分3个模块:通知查询、政策查询、常用网站链接。
  2.3 主要功能模块设计
  2.3.1 查询模块的实现
  如何对用户输入的自然语言问题进行分析处理,给用户一个有效的回复,主要考虑自然语言问题分析、中文分词、信息检索、答案抽取等。
  1)问题分析模块
  问题分析的目的是要从用户的语言中最大限度地提取出有效关键词,同时,还要尽量除去非关键词,对用户问题中的一些潜在关键词进行意义扩展。
  2)中文分词
  采用一基于LUCENE分词架构而实现的中文分词组件,名为“庖丁解牛”。此组件用于对底层数据进行建立索引和搜索索引时。最终从问题分析模块得到一个长度为7的String型特殊字符数组QueryString[i],数组中的i代表不同的问题分类,如i=0,表示时间问题,QueryString[i]存储值为Null或“时间”。
  3)信息检索
  要对信息进行检索,首先要对信息创建索引,然后再对索引进行搜索,得到信息检索的结果。
  ①创建索引
  根据系统底层数据存储方式,建立不同字段的索引,XML文档使用的索引字段有标题、事务、时间安排、地点、发布单位、电话等;TXT文档用标题、内容作为索引字段。
  ②搜索索引
  搜索时,输入参数为QueryString[i]和从用户获取的两个用户标签,且不论是何种查询均从多角度进行搜索,方式一无结果,再采用方式二。
  4)答案抽取模块
  从信息检索模块得到信息检索的结果集(Hits对象),作为参数传入答案抽取模块。需要注意和说明的是:答案抽取模块拿到的结果集是已经过相似度评分处理,筛选留下的结果,同时,结果集里保存的对象是对文档的引用,而不是文档中的数据[3]。
  此模块需要完成:一根据系统收集到的用户标签值、提问分类信息来确定要给用户提供哪些内容;二对答案内容进行输出格式化处理。通知信息答案抽取核心代码:
  2.4 测试截图
  图2为用户查询导航示例图。
  3 结论
  该文分析了问答系统的发展现状和趋势,以教务信息发布应用为背景,针对门户的可用性和用户交互性存在的不足,研发了基于聊天机器人的教务信息自动问答门户系统,重点阐述了门户根据用户需求标签的信息组织模式和聊天机器人语言规则模板。此系统改善了传统的页面浏览模式,用户获取信息通过机器人自动推送,即由门户主动向用户展示功能和服务。本文创新点是采用机器人交互的这种模式来改进教务信息的发布,为增加教务信息门户的可用性提供一种新思路。
  参考文献:
  [1] 文勖.中文问答系统中问题分类及答案候选句抽取的研究[D].哈尔滨工业大学:计算机科学与技术学院,2006.
  [2] 丁一.基于聊天机器人技术的房产导购信地理信息门户研究[D].南京师范大学:南京师范大学地理科学学院,2007.
  [3] Otis Gospodnetic,Erik Hatcher.LUCENE In Action[M].USA:Manning Publications Co,2005:1-300.
  [4] 王宇,战学刚,蔡建山.基于网络的中文问答系统的研究[D].鞍山科技大学:鞍山科技大学计算机科学与工程学院,2006.
  [5] 孙景广.基于网络的自动问答系统的答案抽取方法研究[D].沈阳航空工业学院:计算机应用技术,2007.

《教务门户网自动问答系统的设计与实现.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:

文档为doc格式

相关热搜

《教务门户网自动问答系统的设计与实现.doc》

VIP请直接点击按钮下载本文的Word文档下载到电脑,请使用最新版的WORD和WPS软件打开,如发现文档不全可以联系客服申请处理。

文档下载
VIP免费下载文档

浏览记录