图书网站信息集成系统的构建
摘要
网络已经快速融入到人们生活当中,特别是 B2C 与 C2C 的应用,使得用户通过网络能很容易的搜索以及获取所需要的信息与物品。图书网站是指存在于互联网上的那些大型或者小型的主要提供图书销售及其服务的网站或者模块,书价、物流、商家的存货以及相应的各项服务一直是用户重点关注的地方。然而除了京东商城、卓越亚马逊和当当网等大型网站具有专门的售书以及相应服务以外,其他那些相对较小的图书网站就显得比较孤立。这些网站往往在地理位置和功能结构上相对比较孤立,然而他们对整个网络和用户而言又是非常重要的。信息集成能够将多个相对独立的、分布的、异构的信息源整合起来,通过建立全局而且统一的视图,使得无需考虑数据类型、存储位置等诸多影响因素,随时随地提供对数据统一且透明的访问,为用户提供简单高效的查询方式,最终实现信息资源的共享。本文旨在构建一个图书网站信息集成系统,通过采集与集成各大图书网站的图书信息,以帮助人们快速从各种图书网站中快速准确的找到所需的图书信息。由于本信息系统是针对各种图书网站而建立,因此本系统具有很强的针对性,会为用户提供用户所需要的各方面图书信息,以便用户做出选择。文章第一部分主要讲述了本文的缘起与目的意义,以及国内外在此方面的研究进展与成果;第二章则介绍了本系统中涉及的主要概念,包括深层网络以及网络挖掘等;第三章详细叙述了本系统涉及的关键问题及其研究,包括图书网站初始检索页面以及检索结果所涉及的信息抓取技术,还包含为了访问目标网站深层信息所需要的表单自动填充技术,最后是对检索结果的处理并抽取所需要的信息抽取技术;第四章主要分析本系统的目标以及对系统进行整体分析与设计,同时提出系统优化与相关安全性与保密性等设计;第五章回顾了整个文章的工作之后提出以后的工作方向与要点。
关键词图书网站信息集成信息集成系统信息采集信息抽取
目录
摘要 ........................................................................I
Abstracts ................................................................II
1 绪论 ....................................................................1
1.1 选题缘起与意义....................................................1
1.2 国内外研究现状....................................................2
1.3 研究内容与方法....................................................5
1.4 创新之处 ..........................................................5
2 基本概念...............................................................6
2.1 信息集成 ..........................................................6
2.2 Deep Web ..........................................................7
2.3 信息采集 ..........................................................7
2.4 网络挖掘 ..........................................................9
2.5 表单自动填充 .....................................................10
2.6 PHP 脚本 ..........................................................11
3 图书网站信息集成相关问题研究 ...................................13
3.1 系统基本模型 .....................................................13
3.1.1 系统模型结构 .................................................13
3.1.2 系统模型各层的功能 ...........................................14
3.2 图书网站信息采集 ................................................15
3.2.1 HTTP .........................................................15
3.2.2 Web 页面的抓取 ................................................17
3.2.3 抓取信息的处理 ...............................................19
3.3 自动填词 .........................................................20
3.3.1 HTML .........................................................20
3.3.2 HTML 表单 .....................................................21
3.3.3 自动填充表单 .................................................22
3.4 信息抽取 .........................................................24
3.4.1 正则表达式 ...................................................24
3.4.2 正则表达式匹配 ...............................................25
3.4.3 Web 信息抽取 ..................................................26
4 图书网站信息集成系统分析与设计 ................................29
4.1 系统需求分析与整体设计 .........................................29
4.1.1 系统需求分析 .................................................29
4.1.2 系统设计目标 .................................................30
4.1.3 系统功能模块划分 .............................................31
4.2 图书网站信息集成系统的功能模块设计 ............................32
4.2.1 系统的开发环境 ...............................................32
4.2.2 系统所需文件 .................................................34
4.2.3 数据库设计 ...................................................35
4.2.4 系统页面设计 .................................................37
4.2.5 安全性与保密性设计 ...........................................38
4.2.6 系统优化 .....................................................40
5 总结与展望 ...........................................................42
5.1 工作总结 .........................................................42
5.2 今后工作 .........................................................42
参考文献..................................................................43
致谢 .......................................................................45
联系我们
学位论文:1157918155
2860401462
期刊论文:1487246024 1157918155
电话:张老师:13189798483
推荐阅读