|
一、前言 互联网上丰富的信息资源一直是其魅力的源泉,但是如果没有优秀的信息获取工具,那么在互联网上进行信息的采集利用将是一场噩梦。如何将网上大量有用的信息采集,使其具有利用加工价值一直是各种用户的难题。VC-WAS信息采集系统即针对该问题,面向国内广大的市场应用,以最先进的技术服务国内用户。 使用VC-WAS信息采集系统,可以定制采集互联网上数以亿计的海量信息,让这些分散的信息为我所用。VC-WAS信息采集系统具有丰富的接口,可以为多种系统软件、平台,网站、集成商等提供信息采集应用,提高系统的应用价值,拓展市场份额。同时,维创天润在业界的品牌优势,也将为使用VC-WAS信息采集系统的各种软件、平台增加无形价值。
二、系统与功能结构
1、系统结构图
VC-WAS信息采集系统采用独有的分布式的三环架构,包括内容抓取模块(Crawler)、超链提取模块(Extract Center)和分发中心(Distribution Center),其中内容抓取模块和超链提取模块均支持多线程。 内容抓取模块:负责分析网页内容,提取正文内容,并初步判断是否符合用户配置规则。 超链提取模块:负责提取网页超链,分析网页的相关度,提供访问链接等。 分发中心:则负责将内容分发至索引模块、Cache或数据库系统。
2、功能结构图
信息采集: 互联网上信息采集 使用VC-WAS信息采集系统,根据信息主题目标的需要,自动从互联网上实时采集企业外部信息。譬如,国内外政治、经济、军事等发展变化,国家宏观经济政策、地方政府的发展战略、优惠鼓励措施等公开的互联网信息;市场动向、产品与服务、市场活动、各地区销售情况,等等。系统对这些信息进行自动下载、内容智能分析与初步过滤,剔除无用、过期与重复的信息,并进行自动分类,实现企业互联网内容的采集、分析过滤的自动化。
企业内部信息收集 采集与整合企业内部的信息,如销售部门的销售信息、企业档案资料、供应商信息等,进行统一的编辑与整理,从而实现对企业内部信息的进行统一管理。
其他信息收集 另外,通过人际网络及E-MAIL等,实时收集相关的信息。 信息管理:VC全文及多媒体数据库系统对企业采集的海量信息进行统一管理。
信息利用: 人工辅助分析 通过人工辅助的方式,运用各种信息分析方法,围绕采集目标相关的信息进行检验、整理和重组,使其有序化、系统化、层次化,以获得更多、更有价值的信息。
信息分类与检索 对采集的信息内容进行计算机自动分类与人工辅助分类,然后通过专题检索和相关内容自动关联检索手段,从大量文本信息中提取出有价值的知识,方便信息加工人员对知识的发现和利用。
信息推送与发布 通过信息主动推送的方式,将关键信息内容以E-MAI的方式自动推送到企业相关人员的邮箱,辅助人员浏览。 对于一般性的信息,可以在企业内部网站上进行分类发布,供企业员工浏览与检索,提高信息的利用效率。
辅助简报生成 对于经过人工分析与挖掘的信息内容,可以通过人工辅助生成简
|