维创天润互联网信息采集系统

2006-02-19     推荐:-150057165    收藏:-97096012    评论:0     来源:e800解决方案频道

一、前言
互联网上丰富的信息资源一直是其魅力的源泉,但是如果没有优秀的信息获取工具,那么在互联网上进行信息的采集利用将是一场噩梦。如何将网上大量有用的信息采集,使其具有利用加工价值一直是各种用户的难题。VC-WAS信息采集系统即针对该问题,面向国内广大的市场应用,以最先进的技术服务国内用户。
使用VC-WAS信息采集系统,可以定制采集互联网上数以亿计的海量信息,让这些分散的信息为我所用。VC-WAS信息采集系统具有丰富的接口,可以为多种系统软件、平台,网站、集成商等提供信息采集应用,提高系统的应用价值,拓展市场份额。同时,维创天润在业界的品牌优势,也将为使用VC-WAS信息采集系统的各种软件、平台增加无形价值。

二、系统与功能结构

1、系统结构图


VC-WAS信息采集系统采用独有的分布式的三环架构,包括内容抓取模块(Crawler)、超链提取模块(Extract Center)和分发中心(Distribution Center),其中内容抓取模块和超链提取模块均支持多线程。
内容抓取模块:负责分析网页内容,提取正文内容,并初步判断是否符合用户配置规则。
超链提取模块:负责提取网页超链,分析网页的相关度,提供访问链接等。
分发中心:则负责将内容分发至索引模块、Cache或数据库系统。

2、功能结构图



信息采集:
互联网上信息采集
使用VC-WAS信息采集系统,根据信息主题目标的需要,自动从互联网上实时采集企业外部信息。譬如,国内外政治、经济、军事等发展变化,国家宏观经济政策、地方政府的发展战略、优惠鼓励措施等公开的互联网信息;市场动向、产品与服务、市场活动、各地区销售情况,等等。系统对这些信息进行自动下载、内容智能分析与初步过滤,剔除无用、过期与重复的信息,并进行自动分类,实现企业互联网内容的采集、分析过滤的自动化。

企业内部信息收集
采集与整合企业内部的信息,如销售部门的销售信息、企业档案资料、供应商信息等,进行统一的编辑与整理,从而实现对企业内部信息的进行统一管理。

其他信息收集
另外,通过人际网络及E-MAIL等,实时收集相关的信息。
信息管理:VC全文及多媒体数据库系统对企业采集的海量信息进行统一管理。

信息利用:
人工辅助分析
通过人工辅助的方式,运用各种信息分析方法,围绕采集目标相关的信息进行检验、整理和重组,使其有序化、系统化、层次化,以获得更多、更有价值的信息。

信息分类与检索
对采集的信息内容进行计算机自动分类与人工辅助分类,然后通过专题检索和相关内容自动关联检索手段,从大量文本信息中提取出有价值的知识,方便信息加工人员对知识的发现和利用。

信息推送与发布
通过信息主动推送的方式,将关键信息内容以E-MAI的方式自动推送到企业相关人员的邮箱,辅助人员浏览。
对于一般性的信息,可以在企业内部网站上进行分类发布,供企业员工浏览与检索,提高信息的利用效率。

辅助简报生成
对于经过人工分析与挖掘的信息内容,可以通过人工辅助生成简

您可以针对本文进行:[评论]  [收藏]  [推荐]  
  • 共有0条评论  点击查看更多评论
  • 网友评论仅供网友表达个人看法,并不表明e800同意其观点或证实其描述
我想发表评论:
用户名密码
  • 匿名发表
    验证码: