酷采信息采集系统 1.0 Beta
支撑多种编码:GBK、BIG5、UNICODE、UTF8。
支撑多种站点类型:包含Html、Rss、Ajax。
网站登录验证:支撑网站登录,并支撑网站Cookie,即使需要验证码才干登录的网站也能轻松穿过。
自定义采集规矩:通过采集规矩的定义,可以搜索所有网站几乎任何你想要的内容。
智能采集与辨认:系统会辨认网页上的图片、FLASH、PDF、MP3、视频、JavaScript链接、EMAIL、电话号码等,将其下载或保存入库。
任务调度及信息监控:可定时启动系统来完成采集工作;也可以锁定某个网页,当发明有需要的链接时才会去采集,达到信息监控功效。
条件采集:采集时可设置某些条件或要害字。即需要的采集,不需要的不采集。
分页采集:可采集带分页的网页,并可将多个页面的内容联合到一起进行处理。
数据主动排重:系统默认会处理重复的网页,也可以定制其他字段的排重设置。
数据格式处理:可以保存或去除采集内容的段落格式,可转变其包含的图片或附件的路径(如将下载后的图片路径改为本地路径)
多线程多任务:可同时启动多个线程,多个任务一起工作,互不干扰;可根据系统的性能随时添加或减少线程的数量,将其工作效率最大化。
所见即所得:可实时看到自己采集的数据、错误信息、线程工作信息。
数据主动保存:将采集的数据结构化并实时的保存到系统自带的数据库(也可由用户自定义数据库,但表和字段的创立由系统完成),不需人工设置,即可实现断点续传及增量采集功效。
数据任意导出:可将采集的数据导出到任意数据库或文件,如ACCESS、MYSQL、MSSQL、TXT、XML、EXCEL等 。
相关推荐
评论
没安装畅言模块