銳研·云采集:互聯網爬蟲采集平臺

2016-02-08
萌泰科技
摘要:銳研互聯網數據動態采集系統(Ring BigResearch WebExtractor)是一套面向互聯網文本采集領域,靈活可配置的動態采集系統。系統允許用戶自定義需要監測的互聯網數據源,能夠采集新聞、門戶、論壇、文獻等各類互聯網數據。支持關鍵字檢索條件,支持智能抓取網頁中文本內容和背景數據,支持提取標題、發布人、發布時間、來源、內容、摘要、關鍵詞等信息。產品基于分布式爬蟲框架,具有穩定、可靠、高性能和高可擴展性。

一、概述

銳研互聯網數據動態采集系統(Ring BigResearch WebExtractor)是一套面向互聯網文本采集領域,靈活可配置的動態采集系統。系統允許用戶自定義需要監測的互聯網數據源,能夠采集新聞、門戶、論壇、文獻等各類互聯網數據。支持關鍵字檢索條件,支持智能抓取網頁中文本內容和背景數據,支持提取標題、發布人、發布時間、來源、內容、摘要、關鍵詞等信息。產品基于分布式爬蟲框架,具有穩定、可靠、高性能和高可擴展性。

二、產品功能


1、系統集成

作為子系統能集成到統一的云管理平臺,共享云平臺的統一管理功能。

2、項目管理

新建采集項目,支持啟動、暫停和關閉;支持自定義互聯網數據源,允許對采集數據源進行靈活配置,支持智能抓取相關網頁的文本內容和背景數據;抓取的數據能夠同時存儲到數據庫和文件。

3、數據抓取

基本分布式爬蟲框架;能夠抓取新聞類、論壇類、文獻類平臺的數據;能進根據數據源配置關鍵詞組合、時間范圍、子頻道等,實現定向的基于關鍵詞的數據抓??;能夠配置抓取線程的數量,抓取時間間隔;支持斷點繼續。

4、采集監控

數據的抓取的過程能夠實時監控和管理。

5、可視化爬蟲設計

能夠支持對爬蟲的可視化設計,基于Web瀏覽器進行爬蟲可視化配置,爬蟲的設計應包括爬蟲入口、采集字段、頁面處理器、個性化配置等主要部分,一個爬蟲可以添加多個頁面處理器。

6、爬蟲市場

提供不少于380個新聞網站數據源的爬蟲采集模板,包括所有國家網信辦公布的可用于轉載的新聞媒體的網站。

7、分布式集群

集成IP動態代理池,支持采集節點的分布式部署,能夠支持大規模的分布式采集。


三、特色和優勢


分布式爬蟲架構

平臺采用基于分布式爬蟲架構,可實現高效的多線程,可擴展的的動態采集;

多數據源采集

支持抓取主流門戶、新聞、論壇、文獻等各類數據源;

面向主題的采集

支持靈活配置各類檢索條件,實現面向主題的數據采集。


四、產品體驗

銳研·云采集

    發表評論
    評論通過審核后顯示。
    日本无码一区二区三区不卡,制服丝袜人妻中文字幕在线,亚洲AV永久无码精品有声小说,无码人妻一区二区三区