當前位置:法律諮詢服務網 - 知識產權保護 - 中科點擊(北京)科技有限公司的產品介紹

中科點擊(北京)科技有限公司的產品介紹

(壹)、“信息采集系統”系統概述:

信息采集是指利用計算機軟件技術,針對定制的目標數據源,實時進行信息采集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入的整個過程。

軍犬信息采集專家是壹款基於人工智能的自動學習技術,功能強大、簡單實用的互聯網信息采集與監控軟件。

(二)、互聯網信息采集與挖掘:

要求從互聯網上對特定目標數據源或不特定目標數據源進行采集與監控,並對信息進行結構化抽取保存為本地結構化數據庫,然後按業務流程需求與其它模塊結合,導入與應用並服務於到電子行業平臺。

互聯網數據采集與挖掘技術是指利用計算機軟件技術,針對定制的目標數據源,實時進行信息采集、抽取、挖掘、處理,從而為各種信息服務系統提供數據輸入,並按業務所需,進行數據發布、分析的整個過程。

(三)、互聯網采集系統流程圖

第壹步:確定采集任務。

第二步:每個采集任務,我們有多個目標數據源可供采集。

第三步:針對不同的目標數據源,進行不同的采集配置,以確保能采集到數據。第四步:調度采集任務,與目標站點同步更新,增量采集。

第五步:采集到數據結果,完成數據異構到同構的過程。

第六步:通過發布服務器,將數據發布到應用平臺。

(四)、軍犬“信息采集系統”8大應用領域

1、搜索引擎與垂直搜索 2、綜合門戶與行業門戶

3、電子政務與電子商務 4、知識管理與知識***享

5、企業競爭情報系統 6、BI商業智能系統

7、信息咨詢與信息增值 8、信息安全和信息監控

(五)、軍犬“信息采集系統”-軟件特點

(1)、過濾幹凈,智能化抽取正文,且圖文關聯

(2)、數據導出接口豐富,可以將數據導出成各種主流關系型數據結構。

(3)、軍犬“信息采集系統”配置簡單

對於新聞資訊采集,只需輸入待采集目標網站的地址或某個主題頁面地址,軟件即會自動學習網站的風格,並自動提取網站的資訊,無需配置模板,目標網站風格發生變化,軟件自動學習。對於數據采集軟件提供了通俗易懂的站點配置向導,維護人員稍加培訓即可配置出任何的信息采集。對於復雜的采集過程,通過壹張采集卡腳本即可實現信息的自動采集與監控。

(4)、軍犬“信息采集系統”所采即所得,所采即可見

(5)、軍犬“信息采集系統”增量采集與自動更新

增加采集:對於初次采集目標網站,軟件支持完全采集;而對於已采集過的站點支持增量采集。支持自動更新:自動檢測站點是否發生更新,並不會遺漏任何壹個重要的信息。

(6)、軍犬“信息采集系統”采集結果自動排重

不是利用簡單的規則判斷,而是利用內容的相似性進行排重判斷,準確性高,不會因為標題或內容的少許變化而產生漏判,即使把標題進行了改頭換面,系統也會正確判定。

(7)、軍犬“信息采集系統”內置強大的信息監控

可以通過壹個關鍵字廣域監控互聯網上任何壹個站點上的相關信息。也可以通過設置監控頻道監控任何站點所采集到含有關鍵字的信息。對於數值字段可以設置監控誤差監控數值出現在壹定範圍內的信息。信息監控達到字段級。您可以對任何壹個采集目標網站設置監控屬性,監控周期達到了秒級。對於發生變化的信息可以在短時間內采集到本地,強大的站點管理工具可以對所有采集對象進行集中管理和各種操作。

(8)、軍犬“信息采集系統”支持多種編碼

支持多種網站的信息的編碼,GBK、BIG5、UNICODE、UTF8,軟件會自動轉換成GBK碼進行統壹的處理。軟件即會自動識別網站的組織結構,自動識別網站的編碼。 表單管理,隨心所欲自定義表單,方便采集不同的內容,如采集軟件用單獨的表單,采集圖片用圖片表單。

(9)、軍犬“信息采集系統”信息導入導出隨心所欲

提供信息導入導出與其它軟件可作無縫連接 ,如CRM OA 軟件提供有強大的信息記錄導入導出功能,您可以對任何壹個頻道、壹條記錄進行導入與導出。可以導成Excel/Access等,也可以直接導到指定的數據庫。與《信息發布服務器》結合使用可以將信息發布到任何壹個地方。

(10)、軍犬“信息采集系統”支持閱讀模板

任何壹種信息類型,軟件都會自動創建壹個閱讀模板方便了您快速閱讀;任何信息您可以對任何壹種信息表單定制壹款漂亮的閱讀模板,也可以對任何壹個頻道設置不同的閱讀模板。

(11)、軍犬“信息采集系統”多頁面內容重組

對於目標數據源的壹篇文章在目標網站上分頁顯示,系統能自動對其重組.軟件運行穩定、采集速度快、占用系統資源少。

歷經多次改造的軟件采集底層模塊運行穩定、采集速度快,點用系統資源少。可多線程並發運行,而不占有過多的系統資源。采集速度快到瞬間到位。軟件完全可以實現7*24小時不間斷無人值守的信息采集。更多細節功能有待於您在使用中去體驗。

(12)、軍犬“信息采集系統”其它特點列表:

1、支持多種語言:支持簡體中文、繁體中文、英文、日文、韓文等多國語言

2、支持多種站點類型:包括html與rss

3、支持登錄、驗證後采集

4、軟件支持需要登錄與需要驗證碼的網站信息采集,采集過程完全仿人工。

5、支持附件采集

包括圖片附件采集、多媒體附件采集、音視頻附件采集、附件與正文自動映射與關聯

6、完全結構化抽取將網頁的非結構化數據抽取成特定的結構化信息數據。

網頁搜索是以網頁為最小單位,基於視覺的網頁塊分析是以網頁塊為最小單位,垂直搜索是以結構化數據為最小單位。然後將這些數據存儲到數據庫,進行進壹步的加工處理,如:去重、分類等,最後分詞、索引再以搜索的方式滿足用戶的需求。

整個過程中,數據由非結構化數據抽取成結構化數據,經過深度加工處理後以非結構化的方式和結構化的方式返回給用戶。

7、數據保存到本地,您可以隨時查閱信息。 采集到信息自動保存到本地數據庫,您可以隨時查閱信息。

8、多線層、多任務

9、支持海量數據采集

10、軟件實用、易用、功能強大

11、可移植、可擴展、可定制

(六)、軍犬“信息采集系統”配置要求

要求:WindowsNT4/ Windows 2000 Server 或更新的操作系統。

要求: Microsoft SQL Server 7/ 2000或其它ODBC 接口

要求:intel xeon 2G 以上CPU,2G 以上RAM,硬盤空間200GB以上

(七)、軍犬“信息采集系統”性能

l、支持多線程采集。

2、單機在數據采集在G級以上。

3、數據與數據源同步更新小於10秒級。

4、數據同步發布小於10秒級。 (壹)、產品背景

“風起於青萍之末”。公***危機事件輿論的形成與發展,是壹個由議論開始,並沿著若幹級差從無序向有序逐漸遞進或者消減的過程。公***危機事件爆發時,猶如以石擊水,常常容易引起群眾的廣泛關註,使得有關信息在短時間內迅速傳遞,單位時間爆發出來的信息量很大。壹些非理性議論、小道消息或負面報道常常在壹定程度上激發人們普遍的危機感,甚至影響到群眾對黨和政府的信任,網民對事件的關註與反響令當地政府部門震驚不已,政府部門承受著巨大的輿論壓力。對於企業來講,負面信息的肆意傳播和缺乏必要的風險預警手段,會影響到企業的品牌和發展,甚至會給企業帶來毀滅性的打擊。因此及時監控、匯集、研判網上輿情,是引導危機輿論的重要前提。

目前,網絡輿情正在成為政府行政部門或者企業決策的重要依據。因此新形勢下,在每次突發性事件發生後,政府和企業相關職能部門如何以最快速度收集網上相關輿情信息,跟蹤事態發展,及時向有關部門通報,快速應對處理等,是壹個亟需解決問題。

如何第壹時間了解到“與我相關”的重大事件?

如何能準確的收集到“我最需要”的輿情信息?

如何能不留死角的在全網監控到這些輿情信息?重要的信息“不漏報”!

如何防止網上“神不知、鬼不覺”的事情發生?隨時知道網上在“幹什麽”!

如何防止網上有害信息泛濫傳播和輿情失控,防止他們形成氣候?

如何追溯網上重點內容的傳播途徑?互聯網輿情能“查得清”!

如何預判這些輿情信息的未來走勢?

如何有效引導,以及對網絡輿論危機的積極化解?

如何應對網絡突發的公***事件?

如何全面掌握社情民意?

如何為上級相關部門推送網絡輿情簡報和專報?

中科點擊(北京)科技有限公司基於自主知識產權、自主研發的核心技術,通過對政府、企業輿情監控系統實際需求的深入調研,結合中科點擊公司對互聯網輿情管理業務的深刻認識和多年的實踐經驗,適時推出了軍犬網絡輿情監控系統,並在眾多的國家政府機構(政策研究室、外宣辦、網宣辦,政府辦和網絡管理處)以及大型企業得到了廣泛應用。通過成熟的網絡輿情監控工具,結合完善的領導體制和工作機制保障公***危機事件網上輿情得到妥善處理。全面分析網絡輿情發展趨勢,提供基於網絡輿情監測的決策參考和風險預警。在提供輿情監控系統產品的同時,中科點擊公司在輿情監控領域有著了豐富的業務積累和實施經驗。為政府、行業主管部門和企業提供先進的輿情監控系統和服務是中科點擊人光榮的使命和任務。

(二)、核心技術

網絡輿情監控系統是中科點擊公司開發的壹個體系結構先進、功能強大的面向政府、企業提供網絡輿情監測和決策參考的應用系統,廣泛地用於輿情監控監測,競爭情報以及風險預警等領域。它的主要功能和性能如下:

網絡輿情監控系統的核心技術為互聯網信息采集技術、自然語言智能處理技術(文本挖掘技術)、全文檢索技術和輿情應用技術。

1.1 互聯網信息采集技術

1.1.1 強大的信息采集功能

強大的信息采集功能是其他所有功能的保障。采集技術不過硬的產品不可能達到有效的輿情監測效果。軍犬的數據采集與數據挖掘居全行業之首,為信息的深度處理提供了強有利的保證。

1.1.2 支持各種網絡載體的監控

可監控各大搜索引擎,新聞門戶,BBS,博客,留言版····

1.1.3 元數據搜索功能

元搜索引擎集成了不同性能和不同風格的搜索引擎並發展了壹些新的查詢功能。查壹個元搜索引擎就相當於查多個獨立搜索引擎。進行網絡信息檢索與收集時,元搜索可指定搜索條件,從而既提高信息采集的針對性又擴大了采集範圍的廣度,收到事半功倍的效果。

1.1.4 內置數千個監控網站

無需過多配置便可輕松對數千網站實施監控。

1.1.5 可監控各種語言,各種編碼的網站

無需配置自動識別語言和網站編碼。

1.1.6 信息智能提取技術

網頁內容智能提取技術能有效地提取網頁中的有效信息,區分網頁中的標題、正文等信息項,並對內容具有連續性的多個網頁內容進行自動合並、網絡論壇信息自動提取等。

1.1.7 結構化采集技術

對非結構化的網頁數據在采集的時候進行結構化的信息抽取和數據存儲,以滿足多維度的信息挖掘和統計需要。

1.1.8 全天候不間斷監控

可定時監控,也可7*24全天候監控。實際應用中可以做到分鐘級的采集更新。

1.2 自然語言智能處理技術

1.2.1 自動分詞技術

采用以詞典為基礎,規則與統計相結合的分詞技術,有效解決了切分歧義。綜合利用了基於概率分析的語言模型方法,使分詞的準確性達到99%,並可根據不同的應用進行適合特定要求的分詞分詞速度快。

1.2.2 自動關鍵詞和自動摘要技術

在文本語義分析的基礎上,綜合考慮詞頻、詞性、位置信息,實現準確的自動關鍵詞與自動摘要。同時利用指代消解等技術使得摘要更具可讀性。

1.2.3 自動分類技術

不需要人工幹預的自動分類技術,有效提高非結構化信息的加工效率。文本分類是指計算機根據文本內容進行類別劃分的功能。中科點擊自動分類技術包括以下兩中分類方式:

A 基於內容的文本自動分類

B 基於規則的文本分類

1.2.4 自動聚類技術

自動聚類技術是基於相似性算法的自動聚類技術,自動對海量的無類別文檔進行歸類,把內容相近的文檔歸為壹類,並自動為其生成主題詞,為確定類目名稱提供方便。可應用於自動生成輿情專題,重大新聞事件追蹤等等

1.2.5 相似性檢索和查重技術

基於文檔“指紋”的文本查重技術,支持海量數據的信息查重。

相似性檢索是指對於給定樣本的文本,在文本集合中查找出與之內容相似的其他文本的技術。在實際應用中,找出輿情信息內容幾乎相同的文章,實現對輿情信息的消重;根據文章主題相似性,形成專題報道,背景分析等等。

1.3 智能檢索技術

本系統的全文引擎將傳統的全文檢索技術與最新的WEB搜索技術相結合,大大提高檢索引擎的性能指標。同時融合了多種相關技術,提供豐富的檢索手段以及同義詞等智能檢索方式。

(三)、產品功能

軍犬網絡輿情監控系統,是由我公司自主研發的壹套業內最成熟的網絡輿情監控系統和網絡輿情辦公系統。軍犬網絡輿情監控系統是壹套綜合運用搜索引擎技術、文本處理技術、知識管理方法、自然語言處理、手機短信平臺,通過對互聯網海量信息自動獲取、提取、分類、聚類、主題監測、專題聚焦,以滿足用戶對網絡輿情監測和熱點事件專題追蹤等需求!

系統基於網絡輿情監控和管理的緊迫需求,針對政府部門、尤其是政府宣傳部門量身定做。系統集成了輿情監測、輿情采集、輿情智能分析、輿情處理、輿情預警、輿情搜索、輿情報告輔助生成、輿情短信自動提醒等核心功能。幫助客戶全面掌握輿情動態,正確進行輿論引導。為確保我國互聯網絡大眾媒體的輿論導向的正確性起到壹定的輔助作用,實現為政府分憂,對網絡輿情進行監控和管理。運用軍犬網絡輿情監控系統,宣傳部門可以有效的規範互聯網信息,引導健康有益的輿論導向。該系統對於促進加強互聯網信息監管,組織力量展開信息整理和深入分析,應對網絡突發的公***事件,全面掌握社情民意起決定性作用。

軍犬網絡輿情監控系統采用B/S與C/S結構相結合的系統架構,利用先進的系統架構,實現基於瀏覽器的廋客戶端或者普通客戶端、服務器模式。

軍犬網絡輿情監控系統目前已經被廣泛應用到各級政府宣傳部門和大型上市公司。成為客戶進行網絡輿情監控不可或缺、值得信賴的系統。

1、強大的信息采集功能

強大的信息采集和數據挖掘功能是其他所有功能的保障。采集技術不過硬的產品不可能達到有效的輿情監測效果。軍犬的數據采集與數據挖掘居全行業之首,為信息的深度處理提供了強有利的保證。

2、支持各種網絡載體的監控

可監控各大搜索引擎,新聞門戶,BBS,博客,留言版···

3、內置數千個監控網站

無需過多配置便可輕松對數千網站實施監控···

4、可監控各種語言,各種編碼的網站

需配置自動識別語言和網站編碼···

5、智能提取信息正文、標題

無需配置自動分析剔除廣告等無用代碼···

6、全天候不間斷監控

可定時監控,也可7*24全天候監控···

7、自動獲得輿情信息的熱度,並生成報表

以文字和圖表的形式直觀的形式,生成各種網絡輿情趨勢圖表。

8、實時獲取與監測咨詢的點擊數,回復數,跟蹤發帖人的信息,發帖人的IP等

根據瀏覽量,回復數,跟蹤發帖人信息發帖人IP等功能能夠讓您了解信息的關註度及其來源

9、可對輿情信息進行管理,搜索,導出,編輯,標註,分類

可進行信息管理,和編輯,將您覺得重要的信息進行分類和標註,便於對同類事件的分析和處理

10、可對輿情信息進壹步篩選與過濾。

篩選出重要性強,急待處理輿情信息,過濾無用,過時,低影響力的信息

11、 監控結果保存歷史快照,文章中的關鍵詞可增量(變色)顯示

關鍵詞的增量顯示,讓您能第壹時間發現監控關鍵詞並對其具體內容進行了解分析,歷史快照讓內容重現

12、豐富的數據接口,可將監測數據與與各種系統接合

13、自動獲取代理IP功能,可防止個別網站進行反采集,反監測。

長期大量采集網站信息,會引起網站重視並可能導致封鎖您的IP,自動獲取代理IP地址並及時替換代理IP地址,可切實解決該情況的產生

14、輿情報告

通過在頻道導航、頻道監控中選擇或從搜索結果選擇,拖動到另壹文件夾中則可生成輿情報告。所輸出的輿情報告可選用系統自帶的輿情模板,也可定制輿情模板。輿情報告最終以world文檔或網頁的開式提供給用戶。

15、熱度分析

通過對文章轉載量、點擊數、回復數來分析熱度。相關數據存入數據庫,並自動檢查鏈接是否存活。

16、轉載與傳播

分析網路輿情傳播路徑,並通過反向解析技術解析出URL所對應的網站名稱。

17、短信接口

通過定制熱點發現在規則,及時自動發現輿情熱點。並以短信的方式及時通知輿情監控人員,以幫助輿情監控人員隨時隨時把握輿情動態。

18、輿情協同辦公平臺

通過分配不同的輿情監控人員的相關權限,方便各監控人員各司其職,更為高效地把握輿情動態。 企業檢索的需求

1、異構數據的整合

企業級用戶需要搜索的數據既有互聯網站上的,也有內部網站上的;既有網頁形式的,又有各種數據庫形式的;既有結構化數據,又更多的是各種電子文件格式的非結構化及半結構化數據,如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的數據,又有多媒體形式的數據;而且,同壹機構的數據還可能分布在不同介質的載體上。

然而,不管數據的形式、來源、位置、平臺如何不同,企業用戶總是希望內外數據能無縫結合,用壹個搜索工具和統壹的界面,發出幾個簡單的檢索請求就能對所有資源進行檢索,並很快就能有滿意的結果。並且,互聯網搜索內容對於用戶來說都是未知的,而企業級搜索的對象基本上是已知信息源,其中包括企業資料庫、目錄、文件系統、應用系統等,在對這些信息進行索引時,用戶需要按照內容而不是通過比較源鏈接來進行排列。

2、嚴格的安全搜索

很多業內人士在談到搜索安全的話題就憂心忡忡,他們普遍認為搜索環境並沒有為企業級應用做好足夠的準備,未來充滿太多的變數。而在壹些實際的應用中,我們看到,即便為數據定義了文檔級和數據庫級的雙重安全保障,搜索引擎的魔爪還能透過授權的索引文檔來搜索它們。

因此,針對企業網中不同的用戶對不同的資源,其使用權限都可能不壹樣,需要企業搜索引擎能夠對用戶、資源、權限分級管理和控制,確保系統的安全。

3、高可靠的查全和查準

作為專業用戶,企業用戶需要查找的信息專業性強、概念復雜,而對查詢的查全率和查準率有著非常高的要求。因此,需要利用各種手段來提高搜索引擎的查準率和查全率。

從查全率來看,互聯網搜索引擎無從談起查全率,因為互聯網上的信息如此泛濫無邊,任何壹個搜索引擎服務商都無法窮盡互聯網上的每個網頁。而在企業級的某些應用中,是不允許有所遺漏的檢索。必須對企業內部每個需要提供服務的信息進行索引。在檢索機制上必須保障效率的前提下達到全面搜索的要求。

同樣的道理,在互聯網上因為信息自由的特點,決定了搜索只能通過“關鍵詞匹配”這種核心檢索手段去實現。而在企業內部,信息的組織復雜了許多。企業級搜索引擎有完善的信息分類體系,元數據,對象數據多層邏輯的組織形式,在查詢上滿足基於對象數據內容和元數據標引體系的精確查詢要求。

4、智能化的檢索服務

企業內部的搜索服務,帶有鮮明的業務特性,不像互聯網搜索引擎僅提供信息參考。在企業內部的搜索結果將直接參與到企業的運營、決策中。所以,對於搜索的結果處理,搜索過程中采用相關智能技術以達到迅速、準確、全面定位目標信息非常重要。

企業搜索引擎通常都和企業其他的IT應用有機結合

以內容管理技術為框架,搜索技術為支撐,企業搜索引擎通常與數據管理、內容管理、記錄管理、競爭情報、團隊協同、過程管理、信息門戶等知識管理的各個環節密切結合,構成管理企業知識資產的完整而又靈活的體系。

5、實時的信息搜索服務

企業內部的搜索服務,具備業務特性,需要將搜索結果參與企業的運營和決策。所以通過搜索引擎提供的服務,必須能夠動態地反應實際情況,即當內部的信息發生變化時,必須能夠實時反應。

軍犬企業搜索方案

  • 上一篇:中國知識產權遠程教育不及格補考是線上還是線下
  • 下一篇:中原工學院怎麽樣
  • copyright 2024法律諮詢服務網