OCR將成為政府輿情監(jiān)測的創(chuàng)新元素
網(wǎng)絡輿情的重要性毋庸置疑,如何處理,常用說法是“網(wǎng)絡輿情監(jiān)控”。似乎“監(jiān)控”比起警察24小時布點隨時準備抓人,更有噱頭,更唬人!
自從2014年視頻文字識別系統(tǒng)開發(fā)包問世以來,我一直在聯(lián)系各個互聯(lián)網(wǎng)視頻行業(yè)以及傳媒行業(yè)的軟件開發(fā)集成商,主要因為部門內分工,一直沒把精力放在輿情監(jiān)控領域進行推廣。目前兩大傳媒行業(yè)的集成商都已經將我公司的產品進行集成投放市場,我想也該注重一下輿情監(jiān)控領域了。
對于大多數(shù)人可能不太了解輿情監(jiān)控,這個行業(yè)看似冷門,實際上作用還是非常大的:
1.根據(jù)互聯(lián)網(wǎng)搜索引擎的搜索調查,目前主要需求輿情監(jiān)控的用戶大多是政府單位部門。因為他們需要實時把握民眾的關注熱點,需要及時阻止不良信息傳播,適時針對謠言進行封鎖并辟謠。所以很早就已經有人關注這方面的業(yè)務與應用,如下圖,還是2012年網(wǎng)友的提問。
2.國內的一些大數(shù)據(jù)分析公司,也會專門針對互聯(lián)網(wǎng)信息進行收集監(jiān)測。我之前也接觸過幾家公司,他們主要是針對的大型集團企業(yè),每天會不間斷的到互聯(lián)網(wǎng)上去爬去抓取各類信息,然后按照這些大型集團企業(yè)的要求按照各種關鍵詞進行匹配和數(shù)據(jù)整理。比如,海爾集團會要求大數(shù)據(jù)分析公司重點關注有關海爾公司情況的軟文和資料,主要是了解公眾對海爾集團的看法。
3.還有一些特殊行業(yè):比如軍隊,公安廳等他們也會去網(wǎng)上做一些偵查任務,也包括一些國際輿論的監(jiān)測。
4.一些信息出口的小型公司企業(yè),會需要做信息的輸出監(jiān)測,避免不良信息在他們的環(huán)境中隨意傳播或者泄露到互聯(lián)網(wǎng)中,比如中小型論壇,博客網(wǎng),網(wǎng)絡空間等。
以上四種類型的用戶目前在用的系統(tǒng)其實都是針對文字本身進行監(jiān)測的,而對一些圖片、視頻中文字信息的處理則顯得有些吃力,有些輿情監(jiān)控領域的從業(yè)人員甚至認為圖片過濾是理所應當?shù)氖拢J為哪家同行業(yè)公司要是有圖片非過濾監(jiān)測技術反而不正常一他們已經習慣了沒有圖片文字監(jiān)測技術的時代了。
我之前跟幾個輿情系統(tǒng)公司人員聊過,問他們是否了解OCR識別技術,他們說這個技術不成熟,無法進行正常的業(yè)務使用。其實,這已經是很多年前的觀點了,現(xiàn)在北京文通科技視頻文字識別系統(tǒng)已經在這個方面做的相當成熟了。
文通視頻文字識別系統(tǒng),包括后續(xù)要出品的互聯(lián)網(wǎng)圖片文字識別系統(tǒng)都可以對網(wǎng)絡上傳播的圖片進行很好的文字識別、提取。不僅可以識別中、簡、繁三種文字類型并輸出文字在圖片中的坐標信息,還可以識別英文以及中英混排,而且針對一些效果字體也可以很好的識別。
如下圖所示是對加粗的特殊字體的識別。
如下2張圖所示,圖中的文字信息是彩色背景的,目前市面上能搜索找到的傳統(tǒng)的ocr技術都無法識別,連文字都分析不出來,而新技術是可以的,處理下面的圖,新技術可以自動定位到文字,然后進行字符切分識別,整個過程只用了0.2秒。
文通文字視頻識別系統(tǒng)對海量網(wǎng)絡輿論信息進行分析,并識別其中的關鍵信息,及時通知到相關人員,從而第一時間應急響應,為正確輿論導向及收集群眾意見提供幫助的一套信息化系統(tǒng)。而且各地政府單位已經陸陸續(xù)續(xù)注意到了這一點,并且嘗試以創(chuàng)新的元素加入到現(xiàn)有的輿情監(jiān)控領域中。
其他推薦文章:
1、vin識別ocr、發(fā)票識別ocr、房產證號識別ocr、電表水表識別 或 ocr移動端應用
2、ocr開發(fā)包技術集成用:TH-OCR SDK 11 或 視頻ocr應用
3、文字ocr識別軟件:文通TH-OCR 2013 數(shù)據(jù)錄入工廠 或 ocr開發(fā)包sdk