隨著信息技術(shù)的不斷發(fā)展,人們已經(jīng)進(jìn)入信息極大豐富的時(shí)代,一方面信息來源廣泛,包括?Web?文檔圖書文獻(xiàn)數(shù)字化資料等,這些異構(gòu)的信息分布在Internet?空間中;另一方面,信息量巨大。面對(duì)信息的海洋,人們覺得力不從心,往往花費(fèi)了很多時(shí)間卻所獲甚少。在這種情況下,如何有效地提供基于?Internet?的資源發(fā)現(xiàn)服務(wù),以幫助用戶從大量信息資源的集合中找到與給定的查詢請(qǐng)求相關(guān)的、恰當(dāng)數(shù)目的資源子集,也就成為一項(xiàng)重要而迫切的難題。
數(shù)據(jù)挖掘技術(shù)本身就是當(dāng)前數(shù)據(jù)技術(shù)發(fā)展的新領(lǐng)域,文本挖掘則發(fā)展歷史更短.傳統(tǒng)的信息檢索技術(shù)對(duì)于海量數(shù)據(jù)的處理并不盡如人意,文本挖掘便日益重要起來,可見文本挖掘技術(shù)是從信息抽取以及相關(guān)技術(shù)領(lǐng)域中慢慢演化而成的。
文本挖掘是為了發(fā)現(xiàn)知識(shí),從大規(guī)模文本數(shù)據(jù)中抽取隱含的、以前未知的、潛在有用的模式的過程。文本挖掘可以看作是數(shù)據(jù)挖掘技術(shù)與文本處理技術(shù)的結(jié)合,是數(shù)據(jù)挖掘從處理結(jié)構(gòu)化數(shù)據(jù)到處理無結(jié)構(gòu)數(shù)據(jù)的一次飛躍,已成為當(dāng)前知識(shí)發(fā)現(xiàn)領(lǐng)域的主流方向之一。
文本挖掘不但要處理大量的結(jié)構(gòu)化和非結(jié)構(gòu)化的文檔數(shù)據(jù),?而且還要處理其中復(fù)雜的語義關(guān)系,?因此,?現(xiàn)有的數(shù)據(jù)挖掘技術(shù)無法直接應(yīng)用于其上。對(duì)于非結(jié)構(gòu)化問題,?一條途徑是發(fā)展全新的數(shù)據(jù)挖掘算法直接對(duì)非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行挖掘,?由于數(shù)據(jù)非常復(fù)雜,?導(dǎo)致這種算法的復(fù)雜性很高;?另一條途徑就是將非結(jié)構(gòu)化問題結(jié)構(gòu)化,?利用現(xiàn)有的數(shù)據(jù)挖掘技術(shù)進(jìn)行挖掘,?目前的文本挖掘一般采用該途徑進(jìn)行。對(duì)于語義關(guān)系,?則需要集成計(jì)算語言學(xué)和自然語言處理等成果進(jìn)行分析。
靈玖軟件NLPIR大數(shù)據(jù)語義智能分析平臺(tái)針對(duì)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,先后歷時(shí)十八年,服務(wù)了全球四十萬家機(jī)構(gòu)用戶,是大時(shí)代語義智能分析的一大利器。
NLPIR大數(shù)據(jù)語義智能分析平臺(tái)平臺(tái)針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。15年專業(yè)研究與工程積累,提供應(yīng)用軟件及各平臺(tái)下的二次開發(fā)包。提供了用于技術(shù)二次開發(fā)的基礎(chǔ)工具集。開發(fā)平臺(tái)由多個(gè)中間件組成,各個(gè)中間件API可以無縫地融合到客戶的各類復(fù)雜應(yīng)用系統(tǒng)之中。
NLPIR能夠全方位多角度滿足應(yīng)用者對(duì)大數(shù)據(jù)文本的處理需求,包括大數(shù)據(jù)完整的技術(shù)鏈條:網(wǎng)絡(luò)采集、正文提取、中英文分詞、詞性標(biāo)注、實(shí)體抽取、詞頻統(tǒng)計(jì)、關(guān)鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴(kuò)展、繁簡編碼轉(zhuǎn)換、自動(dòng)注音、文本聚類等。
中文數(shù)據(jù)挖掘技術(shù)應(yīng)時(shí)代的要求應(yīng)運(yùn)而生,在很大程度上滿足了人們對(duì)自然語言處理的需要,解決了人和計(jì)算機(jī)交流中的一些障礙;但中文數(shù)據(jù)挖掘技術(shù)也存在很多困難,NLPIR大數(shù)據(jù)語義智能技術(shù)將對(duì)中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語言理解系統(tǒng)的廣泛應(yīng)用。