手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
隨著信息技術(shù)的高速發(fā)展、數(shù)據(jù)庫管理系統(tǒng)的廣泛應(yīng)用,人們積累的數(shù)據(jù)量急劇增長,大量的信息給人們帶來方便的同時(shí),也帶來了諸如:信息過量難以消化,信息真假難以辨識(shí),信息安 全難以保證,信息形式不一致難以統(tǒng)一處理等問題。如何從海量的數(shù)據(jù)中提取有用的知識(shí)成為當(dāng)務(wù)之急。數(shù)據(jù)挖掘就是為順應(yīng)這種需要應(yīng)運(yùn)而生發(fā)展起來的數(shù)據(jù)處理技術(shù)。
大數(shù)據(jù)挖掘是伴隨者互聯(lián)網(wǎng)的普及應(yīng)用和傳統(tǒng)信息檢索技術(shù)的不足提出并發(fā)展起來的。大數(shù)據(jù)挖掘是從大數(shù)據(jù)中發(fā)現(xiàn)有用的模式(其中的數(shù)據(jù)可以存放在數(shù)據(jù)庫、數(shù)據(jù)倉庫或其他信息庫中),它旨在解決數(shù)據(jù)挖掘、信息檢索、知識(shí)抽取以及更廣泛的商業(yè)問題。面向大數(shù)據(jù)的挖掘比面向數(shù)據(jù)庫和數(shù)據(jù)倉庫的數(shù)據(jù)挖掘要復(fù)雜,因?yàn)榇髷?shù)據(jù)往往是無結(jié)構(gòu)的,通常是用長的句子或短語來表達(dá)文檔類信息;有些則可能是半結(jié)構(gòu)化的,當(dāng)然也包括大量的異構(gòu)信息、冗余信息等,對(duì)諸如廣告 、導(dǎo)航條、動(dòng)畫等無關(guān)信息的甄別與處理也都是需要考慮的問題。大數(shù)據(jù)挖掘也是一個(gè)交叉學(xué)科,它涉及信息檢索(信息檢索可以看成是大數(shù)據(jù)挖掘的初級(jí)階段)、人工智能、機(jī)器學(xué)習(xí)、概率論以及數(shù)據(jù)庫等。在大數(shù)據(jù)搜索和檢索中,常常需要對(duì)結(jié)果進(jìn)行處理和內(nèi)容挖掘。應(yīng)用數(shù)據(jù)分析與挖掘方法,可以幫助人們從海量網(wǎng)絡(luò)信息中提取知識(shí),為訪問者、站點(diǎn)經(jīng)營者以及包括電子商務(wù)在內(nèi)的基于因特網(wǎng)的商務(wù)活動(dòng)提供決策支持。由于大數(shù)據(jù)的海量、冗余、異構(gòu)等復(fù)雜特點(diǎn),給傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)提出了很多亟待解決的難題。
作為大數(shù)據(jù)挖掘領(lǐng)域中的一個(gè)重要研究分支,文本挖掘與處理主要研究從非結(jié)構(gòu)化及半結(jié)構(gòu)化的海量web文本信息中挖掘有價(jià)值的信息,處理其中可能隱藏著的概念及其聯(lián)系,并完成可能的知識(shí)發(fā)現(xiàn)。
北京理工大學(xué)大數(shù)據(jù)搜索與挖掘?qū)嶒?yàn)室張華平主任研發(fā)的nlpir大數(shù)據(jù)語義智能分析技術(shù)是對(duì)語法、詞法和語義的綜合應(yīng)用。nlpir大數(shù)據(jù)語義智能分析平臺(tái)平臺(tái)是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網(wǎng)絡(luò)精準(zhǔn)采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的全技術(shù)鏈條的共享開發(fā)平臺(tái)。
其中kgb(knowledge graph builder)知識(shí)圖譜引擎是我們自主研發(fā)的知識(shí)圖譜構(gòu)建與推理引擎,基于漢語詞法分析的基礎(chǔ)上,采用kgb語法實(shí)現(xiàn)了實(shí)時(shí)高效的知識(shí)生成,可以從非結(jié)構(gòu)化文本中抽取各類知識(shí),并實(shí)現(xiàn)了從表格中抽取指定的內(nèi)容等。kgb同時(shí)可以定義不同的動(dòng)作,如抽取動(dòng)作,并能自定義各類后處理程序。利用kgb知識(shí)圖譜引擎可以抽取到產(chǎn)品的詳細(xì)報(bào)價(jià)信息,方便進(jìn)行下一步的數(shù)據(jù)挖掘與圖譜構(gòu)建。
大數(shù)據(jù)挖掘技術(shù)是一個(gè)充滿希望的研究領(lǐng)域,商業(yè)利益的強(qiáng)大驅(qū)動(dòng)力將會(huì)不停地促進(jìn)它的發(fā)展。每年都有新的數(shù)據(jù)挖掘方法和模型問世,人們對(duì)它的研究正日益廣泛和深入。對(duì)海量文本信息進(jìn)行有效的數(shù)據(jù)挖掘已經(jīng)是自然語言處理、信息檢索、信息分類、信息過濾、語義挖掘、文本的機(jī)器學(xué)習(xí)等諸多應(yīng)用領(lǐng)域基礎(chǔ)且關(guān)鍵的研究問題,它影響著上層信息服務(wù)與信息共享的質(zhì)量和水平。nlpir大數(shù)據(jù)語義智能技術(shù)將對(duì)中文數(shù)據(jù)挖掘技術(shù)進(jìn)行深入研究,必將提供出高質(zhì)量、多功能的中文數(shù)據(jù)挖掘算法并促進(jìn)自然語言理解系統(tǒng)的廣泛應(yīng)用。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無產(chǎn)品詢價(jià)記錄 |
采購商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無購買記錄 |
地區(qū):成都
主營產(chǎn)品:聲屏障,護(hù)欄網(wǎng),石籠網(wǎng)地區(qū):廊坊
主營產(chǎn)品:富卓液壓,施羅德液壓,海普洛液壓地區(qū):北京
主營產(chǎn)品:低壓聚乙烯,高壓聚乙烯,聚丙烯地區(qū):成都
主營產(chǎn)品:電磁閥,氣缸,過濾器