手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
中文分詞問(wèn)題是絕大多數(shù)中文信息處理的基礎(chǔ)問(wèn)題,在搜索引擎、推薦系統(tǒng)、大量文本自動(dòng)分類等方面,一個(gè)好的分詞系統(tǒng)是整個(gè)系統(tǒng)成功的關(guān)鍵。
一個(gè)中文信息處理系統(tǒng)必須考慮許多語(yǔ)言自身與結(jié)構(gòu)方面的知識(shí)——如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對(duì)句子意義有什么貢獻(xiàn)等,但這些卻還是遠(yuǎn)遠(yuǎn)不夠的。比如一個(gè)系統(tǒng)如果要回答提問(wèn)或者直接參與對(duì)話,它不僅需要知道很多語(yǔ)言結(jié)構(gòu)的知識(shí),而且還要知道人類世界的一般性知識(shí)并具備人類的推理能力。因此許多語(yǔ)言學(xué)家通常把對(duì)語(yǔ)言的分析和理解分成如下幾個(gè)主要層次:詞法分析、句法分析、語(yǔ)義分析、篇章分析。
但是,在中文信息的處理當(dāng)中會(huì)遇到各種困難,而最主要的是一下兩方面:
首先,是漢字切分歧義問(wèn)題。漢語(yǔ)言本身存在歧義。對(duì)人來(lái)說(shuō),一般是通過(guò)上下文來(lái)理解,但是機(jī)器很難正確判斷該如何切分。比如對(duì)“組合成機(jī)器”來(lái)說(shuō),“組合”、“合成”都是詞,到底是切分成“組合/成”還是切分成“組/合成”?歧義一般來(lái)說(shuō)按照結(jié)構(gòu)可以分為“交叉歧義”和“覆蓋歧義”。
其次,是漢語(yǔ)未登錄詞識(shí)別問(wèn)題。未登錄詞指的是詞典中沒有收錄的詞,包括各種命名實(shí)體(如數(shù)詞、人名、地名、機(jī)構(gòu)名、譯名、時(shí)間、貨幣)和網(wǎng)絡(luò)新詞(如坑爹、醬紫、快女、給力)等。另外,一些縮略語(yǔ)(如科協(xié))和術(shù)語(yǔ)(如股骨頭壞死)也屬于未登錄詞的范圍。
nlpir/ictclas分詞系統(tǒng)是針對(duì)互聯(lián)網(wǎng)內(nèi)容處理的需要,融合了自然語(yǔ)言理解、網(wǎng)絡(luò)搜索和文本挖掘的技術(shù),具有深度學(xué)習(xí)、高效、語(yǔ)義的特點(diǎn),可以支持中英文分詞與詞性標(biāo)注,可視化系統(tǒng)可根據(jù)詞性對(duì)不同的分詞結(jié)果進(jìn)行區(qū)分顯示,一般虛詞都是淺色,而名詞、動(dòng)詞、形容詞等實(shí)詞為顯著的顏色。系統(tǒng)還支持在線用戶詞典的輸入,用戶可以在右下方添加用戶詞及詞性。
nlpir/ictclas2016分詞系統(tǒng)主要功能介紹
1)中英文混合分詞功能
自動(dòng)對(duì)中文英文信息進(jìn)行分詞與詞性標(biāo)注功能,涵蓋了中文分詞、英文分詞、詞性標(biāo)注、未登錄詞識(shí)別與用戶詞典等功能。
2)關(guān)鍵詞提取功能
采用交叉信息熵的算法自動(dòng)計(jì)算關(guān)鍵詞,包括新詞與已知詞。
3)新詞識(shí)別與自適應(yīng)分詞功能
從較長(zhǎng)的文本內(nèi)容中,基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語(yǔ)言,并自適應(yīng)測(cè)試語(yǔ)料的語(yǔ)言概率分布模型,實(shí)現(xiàn)自適應(yīng)分詞。
4)用戶專業(yè)詞典功能
可以單條導(dǎo)入用戶詞典,也可以批量導(dǎo)入用戶詞典。如可以定“舉報(bào)信 敏感點(diǎn)”,其中舉報(bào)信是用戶詞,敏感點(diǎn)是用戶自定義的詞性標(biāo)記。
5)微博分詞功能
對(duì)博主id進(jìn)行nr標(biāo)示,對(duì)轉(zhuǎn)發(fā)的會(huì)話進(jìn)行自動(dòng)分割標(biāo)示(標(biāo)示為ssession),url以及email進(jìn)行自動(dòng)標(biāo)引。
nlpir/ictclas運(yùn)行環(huán)境
1 、支持的環(huán)境
1). 可以支持windows、linux、freebsd等多種環(huán)境,支持普通pc機(jī)器即可運(yùn)行。
2). 支持gbk/utf-8/big5
2、 linux如何調(diào)用nlpir
1)與window下一樣編程;
2)makefile的命令如下:
其中example-c.cpp是測(cè)試使用nlpir的程序;因?yàn)閚lpir進(jìn)行了多線程的安 全保護(hù)設(shè)計(jì),需要調(diào)用多線程的庫(kù),即-l. –lpthread。調(diào)用nlpir的部分為:-l../../../bin/ictclas2013 –lnlpir 第一部分為路徑,后面為libnlpir.so對(duì)應(yīng)的名稱-lnlpir。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無(wú)產(chǎn)品詢價(jià)記錄 |
采購(gòu)商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無(wú)購(gòu)買記錄 |
地區(qū):鶴壁
主營(yíng)產(chǎn)品:促進(jìn)劑,防老劑,防焦劑地區(qū):成都
主營(yíng)產(chǎn)品:電磁閥,氣缸,過(guò)濾器地區(qū):武漢
主營(yíng)產(chǎn)品:洪山公司注冊(cè),洪山注冊(cè)公司,洪山代理記賬地區(qū):武漢
主營(yíng)產(chǎn)品:東西湖公司注冊(cè),東西湖代理記賬,東西湖代賬公司