手機(jī)號(hào)
未認(rèn)證執(zhí)照
張寶(先生)
普通會(huì)員
張寶 (先生)
詞法分析是自然語(yǔ)言處理的基礎(chǔ)與關(guān)鍵。在中文自然語(yǔ)言處理中,詞是最小的能夠獨(dú)立活動(dòng)的有意義的語(yǔ)言成分。漢語(yǔ)是以字為基本書寫單位,詞語(yǔ)之間沒有明顯的區(qū)分標(biāo)記,因此進(jìn)行中文自然語(yǔ)言處理通常是先將漢語(yǔ)文本中的字符串切分成合理的詞語(yǔ)序列,然后再在此基礎(chǔ)上進(jìn)行其它分析處理。中文分詞是中文信息處理的一個(gè)基礎(chǔ)環(huán)節(jié),已被廣泛應(yīng)用于中文文本處理、信息提取、文本挖掘等應(yīng)用中。
一個(gè)自然語(yǔ)言處理系統(tǒng)必須考慮許多語(yǔ)言自身與結(jié)構(gòu)方面的知識(shí)——如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對(duì)句子意義有什么貢獻(xiàn)等,但這些卻還是遠(yuǎn)遠(yuǎn)不夠的。比如一個(gè)系統(tǒng)如果要回答提問或者直接參與對(duì)話,它不僅需要知道很多語(yǔ)言結(jié)構(gòu)的知識(shí),而且還要知道人類世界的一般性知識(shí)并具備人類的推理能力。因此許多語(yǔ)言學(xué)家通常把對(duì)語(yǔ)言的分析和理解分成如下幾個(gè)主要層次:詞法分析、句法分析、語(yǔ)義分析、篇章分析。
首先,詞法分析——主要包括分詞、詞性標(biāo)注、詞義消歧、新詞識(shí)別等——是通過分詞、詞頻和位置統(tǒng)計(jì)等手段獲得相關(guān)語(yǔ)言信息。
其次,句法分析通過使句子成分特征化來(lái)分析句子結(jié)構(gòu)特征,通過對(duì)句子和短語(yǔ)結(jié)構(gòu)的分析找出詞、短語(yǔ)等的相互關(guān)系以及各自在句中的作用,并以一定結(jié)構(gòu)來(lái)表達(dá)諸如從屬關(guān)系、成分關(guān)系等,目的是判定句子中各種結(jié)構(gòu)性成分。
第三,為了理解一個(gè)提問,一般還需要更多的語(yǔ)義和語(yǔ)用知識(shí)來(lái)幫助理解句子的意思,通過分析找出詞義、結(jié)構(gòu)意義及其結(jié)合意義,從而確定句子所表達(dá)的真正含義,而語(yǔ)義信息的標(biāo)記需要包含概念完全集與關(guān)系圖的支持,需要對(duì)句法成分做出細(xì)致的語(yǔ)義分類,它一般應(yīng)包括語(yǔ)言層面(即反映語(yǔ)言表面現(xiàn)象的知識(shí),如同義詞關(guān)系、層次關(guān)系等)、本體論層面(描述概念之間復(fù)雜的語(yǔ)義關(guān)系)、常識(shí)層面等。雖然這項(xiàng)工作浩繁,但目前已經(jīng)取得了一些初步成果。
最后,篇章分析用于對(duì)多個(gè)語(yǔ)句、段落之間在結(jié)構(gòu)或者語(yǔ)義上的相互關(guān)系進(jìn)行分析。
nlpir分詞系統(tǒng)是經(jīng)過多年研究工作積累,主要功能包括中文分詞;英文分詞;詞性標(biāo)注;命名實(shí)體識(shí)別;新詞識(shí)別;關(guān)鍵詞提取;支持用戶專業(yè)詞典與微博分析。nlpir系統(tǒng)支持多種編碼(gbk編碼、utf8編碼、big5編碼)、多種操作系統(tǒng)、多種開發(fā)語(yǔ)言與平臺(tái)。
nlpir/ictclas2018分詞系統(tǒng)主要功能介紹
1)中英文混合分詞功能
自動(dòng)對(duì)中文英文信息進(jìn)行分詞與詞性標(biāo)注功能,涵蓋了中文分詞、英文分詞、詞性標(biāo)注、未登錄詞識(shí)別與用戶詞典等功能。
2)關(guān)鍵詞提取功能
采用交叉信息熵的算法自動(dòng)計(jì)算關(guān)鍵詞,包括新詞與已知詞,
3)新詞識(shí)別與自適應(yīng)分詞功能
從較長(zhǎng)的文本內(nèi)容中,基于信息交叉熵自動(dòng)發(fā)現(xiàn)新特征語(yǔ)言,并自適應(yīng)測(cè)試語(yǔ)料的語(yǔ)言概率分布模型,實(shí)現(xiàn)自適應(yīng)分詞。
4)用戶專業(yè)詞典功能
可以單條導(dǎo)入用戶詞典,也可以批量導(dǎo)入用戶詞典。如可以定“舉報(bào)信 敏感點(diǎn)”,其中舉報(bào)信是用戶詞,敏感點(diǎn)是用戶自定義的詞性標(biāo)記。
ictclas分詞法利用詞典匹配進(jìn)行初切分得到一個(gè)切分詞圖,然后利用詞頻信息求詞圖n條最短路徑的n-最短路徑法。還有些研究者利用詞典找出所有的交叉歧義,然后利用bigram語(yǔ)言模型或其變形來(lái)消除歧義。
聯(lián)系人 | 需求數(shù)量 | 時(shí)間 | 描述 |
---|---|---|---|
暫無(wú)產(chǎn)品詢價(jià)記錄 |
采購(gòu)商 | 成交單價(jià)(元) | 數(shù)量 | 成交時(shí)間 |
---|---|---|---|
暫無(wú)購(gòu)買記錄 |
地區(qū):佛山
主營(yíng)產(chǎn)品:消泡劑,脫模劑,硅油地區(qū):汕頭
主營(yíng)產(chǎn)品:物流公司,貨運(yùn)站,國(guó)內(nèi)陸運(yùn)地區(qū):邢臺(tái)
主營(yíng)產(chǎn)品:回收煙酒,回收茅臺(tái)酒,邢臺(tái)回收五糧液地區(qū):鶴壁
主營(yíng)產(chǎn)品:促進(jìn)劑,防老劑,防焦劑