手機號
未認證執(zhí)照
張寶(先生)
普通會員
張寶 (先生)
自然語言處理(又叫自然語言理解,計算語言學)是當前it領域的重要技術之一。隨著互聯(lián)網信息的急劇增長,搜索引擎成為人們獲取信息不可缺少的工具。但是基于關鍵字索引的工具已經越來越無法滿足用戶的需求,相反用戶更希望計算機能理解句子的意思以幫助我們更好的處理信息和組織信息,這就需要自然語言處理技術來解決,例如中文分詞、詞性標注、句法分析、依存關系分析、語義消岐等等。
自然語言具備兩個屬性:語言屬性與自然屬性。“語言”屬性表現(xiàn)為公認的某些約定俗成的內在規(guī)律性,如“把車開回北京去”是一個符合這種內在規(guī)定性的構成形式,而“車回開北京把去”就是一種不符合這種內在規(guī)律性的構成形式;“自然”屬性是說并不存在某個人為制造的、嚴格的語法規(guī)則體系來約定人們的語言表達方式,這是和程序設計語言大相徑庭的。自然語言需要遵循一定的內在規(guī)律,但更大程度上是“存在即合理”。如“你先走”符合人們的正常使用習慣,后來隨著網絡的流行,“你走先”、“給個理由先”都逐漸成為了合理的語言新現(xiàn)象。按照相關文獻中的描述,計算機對自然語言的研究和處理,大抵經過如下三個過程:
(1). 把需要研究的問題在語言學上加以形式化,使之能以一定的數(shù)學形式,嚴密而規(guī)整地表示出來;
(2). 把這種嚴密而規(guī)整的數(shù)學形式表示為算法,使之在計算上形式化;
(3). 根據(jù)算法編寫計算機程序,使之在計算機上加以實現(xiàn)。
一個自然語言處理系統(tǒng)必須考慮許多語言自身與結構方面的知識——如什么是詞、詞如何組成句子、詞的意義是什么、詞的意義對句子意義有什么貢獻等,但這些卻還是遠遠不夠的。比如一個系統(tǒng)如果要回答提問或者直接參與對話,它不僅需要知道很多語言結構的知識,而且還要知道人類世界的一般性知識并具備人類的推理能力。因此許多語言學家通常把對語言的分析和理解分成如下幾個主要層次:詞法分析、句法分析、語義分析、篇章分析。
按照多數(shù)文獻的觀點,首先,詞法分析——主要包括分詞、詞性標注、詞義消歧、新詞識別等——是通過分詞、詞頻和位置統(tǒng)計等手段獲得相關語言信息。其次,句法分析通過使句子成分特征化來分析句子結構特征,通過對句子和短語結構的分析找出詞、短語等的相互關系以及各自在句中的作用,并以一定結構來表達諸如從屬關系、成分關系等,目的是判定句子中各種結構性成分。第三,為了理解一個提問,一般還需要更多的語義和語用知識來幫助理解句子的意思,通過分析找出詞義、結構意義及其結合意義,從而確定句子所表達的真正含義,而語義信息的標記需要包含概念完全集與關系圖的支持,需要對句法成分做出細致的語義分類,它一般應包括語言層面(即反映語言表面現(xiàn)象的知識,如同義詞關系、層次關系等)、本體論層面(描述概念之間復雜的語義關系)、常識層面等。雖然這項工作浩繁,但目前已經取得了一些初步成果。最后,篇章分析用于對多個語句、段落之間在結構或者語義上的相互關系進行分析。
按照多數(shù)文獻中的分類方法,從技術路線上看,計算機自然語言處理可大致分為基于語言學規(guī)則分析的方法和基于統(tǒng)計的方法這兩類主要方法(當然,也有不同的分類方法,限于篇幅在此不再贅述),前者通過對語言學知識的形式化規(guī)則處理將語言學知識轉化為計算機可處理的形式,而后者則是從大規(guī)模真實語料庫中獲得統(tǒng)計信息,并將之用于自然語言的分析處理;谝(guī)則分析的方法主張以建立形式化的知識系統(tǒng)來表述語言知識,其本質是一種確定性的演繹推理方法,如北京理工大學大數(shù)據(jù)實驗室張華平主任研發(fā)的nlpir大數(shù)據(jù)語義智能分析技術是對語法、詞法和語義的綜合應用。nlpir大數(shù)據(jù)語義智能分析平臺平臺是根據(jù)中文數(shù)據(jù)挖掘的綜合需求,融合了網絡精準采集、自然語言理解、文本挖掘和語義搜索的研究成果,并針對互聯(lián)網內容處理的全技術鏈條的共享開發(fā)平臺。包括大數(shù)據(jù)完整的技術鏈條:網絡采集、正文提取、中英文分詞、詞性標注、實體抽取、詞頻統(tǒng)計、關鍵詞提取、語義信息抽取、文本分類、情感分析、語義深度擴展、繁簡編碼轉換、自動注音、文本聚類等功能。
另一方面,自上個世紀80年代以來,由于大量語料庫的出現(xiàn)以及計算機處理能力的提高,也由于基于規(guī)則的方法遲遲未能達到人們預期目標,基于統(tǒng)計的方法逐漸興起。該方法主張通過搜集實際語言材料形成語料庫,并在此基礎上進行分析和處理。它通過構造統(tǒng)計模型來對語料庫中描述的實際出現(xiàn)的語言現(xiàn)象進行統(tǒng)計,進而得到統(tǒng)計意義上的語言知識,其本質是非確定性的基于概率的推理方式。
由于知識是通過對語料庫進行分析后抽取出的,因此它可為語言處理提供較為客觀的依據(jù)。但基于統(tǒng)計的方法本質上是一種非確定性推理方法,可能會掩蓋一些小概率事件。由于有些統(tǒng)計方法無法解決的問題利用規(guī)則方法卻容易得到解決,因此以實用性為目標,將基于規(guī)則的方法與基于統(tǒng)計的方法有機結合起來,構建面向大規(guī)模真實文本的信息處理乃是未來發(fā)展之趨勢。
聯(lián)系人 | 需求數(shù)量 | 時間 | 描述 |
---|---|---|---|
暫無產品詢價記錄 |
采購商 | 成交單價(元) | 數(shù)量 | 成交時間 |
---|---|---|---|
暫無購買記錄 |
地區(qū):滄州
主營產品:機床維修,鑄件,工量具地區(qū):成都
主營產品:電磁閥,氣缸,過濾器地區(qū):汕頭
主營產品:物流公司,貨運站,國內陸運地區(qū):成都
主營產品:聲屏障,護欄網,石籠網