在AI時(shí)代,我們希望計(jì)算機(jī)能夠擁有視覺(jué)、聽(tīng)覺(jué)、行動(dòng)以及語(yǔ)言的智能,而相對(duì)于聽(tīng)和看以及行動(dòng),語(yǔ)言是我們?nèi)祟悈^(qū)別于其他動(dòng)物的最重要特征之一。語(yǔ)言是我們思維的載體,也因此我們對(duì)于語(yǔ)言的理解和處理,變得尤為重要。而在計(jì)算機(jī)領(lǐng)域,自然語(yǔ)言處理(NLP, Natural Language Processing)就是研究如何讓計(jì)算機(jī)理解并生成人類的語(yǔ)言,從而和人類平等流暢地溝通交流。自然語(yǔ)言處理技術(shù) 在百度已經(jīng)有悠久的歷史,早在百度誕生之時(shí)就成為搜索技術(shù)的重要組成部分,一直伴隨著百度的發(fā)展而進(jìn)步。從中文分詞、詞性分析、改寫(xiě),到機(jī)器翻譯、篇章分析、語(yǔ)義理解、對(duì)話系統(tǒng)等等,NLP技術(shù)已成功應(yīng)用在百度各類產(chǎn)品中。
近期由百度開(kāi)發(fā)者中心主辦、極客邦科技承辦的75期百度技術(shù)沙龍上,百度NLP和AI開(kāi)放平臺(tái)的多位資深工程師和產(chǎn)品經(jīng)理,針對(duì)開(kāi)發(fā)者如何利用百度NLP技術(shù)更好解決實(shí)際應(yīng)用問(wèn)題,進(jìn)行了具體分享。百度AI技術(shù)生態(tài)部高級(jí)運(yùn)營(yíng)顧問(wèn)張揚(yáng),通過(guò)具體應(yīng)用案例,讓大家對(duì)百度NLP開(kāi)放的核心技術(shù)有一個(gè)感性的認(rèn)知;自然語(yǔ)言處理部主任架構(gòu)師孫宇,針對(duì)NLP語(yǔ)義計(jì)算技術(shù)的具體問(wèn)題深入分析;自然語(yǔ)言處理部資深研發(fā)工程師何伯磊,用大量場(chǎng)景詳細(xì)解釋了情感分析領(lǐng)域的技術(shù)應(yīng)用;自然語(yǔ)言處理部資深研發(fā)工程師姜迪,詳細(xì)闡述了概率圖模型技術(shù)如何應(yīng)用;百度AI技術(shù)生態(tài)部資深產(chǎn)品經(jīng)理張晶晶,為大家現(xiàn)場(chǎng)指導(dǎo)百度AI開(kāi)放平臺(tái)的使用方法。
NLP是什么?
NLP是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法。自然語(yǔ)言處理是一門融語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)于一體的學(xué)科。NLP由兩個(gè)主要的技術(shù)領(lǐng)域構(gòu)成:自然語(yǔ)言理解和自然語(yǔ)言生成。
-
自然語(yǔ)言理解方向,主要目標(biāo)是幫助機(jī)器更好理解人的語(yǔ)言,包括基礎(chǔ)的詞法、句法等語(yǔ)義理解,以及需求、篇章、情感層面的高層理解。
-
自然語(yǔ)言生成方向,主要目標(biāo)是幫助機(jī)器生成人能夠理解的語(yǔ)言,比如文本生成、自動(dòng)文摘等。
NLP技術(shù)基于大數(shù)據(jù)、知識(shí)圖譜、機(jī)器學(xué)習(xí)、語(yǔ)言學(xué)等技術(shù)和資源,并可以形成機(jī)器翻譯、深度問(wèn)答、對(duì)話系統(tǒng)的具體應(yīng)用系統(tǒng),進(jìn)而服務(wù)于各類實(shí)際業(yè)務(wù)和產(chǎn)品。
我們?yōu)槭裁葱枰狽LP?
在演講中,為了讓大家有更直觀的感受,張揚(yáng)首先舉了個(gè)生活中的例子:人們?cè)谟冒俣人阉饕粋(gè)生僻字時(shí),不知道拼音的情況下會(huì)搜索:“4個(gè)又念什么?”,我們發(fā)現(xiàn),搜索結(jié)果一定是告訴你這個(gè)“叕”字念什么,而不是“4個(gè)又念什么”的這幾個(gè)詞表面的匹配結(jié)果,這其中已經(jīng)用到自然語(yǔ)言理解的能力了,它幫助搜索引擎理解用戶需要搜的是“由4個(gè)又組成的字”,而不是“4個(gè)又是什么”這幾個(gè)孤零零的詞。由此可見(jiàn),NLP技術(shù)真正能夠知道你所說(shuō)的話的深層語(yǔ)義是什么,這項(xiàng)技術(shù)也把人工智能推向了一個(gè)新的高度。
那么NLP究竟能能夠干什么?如何幫助業(yè)務(wù)實(shí)現(xiàn),張揚(yáng)繼續(xù)介紹了百度NLP開(kāi)放的幾項(xiàng)典型技術(shù):
情感傾向分析
針對(duì)帶有主觀描述的中文文本,可自動(dòng)判斷該文本的情感極性類別并給出相應(yīng)的置信度。情感極性分為積極、消極、中性。情感傾向分析能幫助企業(yè)理解用戶消費(fèi)習(xí)慣、分析熱點(diǎn)話題和危機(jī)輿情監(jiān)控,為企業(yè)提供有力的決策支持。
評(píng)論觀點(diǎn)抽取
自動(dòng)分析評(píng)論關(guān)注點(diǎn)和評(píng)論觀點(diǎn),并輸出評(píng)論觀點(diǎn)標(biāo)簽及評(píng)論觀點(diǎn)極性。目前支持13類產(chǎn)品用戶評(píng)論的觀點(diǎn)抽取,包括美食、酒店、汽車、景點(diǎn)等,可幫助商家進(jìn)行產(chǎn)品分析,輔助用戶進(jìn)行消費(fèi)決策。
詞義相似度計(jì)算
用于計(jì)算兩個(gè)給定詞語(yǔ)的語(yǔ)義相似度,基于自然語(yǔ)言中的分布假設(shè),即越是經(jīng)常共同出現(xiàn)的詞之間的相似度越高。詞義相似度是自然語(yǔ)言處理中的重要基礎(chǔ)技術(shù),是專名挖掘、query改寫(xiě)、詞性標(biāo)注等常用技術(shù)的基礎(chǔ)之一。
詞法分析
百度詞法分析向用戶提供分詞、詞性標(biāo)注、命名實(shí)體識(shí)別三大功能。該服務(wù)能夠識(shí)別出文本串中的基本詞匯標(biāo)注和詞匯的詞性,并進(jìn)一步識(shí)別出命名實(shí)體,百度詞法分析的算法效果大幅領(lǐng)先已公開(kāi)的主流中文詞法分析模型。
短文本相似度
能夠提供不同短文本之間相似度的計(jì)算,輸出的相似度是一個(gè)介于-1到1之間的實(shí)數(shù)值,越接近1則相似度越高。這個(gè)相似度值可以直接用于結(jié)果排序,也可以作為一維基礎(chǔ)特征作用于更復(fù)雜的系統(tǒng)。
DNN語(yǔ)言模型
語(yǔ)言模型是通過(guò)計(jì)算給定詞組成的句子的概率,從而判斷所組成的句子是否符合客觀語(yǔ)言表達(dá)習(xí)慣。在機(jī)器翻譯、拼寫(xiě)糾錯(cuò)、語(yǔ)音識(shí)別、問(wèn)答系統(tǒng)、詞性標(biāo)注、句法分析和信息檢索等系統(tǒng)中都有廣泛應(yīng)用。
詞向量表示
詞向量表示表示是通過(guò)訓(xùn)練的方法,將語(yǔ)言詞表中的詞映射成一個(gè)長(zhǎng)度固定的向量。詞表中所有的詞向量構(gòu)成一個(gè)向量空間,每一個(gè)詞都是這個(gè)詞向量空間中的一個(gè)點(diǎn),利用這種方法,實(shí)現(xiàn)文本的可計(jì)算。
依存句法分析
利用句子中詞與詞之間的依存關(guān)系來(lái)表示詞語(yǔ)的句法結(jié)構(gòu)信息(如主謂、動(dòng)賓、定中等結(jié)構(gòu)關(guān)系)
并用樹(shù)狀結(jié)構(gòu)來(lái)表示整句的的結(jié)構(gòu)(如主謂賓、定狀補(bǔ)等)。
百度語(yǔ)義計(jì)算技術(shù)是如何實(shí)現(xiàn)的?
在各個(gè)NLP開(kāi)放接口之中,語(yǔ)義計(jì)算是一個(gè)非常基礎(chǔ)的技術(shù)。百度NLP部門的主任架構(gòu)師孫宇主要圍繞NLP語(yǔ)義計(jì)算整體技術(shù)框架展開(kāi)分析,核心介紹了語(yǔ)義表示技術(shù)和語(yǔ)義匹配技術(shù)。百度NLP語(yǔ)義計(jì)算整體框架主要分三大部分(如下圖),最底層依托于大數(shù)據(jù)、網(wǎng)頁(yè)數(shù)據(jù)和用戶行為數(shù)據(jù),以及高性能集群(GPU、CPU和FPGA),打造了基于DNN和概率圖模型的語(yǔ)義計(jì)算引擎,通過(guò)文本輸入到語(yǔ)義計(jì)算引擎當(dāng)中,可以得到文本的語(yǔ)義表示,進(jìn)而基于這個(gè)語(yǔ)義表示,進(jìn)行語(yǔ)義層面的計(jì)算,包括語(yǔ)義匹配、語(yǔ)義檢索、文本分類、序列生成以及序列標(biāo)注。
目前,百度在語(yǔ)義方面開(kāi)放了四個(gè)技術(shù),囊括了詞匯和句子兩個(gè)層面的語(yǔ)義技術(shù)。詞匯層面包括了詞語(yǔ)義向量表示,詞義相似度計(jì)算;句子層面的包括短文本語(yǔ)義相似度計(jì)算和DNN語(yǔ)言模型。孫宇對(duì)這些技術(shù)背后的原理進(jìn)行了詳細(xì)的介紹。
語(yǔ)義表示技術(shù)業(yè)界很早就開(kāi)始研究,主要有兩種流派,一個(gè)是形式化的方法,一個(gè)是基于統(tǒng)計(jì)的方法。關(guān)于基于形式化的方法,在上世紀(jì)八十年代普林斯頓有科學(xué)家提出:基于語(yǔ)言學(xué)知識(shí)構(gòu)建一個(gè)詞圖,把知識(shí)通過(guò)詞與詞之間的關(guān)系構(gòu)建到這個(gè)圖里。九十年代又有人提出,將自然語(yǔ)言表示成一種邏輯的表達(dá)式,可以直接用于計(jì)算機(jī)計(jì)算和執(zhí)行。但這兩個(gè)技術(shù)都存在一個(gè)問(wèn)題:自動(dòng)化程度不高,適用性較差,因此,百度NLP主要采用基于統(tǒng)計(jì)的方法。
短文本語(yǔ)義相似度計(jì)算是他們重點(diǎn)打造、應(yīng)用廣泛的技術(shù)。其中的核心模型是利用他們2013年開(kāi)始研發(fā)的SimNet語(yǔ)義匹配框架,在千億級(jí)別真實(shí)點(diǎn)擊數(shù)據(jù)訓(xùn)練得到。該框架的基礎(chǔ)匹配算法上包含兩種匹配范式,一種側(cè)重于表示層建模,另外一種則更側(cè)重于匹配層建模。這兩種模型各有優(yōu)勢(shì),可解決不同問(wèn)題。另外,針對(duì)不同應(yīng)用場(chǎng)景他們還擴(kuò)展研發(fā)了基于字符級(jí)別匹配和多視角匹配技術(shù),這些技術(shù)都廣泛應(yīng)用于百度內(nèi)部各產(chǎn)品中。
百度自然語(yǔ)言處理在情感分析領(lǐng)域有哪些技術(shù)和應(yīng)用?
在演講中,何伯磊主要針對(duì)用戶日常的使用場(chǎng)景,分析了情感分析技術(shù)的原理和實(shí)際應(yīng)用。百度情感分析技術(shù)依托于評(píng)論大數(shù)據(jù)、深度學(xué)習(xí)、語(yǔ)義理解等基礎(chǔ)技術(shù),建立了一套完整情感分類與觀點(diǎn)挖掘的核心技術(shù)。在情感分類方面,我們研發(fā)了情感傾向性分析、情感的情緒分析,情感對(duì)象識(shí)別以及句子的主客觀的分析。在觀點(diǎn)挖掘方面,我們通過(guò)情感搭配知識(shí)自動(dòng)構(gòu)建和觀點(diǎn)計(jì)算技術(shù),我們能有效的進(jìn)行文本數(shù)據(jù)的觀點(diǎn)抽取。百度依托這些核心的技術(shù),進(jìn)行用戶產(chǎn)品開(kāi)發(fā)。
這里重點(diǎn)介紹兩類核心技術(shù):
情感傾向性分析
情感傾向分析任務(wù)目標(biāo)是能夠判斷用戶文本是積極、消極或是中性的情感。傳統(tǒng)方法有兩類:一類利用情感詞典進(jìn)行規(guī)則匹配的方法進(jìn)行判斷,另外一類基于情感詞典和文本特征建立一個(gè)2分類任務(wù)的方法 。百度情感傾向性分析基于深度學(xué)習(xí)的方法,分別建立了句子級(jí)、實(shí)體級(jí)、篇章級(jí)多粒度完整的分析任務(wù)。句子級(jí)粒度上,通過(guò)基于Bi-LSTM分類方法,系統(tǒng)更好的捕捉了情感極性在前后文表達(dá)的信息,效果上相對(duì)于傳統(tǒng)的方法有了很大的提升。實(shí)體級(jí)粒度的任務(wù)概念稍有晦澀,舉個(gè)例子:《成龍對(duì)戰(zhàn)狼2的看法》一篇文章可能有多個(gè)主題,這個(gè)任務(wù)就是希望能夠把這篇文章對(duì)于“吳京”的態(tài)度分析出來(lái)。在這個(gè)任務(wù)中,我們通過(guò)建立層次化的語(yǔ)義表達(dá)方法,讓整個(gè)系統(tǒng)更加精準(zhǔn)的進(jìn)行分析和判斷。
評(píng)論觀點(diǎn)抽取的技術(shù)
評(píng)論觀點(diǎn)抽取目標(biāo):給定一個(gè)文本,把其中表達(dá)觀點(diǎn)的信息抽取出來(lái)。舉個(gè)例子,用戶的評(píng)論:“這家旅店的服務(wù)還不錯(cuò),但是房間比較簡(jiǎn)陋”,我們目標(biāo)把“服務(wù)不錯(cuò)、房間簡(jiǎn)陋”這樣的關(guān)鍵觀點(diǎn)信息抽取出來(lái)。評(píng)論觀點(diǎn)抽取技術(shù)在當(dāng)前互聯(lián)網(wǎng)產(chǎn)品中應(yīng)用十分廣泛,但是召回率一直不高,百度的評(píng)論觀點(diǎn)抽取技術(shù)將任務(wù)從應(yīng)用需求進(jìn)行細(xì)致分析拆解,通過(guò)基于情感搭配的方法,基于語(yǔ)義計(jì)算的方法,基于維度預(yù)測(cè)的方法,以及基于維度預(yù)測(cè)加情感極性分類的方法完美的解決了應(yīng)用中各種的問(wèn)題,這也是一個(gè)技術(shù)和應(yīng)用完結(jié)合經(jīng)典案例。
概率圖模型技術(shù)如何應(yīng)用?
姜迪分享的主題是《Familia可配置的主題模型框架》,F(xiàn)amilia是家族、家庭的意思。顧名思義,這個(gè)框架的特點(diǎn)就是涵蓋了一族具有較大的工業(yè)價(jià)值的主題模型,這樣一來(lái),一線的工程師就有很多靈活性,可以根據(jù)具體任務(wù),來(lái)選擇適用的模型。
百度有一個(gè)貝葉斯技術(shù)體系的框架,主要分三大類:第一類是主題模型,這個(gè)框架的特點(diǎn)就是它有一個(gè)自配置的功能;第二類是點(diǎn)擊模型,主要是應(yīng)用在搜索引擎的領(lǐng)域,來(lái)量化分析用戶的搜索行為以及搜索查詢和網(wǎng)頁(yè)的相關(guān)性;第三類是分類模型,包含最常見(jiàn)的基于貝葉斯網(wǎng)的分類器。
主題模型框架中有十幾個(gè)主流的主題模型,其中包含LDA模型、引入了句子結(jié)構(gòu)的SentenceLDA模型、引入了監(jiān)督信號(hào)的SupervisedLDA,以及其他具有工業(yè)價(jià)值的主題模型,并且支持用戶根據(jù)具體任務(wù)設(shè)計(jì)對(duì)應(yīng)的模型。
那么,為什么要設(shè)計(jì)Familia這個(gè)主題框架?業(yè)界大部分主題模型工具只支持PLSA和LDA兩種模型,這兩種模型非常類似,它們只支持一種數(shù)據(jù)假設(shè),也就是說(shuō),我們只能用一種模型來(lái)適用不同的場(chǎng)景,不能支持用戶的根據(jù)具體任務(wù)自定義擴(kuò)展。當(dāng)用戶的數(shù)據(jù)本身和這兩個(gè)模型的假設(shè)有較大差異時(shí),效果可想而知。另一方面,當(dāng)前的主題模型工具對(duì)下游的應(yīng)用并不太友好,這些工作往往只注重模型的訓(xùn)練,忽略了模型如何在具體任務(wù)中應(yīng)用。從模型的訓(xùn)練到應(yīng)用之間有很長(zhǎng)的距離,如何消除這個(gè)距離是我們這個(gè)工作的重點(diǎn)。Familia在百度的應(yīng)用場(chǎng)景其實(shí)非常多,包含了大家耳熟能詳?shù)陌俣人阉鳌俣刃侣劇⑴疵住①N吧這些平臺(tái),也部署到了百度自然語(yǔ)言的云處理平臺(tái)上,這個(gè)工具目前每天有3000萬(wàn)次的響應(yīng)需求。
Familia框架是怎么在工業(yè)界場(chǎng)景進(jìn)行應(yīng)用的?第一步,數(shù)據(jù)預(yù)處理,這里可以支持多種類型的數(shù)據(jù),包括常見(jiàn)的網(wǎng)頁(yè)數(shù)據(jù)、新聞數(shù)據(jù)和糯米數(shù)據(jù),在內(nèi)部將數(shù)據(jù)預(yù)處理步驟和百度的分詞進(jìn)行了一個(gè)深度的融合。在分詞的前和后我們還有多種多樣的過(guò)濾器,用戶可以根據(jù)自己的需求,來(lái)選擇什么信息要過(guò)濾掉,什么信息可以保留。第二步,概率圖模型配置,F(xiàn)amilia支持多種主流的已有的主題模型,同時(shí)用戶也可以自定義自己的主題模型。這個(gè)過(guò)程是通過(guò)一種數(shù)據(jù)組織抽象存儲(chǔ)多種圖模型的信息來(lái)實(shí)現(xiàn)的。第三步,采樣公式自動(dòng)推導(dǎo),F(xiàn)amilia中的參數(shù)推導(dǎo)引擎可以自動(dòng)推導(dǎo)出采樣公式,降低了主題模型應(yīng)用的數(shù)學(xué)門檻。第四步,模型的后期處理,F(xiàn)amilia進(jìn)一步對(duì)訓(xùn)練好的主題模型進(jìn)行優(yōu)化和壓縮操作。第五步,F(xiàn)amilia抽象了語(yǔ)義表示和語(yǔ)義匹配兩個(gè)應(yīng)用范式,用戶可以根據(jù)具體任務(wù)來(lái)使用對(duì)應(yīng)的范式。
目前Familia已經(jīng)在github上完成開(kāi)源(https://github.com/baidu/familia),第一期提供網(wǎng)頁(yè)、新聞、小說(shuō)等多個(gè)垂類語(yǔ)料訓(xùn)練的工業(yè)級(jí)主題模型,并提供語(yǔ)義表示、語(yǔ)義匹配兩類應(yīng)用范式的大量應(yīng)用場(chǎng)景指導(dǎo)。
對(duì)開(kāi)發(fā)者而言,如何更好的使用百度AI開(kāi)放平臺(tái)?
張晶晶主要就自然語(yǔ)言使用的相關(guān)問(wèn)題及整個(gè)百度AI開(kāi)放平臺(tái)的使用方法進(jìn)行了介紹。目前百度自然語(yǔ)言處理技術(shù)開(kāi)放8項(xiàng)語(yǔ)言處理的基礎(chǔ)技術(shù),基于這些基礎(chǔ)的能力,百度對(duì)外開(kāi)放了很多感知層和認(rèn)知層的技術(shù),在上面搭建了我們一個(gè)開(kāi)放平臺(tái),在這個(gè)平臺(tái)上百度把我們所有成熟的AI技術(shù)都在這里統(tǒng)一對(duì)外開(kāi)放,使大家能夠通過(guò)接口的方式,直接調(diào)用、直接使用,比如語(yǔ)音識(shí)別、語(yǔ)音合成、文字識(shí)別的各種模板、端口,人臉識(shí)別等。另外,百度也將開(kāi)放個(gè)性化和定制服務(wù),主要是有詞法分析、評(píng)論觀點(diǎn)抽取和情感傾向分析。詞法分析的定制,可以幫助我們的行業(yè)客戶實(shí)現(xiàn)個(gè)性化需求,若有識(shí)別不了的詞匯,可以通過(guò)上傳詞表的方式,來(lái)把模型訓(xùn)練的更適合自己。

百度AI平臺(tái)為開(kāi)發(fā)過(guò)程提供了三方面的支持,首先是開(kāi)發(fā)組建,其次是管理功能和配套資源。開(kāi)發(fā)組建方面,每個(gè)技術(shù)領(lǐng)域里都以標(biāo)準(zhǔn)的方式提供了API和SDK,有些方向上還提供了參考代碼。有一些需要獨(dú)立去配置的模塊單獨(dú)做了配置系統(tǒng),讓開(kāi)發(fā)者可以先在平臺(tái)上做好配置之后就可以直接調(diào)用。在后臺(tái)管理上,有基礎(chǔ)的應(yīng)用管理,也支持很多跟企業(yè)業(yè)務(wù)相關(guān)的個(gè)性化的配置,隨時(shí)查看調(diào)用的統(tǒng)計(jì)信息。開(kāi)發(fā)者還可以在產(chǎn)品上使用百度LOGO,標(biāo)識(shí)出百度AI技術(shù)。開(kāi)發(fā)者如果應(yīng)用百度的AI技術(shù)解決了行業(yè)中的典型問(wèn)題,百度也會(huì)擔(dān)任伯樂(lè)的角色,將其案例進(jìn)行宣傳推廣。
核心關(guān)注:拓步ERP系統(tǒng)平臺(tái)是覆蓋了眾多的業(yè)務(wù)領(lǐng)域、行業(yè)應(yīng)用,蘊(yùn)涵了豐富的ERP管理思想,集成了ERP軟件業(yè)務(wù)管理理念,功能涉及供應(yīng)鏈、成本、制造、CRM、HR等眾多業(yè)務(wù)領(lǐng)域的管理,全面涵蓋了企業(yè)關(guān)注ERP管理系統(tǒng)的核心領(lǐng)域,是眾多中小企業(yè)信息化建設(shè)首選的ERP管理軟件信賴品牌。
轉(zhuǎn)載請(qǐng)注明出處:拓步ERP資訊網(wǎng)http://m.hanmeixuan.com/
本文標(biāo)題:最全面的百度NLP自然語(yǔ)言處理技術(shù)解析
本文網(wǎng)址:http://m.hanmeixuan.com/html/support/11121521444.html