0 引言
TRIZ理論是前蘇聯的G.S.Altshuler在分析研究世界各國250萬件專利的基礎上,提出來的解決發明問題的系統化方法學,它是一種建立在技術系統演變規律基礎上的問題解決系統。之所以TRIZ理論在實際工程問題中往往可以找到較為理想的解決方案,是由于TRIZ為使用者提供了盡可能接近理想解的方向,且不受設計人員慣性思維所限制。TRIZ理論來源于大量的專利,所以在指導工程問題時,也可以用專利來給予工程人員啟發式的指導。
專利是人類的知識成果,有效的利用專利知識可以為人們節省大量的時間、成本。這種基于專利的知識復用可以在已有知識的基礎上更加專注于特定領域的知識構建,并且新系統可以利用所復用的知識與現存的其他系統進行交互。這樣,描述性的知識、問題解決方法以及推理服務都可在系統間實現共享,從而可以方便地構建出更大、更好的知識庫來為工程人員提供解決思路,而不是一味的浪費時間。
因此以TRIZ理論為基礎,采用數據挖掘技術為手段,利用中文專利文獻資源,找到大量專利數據背后隱藏的重要技術規律,獲得發明創造過程中的一般技術策略,方法和手段等深度知識來解決機械產品的創新設計問題,可能會為機械產品高層次的創新開辟新的途徑。以此為工程人員提供指導性強、具有啟發性的知識,完成對創新系統實例的動態更新和擴充。
1 相關工作
專利一般分為三種類型:發明專利、實用新型專利以及產品外觀設計專利。在2007年12月召開的創新型國家建設與知識產權保護大會上,證實我國的實用新型專利90010對于產品創新是基本無用的,因此基于TRIZ的專利挖掘主要是在發明專利上的深度知識的挖掘和信息抽取上。專利數據庫是以常規技術分類,分散在各專業領域中,傳統的專利庫對專利的分類是基于學科的,對于跨學科、跨領域的綜合創新是無益的,無法直接用于產品創新設計理論。
對于專利研究的相關技術國外已有較大的發展,并且集中在專利的信息抽取技術、聚類技術、以及專利的自動分類方面。主要的研究單位有美國Invention Machine Corporation公司、億維訊公司等,他們都對TRIZ理論本身和專利方面進行了深入的研究,并且開發了主流的計算機創新輔助軟件(CAl)為廣大的用戶服務。
Soo等給出了專利的結構本體模型的抽取方法。Young等提出了一種基于出現時間和技術特征的專利分析方案,但抽取目標語義模型相對簡單。Cascini等根據TRIZ中的專利被劃分為5個創新級別理論,應用文本挖掘技術計算機輔助從專利文本中抽取詞匯,提出了主語-謂語-賓語(簡稱SAO)三元模型。Cong和Tong等開發了面向TRIZ用戶的專利自動分類專家系統。
國內對于中文專利的研究滯后于國外,這與漢語的語言特點也不無關系,國內的研究單位有浙江大學、哈工大、中科院計算所等。
郭煒強等在構建專利自動分類時,采用了改進詞語權重的計算方法并從專利類別IPC的定義中抽取概念向量,作為專利分類領域知識。馮培恩教授通過對生物基因工程與產品原理方案設計的類比,建立了基于產品基因遺傳和重組的概念設計框架,該框架有助于產品概念設計階段的原理創新。王克奇等針對目前的專利檢索系統無法給用戶提供有效的創新理論支持,把TRIZ理論中的一些先進原理和方法應用于現有的專利檢索系統當中,并在此基礎上提出面向TRIZ的專利庫建模模型,任工呂教授分析了TRIZ理論是以深度技術知識為基礎,建立了從專利中獲取啟發式原理和技術效應的方法,以此支撐設計模型從事產品創新設計,并提出了點問題及其解決途徑。并基于TRIZ理論技術進化為一些產品指出了開發方向、或在特定階段應采取的決策。
目前,國內外的研究還處在起步階段,研究還不夠深入。利用文本挖掘技術面向TRIZ理論進行專利深度知識的發現和提取內容的研究更是一個新興和熱門的研究課題。專利數據庫中集結了人類智慧的結晶,但它分散在各專業領域,不利于產品的創新設計。所以基于TRIZ理論的中文專利的知識挖掘對促進產品創新設計,甚至是我國的各行各業以及經濟發展具有非常重要的意義。
本文在前人研究的基礎上,進一步探索了專利與TRIZ理論結合以進行深度知識挖掘,從而為工程技術人員提供有用知識,其中文本挖掘的相關技術是關鍵。本文先構建了中文專利的知識獲取的模型,然后針對專利這種特殊的文本應用深度知識庫,介紹了知識獲取的一般過程。
2 中文專利深度知識獲取模型構建
基于TRIZ理論中文專利深度知識獲取系統的模型框架如圖1所示。該模型包括以下幾個部分:預處理模塊、語言知識庫模塊和文本分類器模塊。
圖1 中文專利深度知識獲取系統
中文專利深度知識獲取模型中主要包含兩個數據庫,一個是傳統的專利庫,這是直接從國家知識產權局批量下載的專利:另一個是深度知識庫,它是從傳統數據庫經過一系列的過程儲存深度知識的專利數據庫。所提取的深度知識就是能夠在各個技術領域相互使用的啟發式原理、技術效應等知識。這是為了將一部分專利以TRIZ理論的概念、術語的形式存放于數據庫中,便于后續訓練文本集的查詢和規律研究。這不同于傳統專利庫按照學科分類的組織形式。這兩個數據庫的組織形式是不相同的,后者按照TRIZ理論的指導,更能給人以啟發,促使人們產生設計靈感,從而進行創新。
2.1 預處理模塊
從中文專利庫中下載專利,然后對這些專利進行預處理,包括格式化處理,結構化信息提取和文本預處理,建立有利于后續知識發現及挖掘的統一專利方案表示模式。格式化處理應該先下載包含專利信息頁面的HTML文檔到本地機器中。這是整個抽取工作的前提,只有獲取到編碼格式正確的HTML文檔,才能確保抽取信息的正確性。然后過濾掉無用的網頁標記和鏈接,并找到某篇專利的下載路徑。結構化信息提取主要有兩方面,一方面是提取專利的基本信息,例如發明人、題目、IPC、專利類型等內容,另一方面通過OCR技術或者人工輔助提取專利的基本內容,如摘要、發明內容、附圖說明等內容。經過結構化信息提取過程后,就可以對這些基本內容進行文本預處理,包括文本分詞、去停用詞、文本特征提取、詞頻統計等操作。
2.2 語言知識庫模塊
對TRIZ理論體系解決問題工程參數、發明原理、效應理論等內容進行深刻研究,建立語言知識庫。
a.關鍵詞匹配機制。采用分類挖掘技術和人工對專利仔細分析相結合的方式,重點從網上公布的專利中提取對各個學科均有指導意義的啟發式原理(包括原理的應用形式、應用實例說明和實例圖)和沖突解耦規則等,作為產品設計系統的基礎,將TRIZ理論的技術沖突和效應解決工具具體化。對應于專利的知識提取最簡單的就是建立關鍵詞匹配機制。也就是說,針對40條發明原理,39個工程參數或效應原理建立發明原理詞典,工程參數參數詞典等。例如,發明原理詞典收錄了對應每條發明原理的盡可能多的詞匯,所以對于未知分類的某個專利而言,可以初步通過該詞典找到某個專利對應關鍵詞匹配率最高的原理進行下一步的分析。運用T程參數詞典也可以輔助找到可能運用的發明原理。該過程是一對多的映射關系,需要大量的知識支持。
b.構建語義模板。對于中文這種復雜的自然語言,在語言的表達上及其豐富,僅僅依靠關鍵詞的匹配機制是不夠的,為此要建立語義關系的模板。一般來說,語義關系主要有上下位關系、因果關系、推論關系、整體部分關系等;語義模板就是找到句子背后蘊含的復雜關系,構建描述周圍世界的知識模型。語義模板的建立,不僅基于邏輯和知識的方法建立規則,還可以結合概率信息來描述各種語言現象。這些概率信息的獲取,主要是通過收集大量的真實語言材料并對此進行定量分析而得到。傳統的基于邏輯和知識的方法涉及許多的領域知識和經驗,其語法規則有很多例外和不合邏輯之處:而且自然語言中還存在許多歧義現象,這些都是很難通過規則來加以形式化的。
2.3 文本分類器模塊
文本的白動分類是基于有效的統計或一定規則的語言模型,包括基本短語的自動識別、動詞搭配知識的獲取和淺層句法分析的研究。為此要對TRIZ理論在各個學科應用的泛化問題及語義基礎進行深刻的研究。
對專利文本進行分類并對結果進行對比分析,選出分類結果最為準確的分類算法,并進行改進。同時根據專利文本特點將詞典詞匯賦予一定的權重系數。提取了專利中的標準參數,就可以推知它可能應用的發明原理,從發明原理的詞庫或者推理規則驗證此專利是否用到了矛盾矩陣中的發明原理所映射的詞匯或規則,同時根據專利文本特點詞典詞匯的權重系數進行改進,這里有一個評判標準就是如何判斷專利中應用的原理是否屬于TRIZ中的發明原理,也就是一個閾值的確定。該閾值可以由專家由經驗給出一個初始的范圍,若在此范圍內,則認為該專利的解決方案屬于已知的知識,可以后期將其加入到創新系統的案例庫中,若不在此范圍,則認為該專利的解決方案可能為創新解,需要進一步的判斷。
3 深度知識獲取的過程及方法
專利包括專利名稱,摘要,權利要求書和說明書等,這些是存儲在中文專利庫中的,對這些內容進行重點研究。以TRIZ理論為背景,結合文本挖掘的相關技術,對專利文本的深度知識獲取的一般過程總結如圖2所示。
圖2 應用深度知識庫挖掘專利文本的一般過程
深度知識庫可以從中文專利庫中提取輔助于文本挖掘的內容和結構,專利說明書包括技術領域,背景知識,發明內容,附圖說明以及具體實施方式。深度知識庫對于實例的儲存形式包含標題,初始T況,解決過程以及應用結果。如圖2所示,標題主要從專利名稱獲取,初始工況通常存在于專利摘要和背景技術中,問題的解決過程在權利要求書和發明內容部分有詳細的說明,而應用結果通常在具體實施方式和說明書附圖中表現出來。標題是該篇專利的研究對象,而這已經結構化的存儲在數據庫中:對于初始工況,主要提取的就是惡化的參數以及提出了問題的描述:解決過程是應用創新原理的過程,是研究的重點,應用結果主要提取的是改善的參數以及解決問題的描述。后三者主要由領域詞典作為支撐,領域詞典包含工程參數詞典、發明原理詞典、效應詞典等。知識發現語義模板用于對語言知識和實體關系進行描述,作為對專利文本深刻理解的之用。它降低了單一關鍵詞的匹配造成的匹配不準確的弊端,對于用戶的檢索、領域詞典的組織以及專利文本的分類是十分必要的。最后,用戶可以進行瀏覽,結果顯示以及檢索查詢的相關功能了。
下面針對該過程所提到的部分功能模塊進行說明:
3.1 專利文獻的結構化形式
現有技術資源多數存儲在以互聯網為基礎的計算機中,專利數據庫也是如此,且以常規技術分類,分散在各專業領域中,無法直接用于產品創新設計理論。其中文本的自然語言處理方法和知識挖掘算法是研究的前提和解決的關鍵問題。
專利文本格式化存儲形式關系到后續的知識發現,并且對專利文本的中文處理技術也十分關鍵。專利文本是自然語言,對專利全部內容的提取是不可行的:且處理的對象是中文,較英文文本的預處理更為復雜,因為中文的基元是字而不是詞,字的信息量比較低,句子中各詞語間沒有固有的分隔符(如空格)。
提取的格式化內容為:專利基本信息(Patln);深度知識信息(Dpatln);專利的TRIZ編號(PT)。其中專利基本信息對應圖2中的第一行的功能模塊信息:深度知識信息對應于圖2中第二行的內容。
因此專利的結構化形式:PAT={Patln,Dpatln,PT}
3.2 領域詞典的建立
該領域詞典包含發明原理詞典,工程參數領域詞典。這就是圖2中所提到的領域詞典模塊。
例如,發明原理詞典中:No.14曲面化原理的相關關鍵詞有:圓角、滾筒、球體、球狀、螺旋狀、螺旋、離心力、離心、甩、回轉等等。
工程參數詞典中:No.1運動物體的重量的相關關鍵詞有:力、動、可動、可移動、場、引力、物理、移動、質量、運動、重力、重量等等。
利用這些領域詞典就可以對某些專利按照TRIZ的理論背景進行初步分析。而工程參數詞典是輔助發明原理詞典按關鍵詞匹配出來的結果進行篩選,以得到盡可能接近某條發明原理的專利分類。
3.3 知識發現語義模板的構建
利用智能算法,并結合文字處理技術,分析大量的專利文本文本,抽取或標記關鍵字概念、文字間的關系,并按照內容對文檔進行分類和知識發現,獲取有用的知識和信息。利用自然語言理解技術中的詞法、句法和語義分析技術將文本進行切分,通過句法分析將詞匯組合成短語。將提取的短語、關鍵字與語義模板中已有知識建立映射關系網絡,利用關聯規則挖掘算法、模式匹配算法進行知識挖掘算法設計提取包含特定知識的專利以及所包含的知識。同時在抽取專利文本特征時,記錄詞語出現的順序,這在很大程度上會輔助發現文本中詞匯的語法和語義角色。
隨著知識表示研究的深入,比較常用的知識表示方法:語義網、產生式規則、框架、面向對象知識表示等。本系統的語義模板主要是對基于TRIZ知識的組織,找到各個實體背后蘊含的復雜關系,構建描述周圍世界的知識模型。這里主要提取隱性知識,彌補單一關鍵詞匹配的不足。語義模板收集的是經過概括和歸納,具有系統性的語言知識,并且用結構化的形式(譬如數據庫)組織起來的。描述常用詞語的基本詞匯屬性和基本語法屬性,詞語所代表的概念之間的關系、概念所具有的屬性之間的關系,以及言語過程中的基本常識等。基于TRIZ的知識獲取、知識表示與知識運用是研究的重點。只有建立了知識發現的語義模板,才能在專利中進行深度理論的挖掘。
專利的檢索功能建立在語義模板的基礎上,依據各個實體間的關系,可以對檢索詞進行動態擴展,找到相同、相似、近似、相關等不同程度的關鍵詞檢索的擴展,以擴大專利檢索的范圍,為用戶提供更具啟發意義的相關專利:而分類功能依據相關算法,實現語義相似度的計算,從而對專利文本進行分類。
4 結束語
從豐富的專利庫中提取綜合各學科的知識來解決機械產品的創新設計問題,可能會為機械產品高層次的創新開辟新的途徑。重點從專利中獲取深度知識,建立分析專利的統一模式和綜合挖掘算法,力求解決基于知識設計中的“瓶頸”問題。這有利于TRIZ理論的實際應用和自身完善,更好地為工程技術人員提供開闊的思維,得到創新解的啟示:以中文專利庫為研究對象,有效地組織結構化專利,采用TRIZ理論為分類背景,應用文本挖掘技術從專利庫中抽取信息從而實現知識發現:初步探索專利信息的內容向TRIZ理論映射的問題,利用自然語言處理技術、文本挖掘、人工智能、專家系統等理論和先進的技術手段,發現面向TRIZ的專利文本潛在的語義關系,有效地促進專利方案庫的建設到用戶的使用的過程。
核心關注:拓步ERP系統平臺是覆蓋了眾多的業務領域、行業應用,蘊涵了豐富的ERP管理思想,集成了ERP軟件業務管理理念,功能涉及供應鏈、成本、制造、CRM、HR等眾多業務領域的管理,全面涵蓋了企業關注ERP管理系統的核心領域,是眾多中小企業信息化建設首選的ERP管理軟件信賴品牌。
轉載請注明出處:拓步ERP資訊網http://m.hanmeixuan.com/
本文標題:面向TRIZ理論的深度知識獲取及應用研究
本文網址:http://m.hanmeixuan.com/html/solutions/14019311732.html