專利名稱:使用權(quán)利要求分析排序知識產(chǎn)權(quán)文檔的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明大體上涉及自然語言處理、信息檢索并且更具體地涉及確定文檔內(nèi)的術(shù)語的相關(guān)性。本發(fā)明涉及術(shù)語或文檔的其他方面的統(tǒng)計加權(quán)以確定所述術(shù)語或方面與該文檔、尤其是與該文檔的內(nèi)容如何相關(guān)或?qū)ζ淙绾沃匾4送?,本發(fā)明涉及供與法務(wù)、企業(yè)及其他專業(yè)領(lǐng)域相關(guān)的服務(wù)傳遞使用的過程、軟件和系統(tǒng)。本發(fā)明涉及這樣的系統(tǒng),其向諸如與專業(yè)服務(wù)相關(guān)的服務(wù)的訂戶的用戶提供搜索功能、處理搜索術(shù)語并且跨文檔數(shù)據(jù)庫應(yīng)用搜索語法,以及顯示響應(yīng)于所述搜索功能和處理而生成的搜索結(jié)果。
背景技術(shù):
隨著印刷機、排版、打字機、計算機實現(xiàn)的字處理和海量數(shù)據(jù)存儲裝置的出現(xiàn),由人類生成的信息的量已經(jīng)顯著地并且以日益加速的步伐上升。結(jié)果,對收集和存儲、識別、追蹤、分類和編目以檢索和發(fā)布這種不斷增長的海量信息有持續(xù)且不斷增長的需要。對例如書籍和其他文字作品的信息進行編目和分類的一種傳統(tǒng)形式是杜威十進制系統(tǒng)。在專利領(lǐng)域中,僅在美國就已經(jīng)公告了上百萬的專利。每個專利被公告為具有一組權(quán)利要求,其限定了由美國授權(quán)并且由專利權(quán)人擁有的產(chǎn)權(quán)。除了公告的專利之外,目前可得到的用于搜索和查看的已公開專利申請的數(shù)量也在不斷增長。每個已公開的專利申請同樣地包含對該發(fā)明的一個或多個權(quán)利要求。美國專利局使用基于主題的分類系統(tǒng)按本領(lǐng)域的技術(shù)中心、分類和子分類放置所提交的專利申請以更高效地處理專利權(quán)利要求的搜索及授權(quán)或者駁回。此外,一組國際專利分類號進一步按主題對專利和申請進行分類。歷史上,被指派來審查專利申請的審查員將查閱“鞋(shoes) ”,即與特定子分類相關(guān)聯(lián)并且包含基于由先前的發(fā)明人所公開和要求權(quán)利的主題而被分在一組的專利集合的盒子。在電子搜索之前,審查員將手動查閱所述鞋以努力找到現(xiàn)有技術(shù),這是非常乏味、耗時并且低效的。電子數(shù)據(jù)庫有效地將專利文檔放置在電子“鞋”中以供搜索。在許多領(lǐng)域和行業(yè)中,例如包括金融和法律領(lǐng)域以及技術(shù)領(lǐng)域,存在內(nèi)容和增強體驗提供商,諸如湯森路透公司(The Thomson Reuters Corporation)。這樣的提供商識另O、收集、分析和處理供生成內(nèi)容使用的關(guān)鍵數(shù)據(jù),所述內(nèi)容諸如為法律相關(guān)的報告、文章等等,供專業(yè)人員以及例如律師等在相應(yīng)行業(yè)中所涉及的其他人員消費。各個領(lǐng)域和行業(yè)中的提供商不斷尋找產(chǎn)品和服務(wù)來提供給訂戶、客戶及其他顧客,并且尋找使他們的公司在競爭中與眾不同的方法。這樣的提供努力創(chuàng)建和提供增強工具,包括搜索和排序工具,以使客戶能夠更高效和有效地處理信息并且做出知情的決定。例如,隨著跨例如已公告的專利、已公開的專利申請的數(shù)據(jù)庫等大量數(shù)據(jù)和文檔進行搜索的技術(shù)和復雜方法的進步,專業(yè)人員及其他用戶在做出專業(yè)和商業(yè)決定時越來越多地依賴于數(shù)學模型和算法。例如用于跨專利文檔的大型數(shù)據(jù)庫應(yīng)用搜索術(shù)語的現(xiàn)有方法由于他們常常不充分地集中在所關(guān)心的關(guān)鍵信息上以產(chǎn)生一組集中的并且良好排序的文檔來最接近地匹配所表達的搜索術(shù)語和數(shù)據(jù),而具有相當大的改進空間。盡管這樣的基于計算機的系統(tǒng)具有缺點,但較之于手動搜索、識別、過濾和分組IP文檔而言已有明顯進步,手動搜索、識別、過濾和分組IP文檔過于花費時間、成本高、效率低并且不一致。搜索引擎被用于響應(yīng)用戶定義的查詢或搜索術(shù)語來檢索文檔。為此,搜索引擎可對術(shù)語出現(xiàn)在一個文檔中的頻率與那些術(shù)語出現(xiàn)在數(shù)據(jù)庫或數(shù)據(jù)庫網(wǎng)絡(luò)內(nèi)的其他文檔中的頻率進行比較。這有助于搜索引擎確定文檔內(nèi)不同術(shù)語各自的“重要性”,并且由此確定與給定查詢最匹配的文檔。用于將出現(xiàn)在一個文檔中的術(shù)語與文檔集合比較的一種方法被稱為術(shù)語頻率-反文檔頻率(TFIDF)。在這個方法中,術(shù)語總數(shù)與主題文檔內(nèi)的所有術(shù)語相比較的百分率被賦值(作為分子),并且除以術(shù)語在其中出現(xiàn)的文檔在文集中的百分比的對數(shù)(作為分母)。更具體地,TFIDF將權(quán)重賦值為用于評估詞語對文檔集合或文集中的一個文檔的覆蓋(tile)重要性的統(tǒng)計測量。覆蓋詞語的相對“重要性”與覆蓋次數(shù)或這樣的詞語出現(xiàn)在文檔中的“頻率”成比例地增加。將重要性與該詞語出現(xiàn)在包括文集的文檔中的頻率相抵消或比較。TFIDF被表達為log(N/n(q)),其中q是查詢術(shù)語,N是集合中的文檔的數(shù)量,而N(q)是包含q的文檔的數(shù)量。TFIDF及這種加權(quán)方案的變型通常被諸如谷歌 的搜索引擎在給定用戶查詢的情況下用作評分和排序文檔的相關(guān)性的方法。一般地,對于包括在用戶查詢中的每個術(shù)語而言,可基于對與每個術(shù)語相關(guān)聯(lián)的分數(shù)求和而就相關(guān)性對文檔排序??苫谙嚓P(guān)性及其他確定因素將響應(yīng)于用戶查詢的文檔排序并且呈現(xiàn)給用戶。
發(fā)明內(nèi)容
本發(fā)明提供了用于重排序?qū)@臋n檢索系統(tǒng)中的搜索結(jié)果的方法和系統(tǒng),其中查詢文本全部或部分地來源于專利權(quán)利要求,所述專利權(quán)利要求可來自于現(xiàn)有的專利。該重排序基于候選專利的一個或多個特征,諸如與所述權(quán)利要求的文本相似度、國際專利分類號或其他分類關(guān)聯(lián)性或重疊以及候選者的內(nèi)部引用結(jié)構(gòu)。本發(fā)明的一個特征提供了基于自動生成的訓練數(shù)據(jù)來訓練的重排序器,由此避免了昂貴且花費時間的專家評注步驟。在實現(xiàn)中,可自動地或半自動地,即以某種程度的人工干預(yù)來執(zhí)行本發(fā)明的概念。發(fā)明人、專利審查員、代理人和律師需要可靠的專利檢索系統(tǒng)來例如調(diào)查現(xiàn)有技術(shù)、研究專利權(quán)利要求的有效性或者為訴訟做準備。專利檢索更為特殊和專業(yè)化并且例如在下列方面不同于一般的網(wǎng)絡(luò)搜索1)查詢文本-專利檢索中的查詢經(jīng)常是權(quán)利要求,其具有某種固定結(jié)構(gòu)并且可能非常長,而典型的基于網(wǎng)絡(luò)的搜索查詢是非常短的,包括很少的術(shù)語;2)專利文檔-專利通常具有標準結(jié)構(gòu),其包括諸如名稱、作者、申請日、IPC(國際專利分類號(IPC))、引用、摘要、技術(shù)概要和權(quán)利要求等字段,而網(wǎng)絡(luò)文檔可能具有各種格式和內(nèi)容;以及3)搜索目的-專利檢索的主要目的是找到與被搜索專利相關(guān)的現(xiàn)有專利,例如可使指定的專利或?qū)@暾埖臋?quán)利要求無效的現(xiàn)有專利,而網(wǎng)絡(luò)搜索的目標為找到相關(guān)的文檔或回答用戶問題。考慮到這些區(qū)別,與典型的基于網(wǎng)絡(luò)的搜索引擎和系統(tǒng)相關(guān)聯(lián)的信息檢索算法不是很好地適用于為專利檢索工作?,F(xiàn)有方法以不同方式修改基線信息檢索算法。一些方法修改術(shù)語加權(quán)策略,例如使用TF(術(shù)語頻率)來代替TF-IDF(術(shù)語頻率-反文檔頻率)(H. Mase和M. Iwayama.2007.日立的Ntcir-6專利檢索實驗· NTCIR-6研討會紀要,第403-406頁);一些方法研究統(tǒng)計語言模型中的平滑效果(J. Kim、Y. H. Lee, S. H. Na和J. H. Lee. 2007. ntcir-6英文專利檢索子任務(wù)中的浦項科技大學.NTCIR-6研討會紀要,第393-395頁);一些方法使用查詢擴展策略(Y. H. Tseng、C. Y. Tsai和D. W. Huang. 2007.使用不同專利代理對美國專利商標局專利文檔的無效搜索.NTCIR-6研討會紀要,第390-392頁;H. Tanioka和K. Yamamoto. 2007.使用查詢擴展和強調(diào)的通路檢索系統(tǒng).ΛΤΓΤΤΡΥ研討會紀要,第428-432頁;H. Nanba. 2007.使用自動構(gòu)造的詞庫的查詢擴展.NTCIR-6研討會紀要,第414-419頁;Mase和Iwayama,2007);并且一些方法運用諸如專利的引用和IPC的特定字段(Atsushi Fujii. 2007.通過引用分析增強專利檢索.第30屆ACM信息檢索研究和發(fā)展(SIGIR)國際年會紀要,第793-794頁;Μ. Aono. 2007.為專利檢索運用基于類別的lsi. NTCIR-6研討會紀要,第373-376頁)??杀徊捎玫牧硗獾姆椒墒褂脻撛谡Z義索引(LSI)或其他潛在語義分析。這些方法或者需要進行大量計算或者顯示較之于基線的有限改進。本發(fā)明提供了用于確定、檢索和呈現(xiàn)與基于專利權(quán)利 求的查詢最相關(guān)的一組專利的方法。本發(fā)明既能被用于對現(xiàn)有技術(shù)的調(diào)查也能被用于對現(xiàn)有或預(yù)期的權(quán)利要求的有效性的確定。在一個實施例中,本發(fā)明使用基于基線文本的檢索系統(tǒng)來得到初始的候選專利池,進而基于例如來源于所述候選專利的權(quán)利要求文本、名稱、摘要、前序、IPC中的一個或多個以及它們的內(nèi)部引用結(jié)構(gòu)的若干特征來重排序所述初始的候選專利池。本發(fā)明的另一特征是用于訓練重排序分類器的訓練數(shù)據(jù)的自動生成。在過去,已針對專利檢索提出了不同的檢索方法。Kim等人(Kim等人,2007)使用帶有Jelinek-Mercer平滑的基線語言模型來進行專利檢索?;谒麄兊慕Y(jié)果,平滑是否有助于檢索性能是不確定的。Fujii (Fujii,2007)結(jié)合兩個搜索,一個搜索基于使用OkapiBM25 (S. Robertson>S. ffalker>S. Jones、M.M. Hancock-Beaulieu和M. Gatford. 1994.Okapi at trec-3.第三屆文本檢索大會紀要,第109-126頁)的文本檢索,而另一個搜索基于引用,其中基于來自于文本檢索的前N個文檔的引用來計算引用得分。這兩個得分的乘積被用于最終排序。兩階段專利檢索方法由Mase 等人提出(H. Mase、T. Matsubayashi、Y. Ogawa>Μ.Iwayama和T. Oshio. 2005.考慮權(quán)利要求結(jié)構(gòu)的兩階段專利檢索方法的提議.ACM亞洲語言信息處理學報(TALIP),4 (2) : 190-206)。在階段一,使用標準信息檢索方法,其中將專利的整個文本用作檢索對象。在階段二,僅將權(quán)利要求文本用于重排序來自于第一階段的前N個專利,其中相關(guān)性得分基于使用不同加權(quán)策略的一組選擇性的權(quán)利要求術(shù)語。最終的相關(guān)性得分是來自這兩個階段的得分的線性組合。在另一篇論文中(Mase和Iwayama,2007),Mase等人比較若干檢索方法,其中所述方法使用不同的術(shù)語加權(quán)策略、查詢擴展策略和文檔過濾策略。這些方法顯示了較之于基線方法的改進,但由于對整個專利文本和術(shù)語選擇的使用而導致需要進行大量計算。查詢擴展是改進專利檢索的另一種嘗試。Tseng等人(Tseng等人,2007)使用選自初始檢索中的前6個文檔的一些關(guān)鍵術(shù)語來擴展權(quán)利要求查詢。Nanba(Nanba,2007)使用下義詞、縮寫詞、同義詞和有關(guān)術(shù)語來擴展查詢。A0n0(A0n0,2007)針對專利檢索提出了基于類別的潛在語義索引(LSI)方法。具體而言,他們的算法首先基于IPC(國際專利分類)將整個專利集合分類成各類別,隨后對每個類別反復地應(yīng)用LSI。并且在給定查詢權(quán)利要求的情況下,與其最相似的類別中的前50個專利作為無效候選被返回。與現(xiàn)有方法相比,除其他優(yōu)點以外,本發(fā)明提供了下列優(yōu)點1)通過機器學習來自動學習排序模型,已知系統(tǒng)試探性地結(jié)合來自于多個源的不同排序結(jié)果;2)自動生成訓練數(shù)據(jù),即使沒有消除昂貴且花費時間的人工相關(guān)性判斷步驟,也極大地減少了這樣的步驟;以及3)有效并且可高效計算的特征組。在一種實現(xiàn)中,本發(fā)明提供了以毫秒級的速度顯著地改進基線搜索的算法。在一個備選實施例中,本發(fā)明提供了一種用于處理與專利權(quán)利要求術(shù)語相關(guān)的用戶查詢以生成響應(yīng)于所述查詢的一組專利文檔的基于計算機的系統(tǒng),所述系統(tǒng)包括搜索引擎,其由計算機執(zhí)行并且適于接收查詢以及基于所述查詢搜索包含在至少一個數(shù)據(jù)庫中的專利文檔的權(quán)利要求,并且適于產(chǎn)生第一組候選專利文檔;以及重排序模塊,其包括可由所述計算機執(zhí)行的代碼并且適于至少部分地基于與所述專利相關(guān)聯(lián)的一組特征來重排序所述第一組候選專利文檔以及生成第二組經(jīng)排序的專利文檔,所述重排序模塊適于基于先前執(zhí)行的學習過程對所述一組特征進行加權(quán)。在一個備選方案中,所述重排序可至少部分地基于包括與要求權(quán)利的發(fā)明的主題相關(guān)的至少一個分類特征的一組特征。另外,重排序模塊還可適于為所述第一組候選專利文檔中的每個專利生成與所述一組特征相關(guān)聯(lián)的一組特征得分,所述重排序模塊適于至少部分地基于所述一組特征得分重排序來生成所述第二組經(jīng)排序的專利文檔。此外,所述重排序模型還可適于為所述第一組候選專利文檔中的每個專利生成至少部分地來源于一組特征得分的總得分,所述重排序模塊適于至少部分地基于與所述第一組候選專利文檔中的每個專利相關(guān)聯(lián)的總得分重排序來生成所 述第二組經(jīng)排序的專利文檔。所述一組特征可包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權(quán)利要求;排位-C(rank-C),其表示所述第一組候選專利中的專利的任何權(quán)利要求的最低排位;sim(c,
c),其表示所述查詢與所述第一組候選專利中的專利的權(quán)利要求之間的最高相似度得分;sim(c, cs),其表示所述查詢與所述第一組候選專利中的專利的所有權(quán)利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關(guān)鍵概念,關(guān)鍵概念),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的關(guān)鍵概念之間的相似度得分;sim(關(guān)鍵概念,名稱),其表不所述查詢的關(guān)鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關(guān)鍵概念,摘要),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數(shù)量;以及直接引用(direct-Cite),其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數(shù)量。此外,所述一組特征得分可被歸一化并且可包括IPC-重疊,所述IPC-重疊表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數(shù)量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結(jié)構(gòu)將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產(chǎn)生第一得分并且兩個IPC分類號之間的第二級重疊產(chǎn)生第二得分。給定專利文檔的IPC-重疊可以是該專利的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分,并且在專利具有低IPC-重疊得分的情況下,其可以被分配相對低的相關(guān)性得分。可基于先前執(zhí)行的學習過程來配置所述重排序模塊,其包括自動生成的訓練數(shù)據(jù),所述自動生成的訓練數(shù)據(jù)被處理以建立將被分配給所述一組特征中的各個特征的相關(guān)性權(quán)重。所述學習模塊可收集訓練數(shù)據(jù)并且至少部分地基于所收集的訓練數(shù)據(jù)為所述一組特征分配相關(guān)性權(quán)重。所述搜索引擎可包括適于產(chǎn)生所述第一組候選專利文檔的基于基線文本的檢索系統(tǒng)。所述查詢可包括多個獨立定義的查詢術(shù)語,所述獨立定義的查詢術(shù)語中的一個或多個被所述搜索引擎處理以對包括在所述第一組候選專利文檔中的專利進行劃界(delimit)或加權(quán)。所述查詢可包括多個獨立定義的查詢術(shù)語,所述獨立定義的查詢術(shù)語中的一個或多個被所述重排序模塊處理以對所述一組特征進行劃界或加權(quán)。在第二實施例中,本發(fā)明提供了用于接收和處理搜索查詢并且向用戶呈現(xiàn)搜索結(jié)果的方法,所述方法包括接收包括表示專利權(quán)利要求搜索的術(shù)語的查詢;使用搜索引擎從數(shù)據(jù)庫中檢索第一組專利文檔,所述第一組專利文檔中的每一個包括響應(yīng)于所述查詢的一個或多個權(quán)利要求;基于一組專利特征重排序所述第一組專利文檔以生成一組經(jīng)重排序的專利文檔;以及為顯示而從所述一組經(jīng)重排序的專利文檔生成響應(yīng)于所述查詢的權(quán)利要求的有序列表。在還有第三實施例中,本發(fā)明提供了一種用于接收和處理搜索查詢并且向用戶呈現(xiàn)搜索結(jié)果的方法,所述方法包括接收包括表示專利權(quán)利要求搜索的術(shù)語的查詢;使用 搜索引擎從數(shù)據(jù)庫中檢索一組專利權(quán)利要求,所述一組專利權(quán)利要求中的每一個響應(yīng)于所述查詢;排序具有來自所述一組專利權(quán)利要求的一個或多個權(quán)利要求的一組專利文檔;使用一組專利特征重排序所述一組專利文檔以生成一組經(jīng)重排序的專利文檔;以及為顯示從所述一組經(jīng)重排序的專利文檔生成響應(yīng)于所述查詢的專利權(quán)利要求的有序列表。在還有另一實施例中,本發(fā)明提供了在其上存儲有將由機器執(zhí)行以進行操作的指令的機器可讀介質(zhì),所述指令包括用于下列操作的指令呈現(xiàn)包括用于接收查詢輸入的輸入框的圖形用戶界面屏幕;接收與專利權(quán)利要求術(shù)語相關(guān)的查詢;針對與在包括專利文檔的數(shù)據(jù)庫中所表示的專利文檔相關(guān)聯(lián)的權(quán)利要求處理所述查詢以生成響應(yīng)于所述查詢的一組候選專利文檔;至少部分地基于一組專利特征重排序所述一組候選專利文檔并且生成第二組經(jīng)排序的專利文檔;以及為查看而顯示與所述一組經(jīng)排序的專利文檔相關(guān)聯(lián)的圖形用戶界面屏幕。
為了便于全面理解本發(fā)明,現(xiàn)在對附圖進行參考,在附圖中用相同的標號引用相同的元素。這些圖不應(yīng)被解釋為限制本發(fā)明,而是旨在作為示例并且用于參考。圖I是示出用于實現(xiàn)本發(fā)明的示例性的基于計算機的系統(tǒng)的示意 圖2是示出實現(xiàn)本發(fā)明的示例性方法的搜索流程圖的第一部分;
圖3是示出實現(xiàn)本發(fā)明的示例性方法的搜索流程圖的第二部分;以及 圖4是示出本發(fā)明的實現(xiàn)的流程 圖5是用于實現(xiàn)本發(fā)明的基于處理器的系統(tǒng)的硬件配置的示意 圖6是示出具有用于輸入在處理本發(fā)明時所用的查詢數(shù)據(jù)的一組域的示例性用戶界面屏幕的屏幕截 圖7是示出結(jié)合本發(fā)明的用于輸入搜索數(shù)據(jù)并且啟動搜索的示例性用戶界面屏幕的屏幕的第一部分;
圖8是示出結(jié)合本發(fā)明的用于輸入搜索數(shù)據(jù)并且啟動搜索的示例性用戶界面屏幕的屏幕的第二部分;以及
圖9是示出通過處理本發(fā)明所得到的搜索結(jié)果屏幕的屏幕截圖。
具體實施例方式現(xiàn)在將參照如附圖所示的示例性實施例來更詳細地描述本發(fā)明。雖然此處參照示例性實施例來描述本發(fā)明,但應(yīng)理解的是,本發(fā)明不限于這樣的示例性實施例。具有本領(lǐng)域的普通技術(shù)并且可以理解此處的示教的那些人員將認識到另外的實現(xiàn)、變型和實施例以及本發(fā)明所適用的其他應(yīng)用,這在此處被充分預(yù)計為包含在此處所公開和要求權(quán)利的本發(fā)明的范圍之內(nèi),并且就此而言,本發(fā)明可具有顯著的實用性。本發(fā)明提供了用于專利文檔搜索和檢索的系統(tǒng)。在一個示例性實施例中,在給定權(quán)利要求文本cq作為查詢的情況下,本發(fā)明返回包含相似權(quán)利要求的專利文檔并且基于相關(guān)性得分對它們進行排序。所述系統(tǒng)適用于其中cq來自現(xiàn)有的專利文檔,例如專利或?qū)@暾垼蛘卟⒉皇乾F(xiàn)有已公告或待定的權(quán)利要求的應(yīng)用。在一個示例性實施例中,本發(fā)明包括三個步驟1)基于《7的權(quán)利要求文本從權(quán)利要求的全域中檢索一組權(quán)利要求;2)重排序其權(quán)利要求在步驟I中被返回的專利;3)返回來自經(jīng)重排序的專利的最佳匹配的權(quán)利要求的有序列表。下面將在示例性實施例的上下文中更詳細地描述這個過程?!皩@臋n”如該術(shù)語在說明書中被使用的那樣意指美國和非美國的專利以及已公開或披露的專利申請,并且還意指全部或部分地來源于這樣的文檔的文檔。例如,美國專利包括下列字段、特征或術(shù)語,其可以是獨立定義的可搜索字段摘要;申請日;申請序列號;申請類型;專利權(quán)人所在城市;專利權(quán)人所在國家;專利權(quán)人姓名;專利權(quán)人所在州;助理審查員;代理人或代理機構(gòu);權(quán)利要求;說明/說明書;外國優(yōu)先權(quán);外國參考文獻;政府利益;國際分類或IPC ;發(fā)明人所在城市;發(fā)明人所在國家;發(fā)明人姓名;發(fā)明人所在州;公告日;其他參考文獻;母案信息;專利號;專利類型;PCT信息;主審查員;再公告數(shù)據(jù);名稱;相關(guān)的美國申請數(shù)據(jù);當前的美國分類;以及被引用信息。其他體系可使用包括專利文檔的相似的或另外的字段。本發(fā)明允許用戶構(gòu)造查詢以包括與權(quán)利要求相關(guān)的文本作為主要的或唯一的搜索術(shù)語。用戶也可構(gòu)造這樣的查詢,即除了權(quán)利要求文本查詢術(shù)語之外,還包括另外的查詢術(shù)語來特別地限制或增強諸如上文所列的那些的其他術(shù)語的重要性。以這種方式,用戶可例如基于權(quán)利要求文本進行搜索并且將響應(yīng)的一組專利文檔縮窄至與特定的專利權(quán)人、發(fā)明人、IPC或其他分類、日期范圍、公告日等相關(guān)的那些專利文檔。以這種方式,由用于處理所述查詢的搜索引擎產(chǎn)生的一組候選專利文檔可以被減少或特別指出以適應(yīng)用戶的特定搜索需要或目標。在備選方式中,系統(tǒng)可以被配置為允許用戶輸入和配置系統(tǒng),使得重排序模塊對諸如上文所列的那些的特定專利相關(guān)字段進行劃界或加權(quán),或者在重排序過程中對與專利相關(guān)字段相關(guān)聯(lián)的特征進行劃界或加權(quán)。根據(jù)本發(fā)明的一種實現(xiàn),對于第一步驟,即對一組初始權(quán)利要求或一組初始候選專利文檔的檢索,使用無監(jiān)督的基于學習的檢索(ULR)算法,例如基于WIN搜索(Turtle,1994)的算法。由于權(quán)利要求文本通常較長并且具有特定于域的性質(zhì),像WIN那樣被設(shè)計用于一般信息檢索的搜索引擎作為用于將最相關(guān)的權(quán)利要求或?qū)@臋n識別和返回為排在最前面的候選者的手段不是很有效,由此使重排序成為必須。在這個示例中,僅在查詢中使用權(quán)利要求文本。然而,如在別處所描述的那樣,另外的術(shù)語或步驟可被用于獲得一組初、始候選權(quán)利要求或?qū)@臋n。接著,重排序步驟包括對初始組中的每個專利的若干數(shù)值特征的計算,這將在下文中更詳細地被解釋。在一個實施例中,基于支持向量機(SVM)的排序器,例如(T. Joachims. 2002b.使用點擊鏈接型數(shù)據(jù)優(yōu)化搜索引擎.ACM知識發(fā)現(xiàn)和數(shù)據(jù)挖掘(KDD)大會紀要,第133-142頁)可被用于重排序候選專利文檔。另外,可基于自動生成的數(shù)據(jù)、訓練數(shù)據(jù)來訓練排序模型,將在下文中詳細解釋訓練數(shù)據(jù)的生成。下面的討論提供了對本發(fā)明的示例性實施例的特征提取方面的更詳細的描述。在給定查詢權(quán)利要求的情況下,例如WIN搜索引擎的搜索引擎被用于搜索搜索空間中的專利的所有單獨的權(quán)利要求。在這個示例中,產(chǎn)生排在最前面的一組結(jié)果的專利,例如前100個中的專利被看作為候選池。對于候選池中的每個專利pi,計算一組特征。下面的示例描述用于計算的十個特征。這些特征充分利用了專利的不同字段,諸如名稱、摘要、IPC、參考文獻和權(quán)利要求。這些特征可包括下列示例性字段中的一些或全部專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權(quán)利要求;排位-c,其表示第一組候選專利中的專利的任何權(quán)利要求的最低排位;sim(c, c),其表示查詢與第一組候選專利中的專利的權(quán)利要求之間的最高相似度得分;sim(c, cs),其表示查詢與第一組候選專利中的專利的所有權(quán)利要求之間的相似度得分;sim(c,名稱),其表示查詢與第一組候選專利中 的專利的名稱之間的相似度得分;sim(c,摘要),其表示查詢與第一組候選專利中的專利的摘要之間的相似度得分;sim(關(guān)鍵概念,關(guān)鍵概念),其表示查詢的關(guān)鍵概念與第一組專利中的專利的關(guān)鍵概念之間的相似度得分;sim(關(guān)鍵概念,名稱),其表不查詢的關(guān)鍵概念與第一組專利中的專利的名稱之間的相似度得分;sim(關(guān)鍵概念,摘要),其表示查詢的關(guān)鍵概念與第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示第一組專利中的專利的IPC分類號與第一組專利中的一組初始高排位專利的IPC分類號之間重復的IPC分類號的數(shù)量;以及直接引用,其表示所述一組初始高排位專利文檔中引用第一組專利文檔中的專利或被第一組專利文檔中的專利引用的專利的數(shù)量。例如,排位-C是&5ri,其中ri是的任何權(quán)利要求在初始的WIN搜索中的最低排位。由于初始搜索不考慮單獨的權(quán)利要求,因此可具有出現(xiàn)在排在最前面的一組結(jié)果中的若干權(quán)利要求。實施例可使用那些權(quán)利要求之中的最低排位來為計算特征。就Sim(c, c)而言,這個特征是的權(quán)利要求與《7之間的最高相似度得分。這個特征根據(jù)由WIN搜索引擎提供的相似度得分將排位特征向上增大??赏ㄟ^除以這個特征對于特定查詢的最高得分而對該特征進行歸一化。接著是sim(c, cs),其表示cq與pi的所有權(quán)利要求之間的相似度得分。同樣地,可通過最高得分對這個特征進行歸一化。接著是sim(c,名稱),其表示《7與的名稱之間的相似度得分,其如上文所述那樣被歸一化。接著是sim(c,摘要),其表示與pi的摘要之間的相似度得分,其如上文所述那樣被歸一化。接著是sim(關(guān)鍵概念,關(guān)鍵概念),其表不eg的關(guān)鍵概念與/72的關(guān)鍵概念之間的經(jīng)歸一化的相似度得分。通常,獨立權(quán)利要求的起始句包含諸如下列各項的詞語包含、由…組成、包括、在于(in that)、聽到等等。這些詞語以及像它們那樣的詞語被稱為標識符。標識符之前的詞語通常指出權(quán)利要求的主題,其可被稱為“關(guān)鍵概念”。專利的關(guān)鍵概念被定義為專利的第一權(quán)利要求的關(guān)鍵概念。另一個術(shù)語是s im (關(guān)鍵概念,名稱),其表不eg的關(guān)鍵概念與的名稱之間的經(jīng)歸一化的相似度得分。另一個術(shù)語是sim(關(guān)鍵概念,摘要),其表示cq的關(guān)鍵概念與的摘要之間的經(jīng)歸一化的相似度得分。另一個術(shù)語是IPC-重疊。IPC-重疊特征基于的IPC與源專利組的IPC之間重疊的IPC的數(shù)量,所述源專利組例如可被定義為候選池中的前十個專利。為了計算IPC-重疊,優(yōu)選的是首先定義兩個IPC之間的重疊得分。在一個示例性的實例中,可基于結(jié)構(gòu)將每個IPC分為三個級。例如,像J61X/009=02那樣的IPC具有三個級A6IK (級l)、A61K-009(級2)以及洲Lf/009卻2 (級3)。兩個IPC之間的單級重疊給出例如為0.3的預(yù)定義得分。兩個IPC的重疊得分是來自于三個級的得分的總和。例如J6LT/009=02與J61X/009=10之間的重疊得分是0. 6,這是因為它們在級I和級2重疊。可將的IPC重疊定義為的IPC與所有源專利的所有IPC之間的平均重疊得分。這個特征基于下述假設(shè)即源專利中的大部分所共有的IPC將反映查詢權(quán)利要求的主題。因而,如果專利具有低IPC-重疊得分,則其不大可能是相關(guān)專利。 將要討論的下一個特征是直接引用,其與IPC-重疊的相似,這是因為直接引用表示引用或被引用的源專利的數(shù)量,用源專利的總數(shù)對其進行歸一化。本發(fā)明的這個優(yōu)選實施例的下一個方面是自動生成訓練數(shù)據(jù)。重排序器算法自動學習諸如上文所描述的那些的特征的重要性,以充分利用這些特征。在優(yōu)選實施例中,訓練數(shù)據(jù)被使用??赏ㄟ^結(jié)果的人工評注來收集訓練數(shù)據(jù),但這是耗時且昂貴的過程。代替地,本發(fā)明包括自動生成訓練數(shù)據(jù)的方法。第一步是被選擇為一組目標專利的第一權(quán)利要求的查詢的自動生成。通過WIN搜索引擎來運行這些查詢以得到一組候選專利并且如上文所描述的那樣計算這些候選專利的特征。可將訓練“標簽”分配給這些特征向量。標簽的生成依賴于知道查詢權(quán)利要求從其中被選擇的專利。所分配的國際專利分類號(IPC)和被引用的專利包含關(guān)于特定專利的豐富信息。優(yōu)選實施例定義下列規(guī)則來判斷候選專利與目標專利/target的相關(guān)性。首先,如果的WC與ptarget的IPC匹配,并且引用或被tercet引用,那么與/target相關(guān),并且被分配為A級。第二,如果的IPC與ptarget的IPC匹配,但既沒有被/target引用也沒有引用那么Ik為P與有些相關(guān),并且被分配為C級。第三,如果的IPC與的IPC不匹配,并且既沒有被引用也沒有引用那么判斷與ptarget不相關(guān),并且被分配為F級。在一種方式中,如果各IPC在第二級相同,則它們可以被定義為匹配。自動分配A級、C級和F級的過程不是無錯的,但其顯示了相對的相關(guān)性。只要具有更高等級的專利更有可能與目標專利相關(guān),那么自動生成的訓練數(shù)據(jù)就將令人滿意地訓練重排序模型?;谑澜缰R產(chǎn)權(quán)組織,IPC(國際專利分類號)被分為八個部。在下面的實驗性示例中,IPC的A部部分中的所有專利被用作整個搜索空間,其包括大約五十萬個專利。對于每個專利而言,名稱、IPC、摘要和權(quán)利要求是已知的。重要的是注意到本發(fā)明不需要使用專利的全文。在本實例中,從五十萬個專利之中,隨機選出10,000個專利來生成訓練和測試數(shù)據(jù)。具體而言,在這個示例中,對于每個專利,第一權(quán)利要求被用于生成其候選專利并且使用下文所詳細討論的規(guī)則來自動為它們分配A/C/F級。沒有產(chǎn)生任何A級的查詢專利被放棄。在這個示例性測試中,查詢中的79個被分離并且被用于測試,而剩余的查詢被用于訓練。數(shù)據(jù)組被平衡以具有大約相同數(shù)量的A級、C級和F級,但對C級和F級進行二次采樣??傮w來說,大約5,000個專利被選擇作為目標,產(chǎn)生大約40,000個標記的特征向量。具有多項式(度=2)核的SVM-Iight (T. Joachims. 2002a.使用支持向量機學習分類文本.學位論文.Kluwer)被用在這個示例中以訓練排序模型。對79個測試查詢權(quán)利要求進行重排序。對于這些測試查詢,前5個搜索結(jié)果被發(fā)送給專利專家來分配A級、C級和F級,其中A意指非常相關(guān),C意指有些相關(guān),而F意指不相關(guān)。進而將該人工評級與下面自動生成的計算機評級比較。就計算機評級與人工評級的相似度而言,表I顯示了對于大約600個候選專利在給定人工評級的情況下的計算機評級的條件概率。表I顯示了當專家將專利判斷為非常相關(guān)(人工評級為A)時,計算機評級很少為F ;并且當專利被判斷為不相關(guān)(人工評級為F)時,計算機評級很少為A。當專利被判斷為有些相關(guān)(C)時,計算機評級很可能也為C。這表明計算機評級在區(qū)分非常相關(guān)、相關(guān)和不相關(guān)的專利時是可靠的。
權(quán)利要求
1.一種用于處理與專利權(quán)利要求術(shù)語相關(guān)的用戶查詢以生成響應(yīng)于所述查詢的一組專利文檔的基于計算機的系統(tǒng),所述系統(tǒng)包括 搜索引擎,其由計算機執(zhí)行并且適于接收查詢以及基于所述查詢搜索包含在至少一個數(shù)據(jù)庫中的專利文檔的權(quán)利要求,并且適于產(chǎn)生第一組候選專利文檔;以及 重排序模塊,其包括可由所述計算機執(zhí)行的代碼并且適于至少部分地基于一組專利特征來重排序所述第一組候選專利文檔以及生成第二組經(jīng)排序的專利文檔,所述重排序模塊適于基于先前執(zhí)行的學習過程對所述一組特征進行加權(quán)。
2.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述重排序模塊還適于為所述第一組候選專利文檔中的每一個生成與所述一組專利特征相關(guān)聯(lián)的一組特征得分,所述重排序模塊適于至少部分地基于所述一組特征得分重排序來生成所述第二組經(jīng)排序的專利文檔。
3.根據(jù)權(quán)利要求2所述的系統(tǒng),其中所述重排序模型還適于為所述第一組候選專利文檔中的每一個生成至少部分地來源于一組特征得分的總得分,所述重排序模塊適于至少部分地基于與所述第一組候選專利文檔中的每個專利相關(guān)聯(lián)的總得分重排序來生成所述第二組經(jīng)排序的專利文檔。
4.根據(jù)權(quán)利要求2所述的系統(tǒng),其中所述一組特征得分中的一個或多個被歸一化。
5.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述一組專利特征包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權(quán)利要求;排位-C,其表示所述第一組候選專利中的專利的任何權(quán)利要求的最低排位;sim(c, c),其表示所述查詢與所述第一組候選專利中的專利的權(quán)利要求之間的最高相似度得分;sim(c,cs),其表示所述查詢與所述第一組候選專利中的專利的所有權(quán)利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關(guān)鍵概念,關(guān)鍵概念),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的關(guān)鍵概念之間的相似度得分;sim(關(guān)鍵概念,名稱),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關(guān)鍵概念,摘要),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數(shù)量;以及直接引用,其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數(shù)量。
6.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述一組專利特征包括IPC-重疊,其表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數(shù)量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結(jié)構(gòu)將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產(chǎn)生第一得分并且兩個IPC分類號之間的第二級重疊產(chǎn)生第二得分。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其中給定專利文檔的IPC-重疊是該專利文檔的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分。
8.根據(jù)權(quán)利要求7所述的系統(tǒng),其中專利文檔的IPC-重疊得分與其相關(guān)性得分直接相關(guān)。
9.根據(jù)權(quán)利要求I所述的系統(tǒng),其中基于先前執(zhí)行的學習過程所配置的所述重排序模塊包括自動生成的訓練數(shù)據(jù),所述自動生成的訓練數(shù)據(jù)被處理以建立將被分配給所述一組專利特征中的各個特征的相關(guān)性權(quán)重。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其中所述學習模塊收集訓練數(shù)據(jù)并且至少部分地基于所收集的訓練數(shù)據(jù)為所述一組專利特征分配相關(guān)性權(quán)重。
11.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述搜索引擎包括適于產(chǎn)生所述第一組候選專利文檔的基于基線文本的檢索系統(tǒng)。
12.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述查詢可包括多個獨立定義的查詢術(shù)語,所述獨立定義的查詢術(shù)語中的一個或多個被所述搜索引擎處理以對包括在所述第一組候選專利文檔中的專利進行劃界或加權(quán)。
13.根據(jù)權(quán)利要求I所述的系統(tǒng),其中所述查詢可包括多個獨立定義的查詢術(shù)語,所述獨立定義的查詢術(shù)語中的一個或多個被所述重排序模塊處理以對所述一組專利特征進行劃界或加權(quán)。
14.一種用于接收和處理搜索查詢并且向用戶呈現(xiàn)搜索結(jié)果的方法,所述方法包括 a)接收包括表示專利權(quán)利要求搜索的術(shù)語的查詢; b)使用搜索引擎從數(shù)據(jù)庫中檢索第一組專利信息,所述第一組專利信息中的每一個包括響應(yīng)于所述查詢的一個或多個權(quán)利要求; c)基于一組專利特征重排序所述第一組專利信息以生成一組經(jīng)重排序的專利信息;以及 d)為顯示而生成來源于所述一組經(jīng)重排序的專利信息的響應(yīng)于所述查詢的一組有序信息。
15.根據(jù)權(quán)利要求14所述的方法,其中所述第一組專利信息包括專利文檔。
16.根據(jù)權(quán)利要求14所述的方法,其中為顯示而生成的所述一組有序信息包括響應(yīng)于所述查詢的專利權(quán)利要求。
17.根據(jù)權(quán)利要求14所述的方法,其中為顯示而生成的所述一組有序信息包括到專利文檔的鏈接。
18.根據(jù)權(quán)利要求14所述的方法,其還包括收集訓練數(shù)據(jù)并且至少部分地基于所收集的訓練數(shù)據(jù)為所述一組專利特征分配相關(guān)性權(quán)重。
19.根據(jù)權(quán)利要求14所述的方法,其還包括為所述第一組專利信息中的每一個生成與所述一組專利特征相關(guān)聯(lián)的一組特征得分,并且至少部分地基于所述一組特征得分重排序來生成所述一組經(jīng)重排序的專利信息。
20.根據(jù)權(quán)利要求19所述的方法,其還包括對所述一組特征得分中的一個或多個進行歸一化。
21.根據(jù)權(quán)利要求14所述的方法,其中所述一組專利特征包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權(quán)利要求;排位-c,其表示所述第一組候選專利中的專利的任何權(quán)利要求的最低排位;sim(c, c),其表示所述查詢與所述第一組候選專利中的專利的權(quán)利要求之間的最高相似度得分;sim(c,cs),其表示所述查詢與所述第一組候選專利中的專利的所有權(quán)利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關(guān)鍵概念,關(guān)鍵概念),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的關(guān)鍵概念之間的相似度得分;sim(關(guān)鍵概念,名稱),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關(guān)鍵概念,摘要),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數(shù)量;以及直接引用,其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數(shù)量。
22.根據(jù)權(quán)利要求14所述的方法,其中所述一組專利特征包括IPC-重疊,其表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數(shù)量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結(jié)構(gòu)將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產(chǎn)生第一得分并且兩個IPC分類號之間的第二級重疊產(chǎn)生第二得分。
23.根據(jù)權(quán)利要求22所述的方法,其中給定專利文檔的IPC-重疊是該專利文檔的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分。
24.根據(jù)權(quán)利要求23所述的方法,其中專利文檔的IPC-重疊得分與其相關(guān)性得分直接相關(guān)。
25.根據(jù)權(quán)利要求14所述的方法,其中所述查詢可包括多個獨立定義的查詢術(shù)語。
26.一種在其上存儲有將由機器執(zhí)行以進行操作的指令的機器可讀介質(zhì),所述指令包括用于下列操作的指令 呈現(xiàn)包括用于接收查詢輸入的輸入框的圖形用戶界面屏幕; 接收與專利權(quán)利要求術(shù)語相關(guān)的查詢; 針對與在包括專利文檔的數(shù)據(jù)庫中所表示的專利文檔相關(guān)聯(lián)的權(quán)利要求來處理所述查詢以生成響應(yīng)于所述查詢的一組候選專利文檔; 至少部分地基于一組專利特征重排序所述一組候選專利文檔并且生成第二組經(jīng)排序的專利文檔;以及 為查看而顯示與所述一組經(jīng)排序的專利文檔相關(guān)聯(lián)的圖形用戶界面屏幕。
27.一種用于處理與專利權(quán)利要求術(shù)語相關(guān)的用戶查詢以生成響應(yīng)于所述查詢的一組專利文檔的基于計算機的系統(tǒng),所述系統(tǒng)包括 搜索引擎,其由計算機執(zhí)行并且適于接收查詢以及基于所述查詢搜索包含在至少一個數(shù)據(jù)庫中的專利文檔的權(quán)利要求,并且適于產(chǎn)生第一組候選專利文檔;以及 重排序模塊,其包括可由所述計算機執(zhí)行的代碼并且適于至少部分地基于一組專利特征來重排序所述第一組候選專利文檔以及生成第二組經(jīng)排序的專利文檔,所述重排序模塊適于基于包括與所述權(quán)利要求的主題相關(guān)的至少一個分類特征的一組特征對所述一組特征進行加權(quán)。
28.根據(jù)權(quán)利要求27所述的系統(tǒng),其中所述重排序模塊還適于為所述第一組候選專利文檔中的每一個生成與所述一組專利特征相關(guān)聯(lián)的一組特征得分,所述重排序模塊適于至少部分地基于所述一組特征得分重排序來生成所述第二組經(jīng)排序的專利文檔。
29.根據(jù)權(quán)利要求28所述的系統(tǒng),其中所述重排序模型還適于為所述第一組候選專利文檔中的每一個生成至少部分來源于一組特征得分的總得分,所述重排序模塊適于至少部分地基于與所述第一組候選專利文檔中的每個專利相關(guān)聯(lián)的總得分重排序來生成所述第二組經(jīng)排序的專利文檔。
30.根據(jù)權(quán)利要求28所述的系統(tǒng),其中所述一組特征得分中的一個或多個被歸一化。
31.根據(jù)權(quán)利要求27所述的系統(tǒng),其中所述一組專利特征包括來自包括下列各項的集合的一個或多個專利的字段;專利名稱;專利摘要;專利IPC分類號;專利參考文獻;專利權(quán)利要求;排位-c,其表示所述第一組候選專利中的專利的任何權(quán)利要求的最低排位;sim(c, c),其表示所述查詢與所述第一組候選專利中的專利的權(quán)利要求之間的最高相似度得分;sim(c,cs),其表示所述查詢與所述第一組候選專利中的專利的所有權(quán)利要求之間的相似度得分;sim(c,名稱),其表示所述查詢與所述第一組候選專利中的專利的名稱之間的相似度得分;sim(c,摘要),其表示所述查詢與所述第一組候選專利中的專利的摘要之間的相似度得分;sim(關(guān)鍵概念,關(guān)鍵概念),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的關(guān)鍵概念之間的相似度得分;sim(關(guān)鍵概念,名稱),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的名稱之間的相似度得分;sim(關(guān)鍵概念,摘要),其表示所述查詢的關(guān)鍵概念與所述第一組專利中的專利的摘要之間的相似度得分;IPC-重疊,其表示所述第一組專利中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利的IPC分類號之間重疊的IPC分類號的數(shù)量;以及直接引用,其表示所述一組初始高排位專利文檔中引用所述第一組專利文檔中的專利或被所述第一組專利文檔中的專利引用的專利的數(shù)量。
32.根據(jù)權(quán)利要求27所述的系統(tǒng),其中所述一組專利特征包括IPC-重疊,其表示所述第一組專利文檔中的專利的IPC分類號與所述第一組專利中的一組初始高排位專利文檔的IPC分類號之間重疊的IPC分類號的數(shù)量,所述重排序模塊還適于計算IPC-重疊,其包括適于定義兩個IPC分類號之間的重疊得分、基于IPC分類號結(jié)構(gòu)將每個IPC分類號分為多個級的代碼,并且其中兩個IPC分類號之間的第一級重疊產(chǎn)生第一得分并且兩個IPC分類號之間的第二級重疊產(chǎn)生第二得分。
33.根據(jù)權(quán)利要求32所述的系統(tǒng),其中給定專利文檔的IPC-重疊是該專利文檔的IPC分類號與所述一組初始高排位專利文檔的所有IPC分類號之間的平均重疊得分。
34.根據(jù)權(quán)利要求33所述的系統(tǒng),其中專利文檔的IPC-重疊得分與其相關(guān)性得分直接相關(guān)。
35.根據(jù)權(quán)利要求27所述的系統(tǒng),其中基于先前執(zhí)行的學習過程所配置的所述重排序模塊包括自動生成的訓練數(shù)據(jù),所述自動生成的訓練數(shù)據(jù)被處理以建立將被分配給所述一組專利特征中的各個特征的相關(guān)性權(quán)重。
36.根據(jù)權(quán)利要求35所述的系統(tǒng),其中所述學習模塊收集訓練數(shù)據(jù)并且至少部分地基于所收集的訓練數(shù)據(jù)為所述一組專利特征分配相關(guān)性權(quán)重。
37.根據(jù)權(quán)利要求27所述的系統(tǒng),其中所述搜索引擎包括適于產(chǎn)生所述第一組候選專利文檔的基于基線文本的檢索系統(tǒng)。
38.根據(jù)權(quán)利要求27所述的系統(tǒng),其中所述查詢可包括多個獨立定義的查詢術(shù)語,所述獨立定義的查詢術(shù)語中的一個或多個被所述搜索引擎處理以對包括在所述第一組候選專利文檔中的專利進行劃界或加權(quán)。
39.根據(jù)權(quán)利要求27所述的系統(tǒng),其中所述查詢可包括多個獨立定義的查詢術(shù)語,所述獨立定義的查詢術(shù)語中的一個或多個被所述重排序模塊處理以對所述一組專利特征進行劃界或加權(quán)。
全文摘要
本發(fā)明提供了一種用于在專利檢索系統(tǒng)中重排序搜索結(jié)果的方法和系統(tǒng),其中查詢文本全部或部分地來源于專利權(quán)利要求,所述專利權(quán)利要求可來自于現(xiàn)有的專利或預(yù)期的權(quán)利要求。所述重排序基于候選專利的若干特征,諸如與所述權(quán)利要求的文本相似度、國際專利分類號或其他分類或主題關(guān)聯(lián)性或重疊以及候選者的內(nèi)部引用結(jié)構(gòu)。一個備選方面提供了基于自動生成的訓練數(shù)據(jù)來訓練的重排序器,由此避免了昂貴且花費時間的專家評注步驟。
文檔編號G06F7/00GK102792262SQ201180008432
公開日2012年11月21日 申請日期2011年2月1日 優(yōu)先權(quán)日2010年2月3日
發(fā)明者A.瓦奇赫, G.奎克, S.維拉馬查內(nèi)尼, W.廖 申請人:湯姆森路透社全球資源公司