亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于處理文檔的方法與設(shè)備與流程

文檔序號(hào):12802133閱讀:326來(lái)源:國(guó)知局
用于處理文檔的方法與設(shè)備與流程

本公開(kāi)的實(shí)施例總體上涉及自然語(yǔ)言處理,并且更具體地,涉及處理文檔的方法與設(shè)備。



背景技術(shù):

隨著計(jì)算機(jī)技術(shù)的發(fā)展,利用計(jì)算機(jī)對(duì)各類(lèi)電子文檔進(jìn)行處理已經(jīng)成為了很多領(lǐng)域的重要應(yīng)用。例如,很多醫(yī)療機(jī)構(gòu)使用計(jì)算機(jī)系統(tǒng)來(lái)處理與醫(yī)學(xué)診療相關(guān)的電子文檔,諸如電子病歷等等。自然語(yǔ)言處理技術(shù)被用來(lái)從這些文檔提取數(shù)據(jù)。所提取的數(shù)據(jù)可被轉(zhuǎn)換成適于處理和管理的形式,從而方便圖形表示、搜索、總結(jié)和統(tǒng)計(jì)分析等。

目前,對(duì)電子文檔的自然語(yǔ)言處理方法受限于數(shù)據(jù)大小、數(shù)據(jù)多樣性和標(biāo)注的質(zhì)量。仍然以醫(yī)療文檔為例,從醫(yī)療數(shù)據(jù)提取數(shù)據(jù)的常規(guī)做法是通過(guò)盡可能多的數(shù)據(jù)來(lái)訓(xùn)練自然語(yǔ)言處理模型,這難以有效地應(yīng)對(duì)大數(shù)據(jù)量的醫(yī)療文檔。即便采用機(jī)器輔助標(biāo)注過(guò)程(mapa)之類(lèi)的技術(shù),當(dāng)文檔數(shù)量巨大時(shí)仍然無(wú)法實(shí)現(xiàn)高效的文檔自動(dòng)化處理。



技術(shù)實(shí)現(xiàn)要素:

為了解決本領(lǐng)域中存在的上述問(wèn)題以及其他潛在問(wèn)題,在此提供一種文檔處理方法和文檔處理設(shè)備。

本公開(kāi)的第一方面提供了一種用于處理文檔的方法。該方法包括:基于第一文檔集中的文檔的相似性將第一文檔集劃分為多個(gè)類(lèi),該多個(gè)類(lèi)包括各自的中心文檔;使該多個(gè)類(lèi)的中心文檔被標(biāo)注,標(biāo)注至少包括對(duì)中心文檔中的語(yǔ)句的切分;以及基于標(biāo)注更新用于標(biāo)注文檔的自然語(yǔ)言處理模型?;谙嗨菩缘膭澐挚梢杂糜诖_保同一類(lèi)內(nèi)的文檔的相似性較高,不同類(lèi)之間的文檔的相似性較低,并且從中選擇 中心文檔進(jìn)行標(biāo)注,可以減少專(zhuān)業(yè)人員標(biāo)注的工作量,同時(shí)還可以確保具有足夠的多樣性(diversity),使得可以利用充分的信息來(lái)更新模型。

根據(jù)一些可選實(shí)施例,基于標(biāo)注更新用于標(biāo)注文檔的自然語(yǔ)言處理模型包括:基于標(biāo)注創(chuàng)建自然語(yǔ)言處理模型。

根據(jù)一些可選實(shí)施例,基于該標(biāo)注更新用于標(biāo)注文檔的自然語(yǔ)言處理模型包括:從經(jīng)標(biāo)注的文檔中選擇基于相同模板而生成的文檔;以及基于選擇出的文檔來(lái)更新該自然語(yǔ)言處理模型。這種異常文檔處理方法既可以確保不遺漏重要信息,而且還不影響模型的性能。

根據(jù)一些可選實(shí)施例,將第一文檔集劃分為多個(gè)類(lèi)包括對(duì)第一文檔集執(zhí)行聚類(lèi),以及其中中心文檔包括與聚類(lèi)的質(zhì)心的相似性大于預(yù)定閾值的文檔。根據(jù)一些可選實(shí)施例,以第一文檔集中的文檔為質(zhì)心執(zhí)行聚類(lèi),并且中心文檔為該質(zhì)心。這種方法獲得的質(zhì)心即為文檔集中的真實(shí)文檔,并且可以選擇該質(zhì)心進(jìn)行標(biāo)注,從而僅需標(biāo)注一個(gè)最具代表性的文檔。

根據(jù)一些可選實(shí)施例,第一文檔集包括與醫(yī)學(xué)診療有關(guān)的文檔,并且其中將第一文檔集劃分為多個(gè)類(lèi)包括:根據(jù)醫(yī)療詞典對(duì)第一文檔集中的文檔進(jìn)行分段;以及根據(jù)經(jīng)分段的文檔之間的相似性來(lái)劃分第一文檔集。醫(yī)療領(lǐng)域具有其特定的自語(yǔ)言(sublanguage),因此,基于醫(yī)療詞典進(jìn)行分段,從而劃分第一文檔集可以使得劃分更加準(zhǔn)確,提高方法的性能和可靠性。

根據(jù)一些可選實(shí)施例,將第一文檔集劃分為多個(gè)類(lèi)包括:根據(jù)第一文檔集中的文檔的詞頻-反向文檔頻率(tf-idf)和語(yǔ)句順序中的至少一項(xiàng),來(lái)確定文檔的相似性;以及基于確定的相似性來(lái)劃分第一文檔集。

根據(jù)一些可選實(shí)施例,該方法還包括:響應(yīng)于對(duì)自然語(yǔ)言處理模型的更新的量超過(guò)預(yù)定閾值,通過(guò)從第一文檔集移除部分文檔獲得第二文檔集;基于第二文檔集中的文檔的相似性,將第二文檔集劃分為多個(gè)類(lèi);使第二文檔集的多個(gè)類(lèi)的中心文檔被標(biāo)注;基于對(duì)第二文檔 集的多個(gè)類(lèi)的中心文檔的標(biāo)注,更新自然語(yǔ)言處理模型。根據(jù)一些可選實(shí)施例,獲得第二文檔集包括:響應(yīng)于第二文檔集為空,將先前移除的除經(jīng)標(biāo)注的中心文檔之外的文檔添加到第二文檔集。根據(jù)一些可選實(shí)施例,將先前移除的除經(jīng)標(biāo)注中心文檔之外的文檔添加到第二文檔集包括:將先前移除的文檔中除經(jīng)標(biāo)注中心文檔之外的、基于相同模板的文檔添加到第二文檔集。

本公開(kāi)的第二方面提供了一種用于處理文檔的設(shè)備。該設(shè)備包括處理單元,其被配置成:基于第一文檔集中的文檔的相似性將第一文檔集劃分為多個(gè)類(lèi),該多個(gè)類(lèi)包括各自的中心文檔;使該多個(gè)類(lèi)的中心文檔被標(biāo)注,該標(biāo)注至少包括對(duì)中心文檔中的語(yǔ)句的切分;以及基于標(biāo)注更新用于標(biāo)注文檔的自然語(yǔ)言處理模型。

根據(jù)本公開(kāi)的實(shí)施例,用于處理文檔的方法可以顯著減少人工標(biāo)注的工作量,同時(shí)還可以確保具有足夠的多樣性,使得自然語(yǔ)言處理模型可以利用足夠充分的信息來(lái)訓(xùn)練和更新。

附圖說(shuō)明

通過(guò)參考附圖閱讀下文的詳細(xì)描述,本公開(kāi)的上述以及其他目的、結(jié)構(gòu)和特征將更加清楚。在附圖中,以示例性而非限制性的方式示出了本公開(kāi)的若干實(shí)施例,其中:

圖1示出了根據(jù)本公開(kāi)的示例性實(shí)施例的文檔處理環(huán)境的示意圖。

圖2示出了根據(jù)本公開(kāi)的示例性實(shí)施例的文檔處理方法的流程圖;

圖3示出了根據(jù)本公開(kāi)的示例性實(shí)施例的文檔處理方法的流程圖;

圖4示出了根據(jù)本公開(kāi)的示例性實(shí)施例的文檔處理設(shè)備的框圖;以及

圖5示出了適于實(shí)現(xiàn)本公開(kāi)的示例性實(shí)施例的設(shè)備的框圖。

具體實(shí)施方式

下面將參考附圖中示出的若干示例性實(shí)施方式來(lái)描述本公開(kāi)的原理和精神。應(yīng)當(dāng)理解,描述這些實(shí)施方式僅僅是為了使本領(lǐng)域技術(shù)人員能夠更好地理解進(jìn)而實(shí)現(xiàn)本公開(kāi),而并非以任何方式限制本公開(kāi)的范圍。

如本文中所述,術(shù)語(yǔ)“包括”及其各種變體可以被理解為開(kāi)放式術(shù)語(yǔ),其意味著“包括但不限于”。術(shù)語(yǔ)“基于”可以被理解為“至少部分地基于”。術(shù)語(yǔ)“一個(gè)實(shí)施例”可以被理解為“至少一個(gè)實(shí)施例”。術(shù)語(yǔ)“另一實(shí)施例”可以被理解為“至少一個(gè)其它實(shí)施例”。

如上文簡(jiǎn)述,當(dāng)待處理的文檔數(shù)目巨大時(shí),傳統(tǒng)方案無(wú)法實(shí)現(xiàn)高效、準(zhǔn)確的文檔處理。例如,mapa技術(shù)允許利用較低性能的自然語(yǔ)言處理模型對(duì)待處理的文檔進(jìn)行預(yù)標(biāo)注。在人工校正之后,可以使用校正數(shù)據(jù)來(lái)訓(xùn)練新的模型。但是當(dāng)文檔數(shù)目眾多時(shí),醫(yī)師無(wú)法高效地完成標(biāo)注過(guò)程。例如,文檔中很可能包含大量相似甚至相同的文檔,對(duì)這樣的文檔進(jìn)行重復(fù)的標(biāo)準(zhǔn)對(duì)模型的創(chuàng)建和更新沒(méi)有實(shí)質(zhì)性的貢獻(xiàn)。此外,傳統(tǒng)方案無(wú)法有效應(yīng)對(duì)“異常文檔”,即,那些與用于文檔生成的模板差距較大的文檔。如果對(duì)異常文檔不加處理,則可能丟失有用的信息,比如臨床個(gè)案的病例信息。另一方面,處理這些文檔將會(huì)顯著增大標(biāo)注的成本和負(fù)擔(dān),并且可能對(duì)自然語(yǔ)言模型的訓(xùn)練造成負(fù)面的影響。

根據(jù)本公開(kāi)的實(shí)施例,用來(lái)創(chuàng)建、更新和/訓(xùn)練文檔處理模型的文檔首先根據(jù)其相似性而被分類(lèi)。而后,對(duì)于每個(gè)類(lèi),可以從中選擇一個(gè)或者少量幾個(gè)文檔進(jìn)行標(biāo)注。“標(biāo)注”是指借助于由用戶以人工方式對(duì)文檔進(jìn)行語(yǔ)句成分切分、語(yǔ)義注解等操作,這還將在下文詳述。然后,這些經(jīng)標(biāo)注的文檔被用來(lái)建立或者更新自然語(yǔ)言處理模型,該自然語(yǔ)言模型隨后可以用來(lái)自動(dòng)地處理文檔。由于文檔按照相似性進(jìn)行劃分,所以用來(lái)建立和/或更新自然語(yǔ)言模型的文檔是具有代表性的文檔,這確保了模型的可用性和準(zhǔn)確性。另一方面,由于每個(gè)類(lèi)中僅需標(biāo)注少量而非全部文檔,顯著地提高了“標(biāo)注”這一瓶頸操作的效 率,改進(jìn)了系統(tǒng)性能。而且,在某些實(shí)施例中,上述過(guò)程可以被迭代地執(zhí)行直到自然語(yǔ)言處理模型的更新量足夠小。以此方式,可以獲得盡可能完善的模型。

下面將討論本公開(kāi)的若干實(shí)施例。為討論方便,在下文描述中可能參考醫(yī)學(xué)文檔來(lái)描述本公開(kāi)的某些實(shí)施例。然而應(yīng)當(dāng)理解,本公開(kāi)的實(shí)施例同樣適用于其他應(yīng)用領(lǐng)域的文檔,例如那些與醫(yī)療診療處理具有類(lèi)似特點(diǎn)的應(yīng)用領(lǐng)域(例如,在該領(lǐng)域內(nèi)具有特殊語(yǔ)言、文檔不容易讓外界獲取等)。

圖1示出了根據(jù)本發(fā)明的示例性實(shí)施例的文檔處理環(huán)境100的示意圖。如圖1所示,文檔處理環(huán)境100包括文檔處理設(shè)備110,其可以是具備信息/文字處理能力的任何電子設(shè)備,例如服務(wù)器計(jì)算機(jī)、個(gè)人計(jì)算機(jī)(pc),等等。文檔處理設(shè)備110的一個(gè)示例性結(jié)構(gòu)將在下文參考圖5來(lái)描述。文檔處理設(shè)備110可以從文檔庫(kù)中獲取文檔集并且按照文檔的相似性來(lái)劃分文檔集。通過(guò)對(duì)文檔集的劃分,可以得到文檔的多個(gè)類(lèi)120-1、120-2…120-n。

在每個(gè)類(lèi)中,可以選擇具有代表性的一個(gè)或多個(gè)文檔,稱(chēng)為“中心文檔”130-1、130-2…130-n,以供用戶150進(jìn)行標(biāo)注。術(shù)語(yǔ)“標(biāo)注”是指向文檔中添加結(jié)構(gòu)以及用于各種結(jié)構(gòu)的語(yǔ)義標(biāo)記。標(biāo)注后的中心文檔可以用來(lái)更新(例如,建立或修改)一個(gè)或多個(gè)自然語(yǔ)言處理模型140。該自然語(yǔ)言模型140隨后將被用于文檔的自動(dòng)化處理。備選地,也可以訓(xùn)練和使用通用的自然語(yǔ)言處理模型140。

參考圖2,其示出了根據(jù)本公開(kāi)的示例性實(shí)施例的文檔處理方法200的流程圖。在步驟201,對(duì)于待處理的文檔集,基于文檔集中的文檔的相似性,將文檔集劃分為多個(gè)類(lèi)。為了討論方便,下文將步驟201處理的文檔集成為“第一文檔集”。

根據(jù)一些實(shí)施例,可以通過(guò)聚類(lèi)方法對(duì)第一文檔集進(jìn)行劃分。如已知的,聚類(lèi)方法是一種非監(jiān)督機(jī)器學(xué)習(xí)方法,其用于將n個(gè)樣本點(diǎn)分組成k個(gè)類(lèi),其中n和k是自然數(shù)并且n大于或者等于k。通常,聚類(lèi)方法所使用的信息僅包括樣本點(diǎn)之間的相似性。在聚類(lèi)方法中, 聚類(lèi)的結(jié)果使得同一類(lèi)中的樣本點(diǎn)具有較高的相似性,并且不同類(lèi)之間的樣本點(diǎn)具有較低的相似性。任何目前已知或者將來(lái)開(kāi)發(fā)的聚類(lèi)算法均可與本公開(kāi)的實(shí)施例結(jié)合使用。聚類(lèi)算法的示例包括但不限于:k均值(k-means)方法,k中心點(diǎn)(k-medoids)方法,等等。

在某些實(shí)施例中,文檔的相似性可以根據(jù)第一文檔集中的文檔的詞頻-反向文檔頻率(tf-idf)和/或語(yǔ)句順序來(lái)確定。tf-idf值隨著詞在文檔中出現(xiàn)的次數(shù)的增加而增加,并且隨著詞在語(yǔ)料庫(kù)中的頻率的增加而減小。因此,tf-idf可被用來(lái)指示詞在文檔中的重要程度。換言之,某一特定文件內(nèi)的高詞頻,以及該詞在整個(gè)文件集中的低文件頻率,可以產(chǎn)生出高的tf-idf值,其中文件頻率表示在文檔集中,一個(gè)詞所出現(xiàn)的文檔數(shù)與文檔集的總文檔數(shù)的比例。因此,通過(guò)使用tf-idf,能夠有效地過(guò)濾掉常見(jiàn)的詞,保留重要的詞。備選地或附加地,語(yǔ)句順序(例如,主動(dòng)句、被動(dòng)句,等等)也可在比較文檔相似性時(shí)被納入考慮。通過(guò)對(duì)第一文檔集中的文檔執(zhí)行語(yǔ)句順序的分析,可以更準(zhǔn)確地提取語(yǔ)句內(nèi)詞語(yǔ)的關(guān)聯(lián)關(guān)系等,從而更好地評(píng)價(jià)文檔之間的相似性。

特別地,如上所述,在某些實(shí)施例中,第一文檔集種的文檔是與醫(yī)學(xué)診療有關(guān)的醫(yī)療文檔。在這樣的實(shí)施例中,可以根據(jù)醫(yī)療詞典之類(lèi)的領(lǐng)域知識(shí),對(duì)第一文檔集中的文檔進(jìn)行分段,并且根據(jù)經(jīng)分段的文檔之間的相似性來(lái)劃分第一文檔集。

在此使用的術(shù)語(yǔ)“分段”是一種對(duì)文檔中語(yǔ)言的預(yù)處理過(guò)程。例如,對(duì)于英文而言,分段可以包括標(biāo)點(diǎn)分割和所有格這樣的詞綴的分離。對(duì)于諸如漢語(yǔ)之類(lèi)的其他語(yǔ)言同樣可以應(yīng)用分段處理。具體而言,醫(yī)療領(lǐng)域具有特定的語(yǔ)言體系,通常也稱(chēng)為“子語(yǔ)言”。因此,如果使用常規(guī)詞典和常規(guī)含義對(duì)文檔進(jìn)行分段,則容易導(dǎo)致一些錯(cuò)誤和偏差,從而影響后續(xù)對(duì)文檔的相似性的評(píng)估。根據(jù)醫(yī)療詞典對(duì)文檔進(jìn)行分段可以更準(zhǔn)確地評(píng)估文檔的相似性,進(jìn)而更好地實(shí)現(xiàn)整個(gè)方法。

通過(guò)對(duì)第一文檔集進(jìn)行聚類(lèi)可以獲得若干個(gè)類(lèi)。每個(gè)類(lèi)具有相應(yīng)的質(zhì)心(centroid)。根據(jù)本公開(kāi)的實(shí)施例,在聚類(lèi)得到的每個(gè)類(lèi)中, 與質(zhì)心之間的相似性大于預(yù)定閾值的一個(gè)或多個(gè)文檔稱(chēng)為“中心文檔”。例如,在使用k均值方法劃分第一文檔集的實(shí)施例中,每個(gè)類(lèi)的是該類(lèi)的文檔的均值點(diǎn),未必是實(shí)際的文檔。此時(shí),中心文檔不一定包括質(zhì)心本身。在通過(guò)k中心點(diǎn)方法劃分第一文檔集的實(shí)施例中,每個(gè)類(lèi)的質(zhì)心是文檔集中的文檔之一。此時(shí),中心文檔可以包括充當(dāng)質(zhì)心的文檔本身,并且可選第包括與該文檔的相似性足夠高的其他一個(gè)或多個(gè)文檔(如果存在的話)。

方法200繼而進(jìn)行到在步驟203,在此使通過(guò)劃分第一文檔集而獲得多個(gè)類(lèi)的各自的中心文檔被標(biāo)注。在此使用的術(shù)語(yǔ)“標(biāo)注”是由用戶借助于計(jì)算機(jī)系統(tǒng)對(duì)文檔進(jìn)行人工處理,從而向文檔中添加結(jié)構(gòu)化信息和/或添加語(yǔ)義標(biāo)記。這些標(biāo)記可以用于對(duì)文檔進(jìn)行索引,促進(jìn)文檔搜索,并且可以用作數(shù)據(jù)庫(kù)中的文檔關(guān)鍵詞,等等。例如,在步驟203處的標(biāo)注至少包括切分中心文檔中的語(yǔ)句。例如,可以向?qū)I(yè)人員呈現(xiàn)中心文檔,然后專(zhuān)業(yè)人員根據(jù)專(zhuān)業(yè)知識(shí)對(duì)這些中心文檔的語(yǔ)句進(jìn)行切分,從而獲得的語(yǔ)句進(jìn)行標(biāo)注。

作為示例,在醫(yī)療領(lǐng)域中,醫(yī)療數(shù)據(jù)的標(biāo)注通常涉及向醫(yī)療數(shù)據(jù)中添加解釋性注釋。這些標(biāo)注或者解釋性注釋標(biāo)識(shí)醫(yī)療程序,尋找向病人開(kāi)具的藥品、臨床觀察或者其他相關(guān)信息。標(biāo)注可以用于治療、賬單、管理和法律用途。假設(shè)一個(gè)中心文檔包括語(yǔ)句“左心房?jī)?nèi)徑增大”,則專(zhuān)業(yè)人員(例如,醫(yī)師)可以將該語(yǔ)句切分為“左心房”、“內(nèi)徑”、“增大”。在某些實(shí)施例中,標(biāo)注還包括對(duì)切分得到的語(yǔ)句部分的語(yǔ)義進(jìn)行注解。例如,在上面描述的示例中,用戶可以將“左心房”標(biāo)注為“解剖學(xué)部位”,將“內(nèi)徑”標(biāo)注為“特征”,將“增大”標(biāo)注為“特征的變化或值”。

接下來(lái),在步驟205,基于在步驟203獲得的對(duì)類(lèi)的中心文檔的標(biāo)注,更新用于標(biāo)注文檔的自然語(yǔ)言處理模型。該自然語(yǔ)言處理模型將被用于對(duì)文檔進(jìn)行自動(dòng)處理,例如自動(dòng)切分文檔中的語(yǔ)句和/或?qū)η蟹肢@得的語(yǔ)句部分進(jìn)行注解,等等。將會(huì)理解,當(dāng)初次執(zhí)行方法200時(shí),可能尚不存在自然語(yǔ)言處理模型。此時(shí),在步驟205處的“更新” 動(dòng)作包括創(chuàng)建一個(gè)新的自然語(yǔ)言處理模型。另一方面,如果已經(jīng)存在了一個(gè)自然語(yǔ)言處理模型,則在步驟205,而已對(duì)該自然語(yǔ)言處理模型進(jìn)行修改或調(diào)整。

在某些實(shí)施例中,可以利用在步驟203處被標(biāo)注的所有中心文檔來(lái)更新自然語(yǔ)言處理模型。備選地,在另一些實(shí)施例中,可以首先從經(jīng)標(biāo)注的中文檔中選擇基于相同的模板(template)而生成的文檔。繼而,可以基于選擇出的這些文檔來(lái)更新自然語(yǔ)言處理模型。

具體而言,通過(guò)對(duì)第一文檔集的劃分(步驟201),在每個(gè)類(lèi)中,在步驟203處進(jìn)行標(biāo)注的文檔通常來(lái)自于相同的模板,例如,都來(lái)自于“瓣膜病”這一模板。但是,在文檔創(chuàng)建的過(guò)程中,可能有些醫(yī)生不喜歡或者不習(xí)慣使用模板中的某些內(nèi)容。或者,在某些情況下,醫(yī)生正在處理的病例具有相對(duì)特殊的病情。在這些情況下,醫(yī)生最終形成的文檔與模板之間的偏差將會(huì)較大。這時(shí),可以認(rèn)為這些文檔不是基于這個(gè)文檔集的相同的模板生成的,也可以成為異常文檔。

一種可行的做法是在步驟201之前就直接將這些文檔從第一文檔集中移除。但是,這樣做可能不適當(dāng)?shù)厥锹┑粲杏玫尼t(yī)療信息,例如特殊病例的信息。因此,在某些實(shí)施例中,在劃分文檔集時(shí)仍然將這些異常文檔納入考慮。相應(yīng)地,在步驟203,仍然將這些文檔讓專(zhuān)業(yè)人員進(jìn)行標(biāo)注,以確保足夠的多樣性并且不丟失有用的信息。在這樣的實(shí)施例中,在步驟205,可以僅使用基于相同模板生成的文檔來(lái)更新自然語(yǔ)言處理模型。換言之,異常文檔可以不用于更新自然語(yǔ)言處理模型。以此方式,即避免了可能的信息丟失,又防止了異常文檔對(duì)自然語(yǔ)言處理模型的更新和性能產(chǎn)生任何負(fù)面影響。對(duì)于在自然語(yǔ)言處理模型的更新中未被使用的那些異常文檔,可以根據(jù)具體情況進(jìn)行處理。例如,如果這些異常文檔基于另一模板生成,則可以自動(dòng)地或者人工地將這些異常文檔交由處理該另一模板的自然語(yǔ)言處理模型進(jìn)行處理。如果一個(gè)異常文檔不屬于任何已有模板,而僅僅是某個(gè)醫(yī)生的個(gè)性化描述,在一個(gè)實(shí)施例中,可以將這些文檔用于訓(xùn)練針對(duì)該醫(yī)生的自然語(yǔ)言處理模型。

通過(guò)執(zhí)行方法200,能夠有效地提高標(biāo)注環(huán)節(jié)的效率,同時(shí)還可以確保具有足夠的多樣性,使得可以利用足夠充分的信息用于訓(xùn)練模型。此外,對(duì)于異常文檔的處理既可以確保不遺漏重要的信息,而且還不影響模型的性能。特別地,將會(huì)理解,可以通過(guò)多次重復(fù)執(zhí)行方法200而迭代地更新自然語(yǔ)言處理模型。圖3示出了一個(gè)這樣的示例。在圖3所示的方法300中,步驟301-305分別對(duì)應(yīng)于圖2所示的方法200中的步驟201-205,在此不再贅述。

在步驟307,判斷自然語(yǔ)言處理模型的更新的量是否超過(guò)預(yù)定閾值。在一些實(shí)施例中,可以將原有自然語(yǔ)言處理模型應(yīng)用于在步驟305中被標(biāo)注的文檔,然后比較自然語(yǔ)言模型處理的結(jié)果與在步驟305所進(jìn)行的標(biāo)注之間的區(qū)別來(lái)確定對(duì)模型的更新的量。作為示例,如果將原有模型應(yīng)用于包括語(yǔ)句“左心房?jī)?nèi)徑增大”的文檔,對(duì)該語(yǔ)句所得到的切分結(jié)果為“左心”、“房?jī)?nèi)徑”、“增大”,則可以認(rèn)為對(duì)模型的更新的量大于預(yù)定閾值。

如果對(duì)自然語(yǔ)言處理模型的更新低于預(yù)定閾值,說(shuō)明利用當(dāng)前作為訓(xùn)練樣本的文檔集合已經(jīng)無(wú)法對(duì)自然語(yǔ)言處理模型做出進(jìn)一步的顯著修改。換言之,在樣本集足夠完備的情況下,可以認(rèn)為自然語(yǔ)言處理模型已經(jīng)比較完善。此時(shí),自然語(yǔ)言處理模型的更新可以在步驟311停止。反之,如果在步驟307確定對(duì)自然語(yǔ)言處理模型的更新大于預(yù)定閾值,表明自然語(yǔ)言處理模型尚待進(jìn)一步完善。相應(yīng)地,方法300進(jìn)行到步驟309。在步驟309,從文檔集移除部分文檔。為了討論方便,將移除部分文檔之后所剩余的那些文檔稱(chēng)為“第二文檔集”。而后,方法300返回步驟301,以便對(duì)第二文檔集中的文檔繼續(xù)執(zhí)行處理。在步驟309,可以基于多種因素來(lái)確定移除哪些文檔。例如,在一個(gè)實(shí)施例中,可以對(duì)每個(gè)類(lèi)的文檔按照一定規(guī)則進(jìn)行排序,而后將排序高于預(yù)定閾值的文檔從文檔集移除。這些規(guī)則例如可以包括文檔的相似性、文檔與模板的相似性,等等。

例如,可以簡(jiǎn)單地將每個(gè)類(lèi)中的相似性高于預(yù)定閾值的文檔從文檔集中移除,然后對(duì)所獲得的文檔集繼續(xù)執(zhí)行步驟301。在一些實(shí)施 例中,針對(duì)方法的每輪迭代,用于移除部分文檔的閾值可以不同,并且可以針對(duì)性地進(jìn)行優(yōu)化。例如,如果在一個(gè)迭代中,用于移除部分文檔的閾值設(shè)置過(guò)低,則可能移除過(guò)多的文檔,從而導(dǎo)致與中心文檔相似性較低的文檔也被移除,這不利于被標(biāo)注的文檔的多樣性。在這種情況下,可以在下一個(gè)循環(huán)中,將用于移除部分文檔的閾值設(shè)置得更高。相反,如果在一個(gè)循環(huán)中,用于移除部分文檔的閾值設(shè)置過(guò)高,則可能移除了過(guò)少的文檔,從而導(dǎo)致與中心文檔相似性較高的文檔仍然被保留,在下一次循環(huán)中還需要被標(biāo)注,增加了專(zhuān)業(yè)人員的標(biāo)注的工作量。經(jīng)過(guò)多次循環(huán),可以確定合適的用于移除部分文檔的閾值。

根據(jù)一些實(shí)施例,如果從文檔集移除部分文檔后,文檔集為空,則表明在之前循環(huán)中,步驟309所設(shè)置的用于移除部分文檔的閾值可能不太合適,導(dǎo)致文檔集已經(jīng)為空,而模型的性能仍然不夠好(即,在步驟307處判斷的更新大于閾值)。此時(shí),響應(yīng)于該文檔集為空,可以將先前移除的除經(jīng)標(biāo)注的中心文檔之外的文檔添加到空文檔集中,從而形成第二文檔集。由于先前刪除的文檔中包括經(jīng)標(biāo)注的中心文檔,因此,在這一步驟中無(wú)需將經(jīng)標(biāo)注的中心文檔添加到該文檔集。在一些實(shí)施例中,可以將先前移除的文檔中除經(jīng)標(biāo)注中心文檔之外的、基于相同模板的文檔添加到該文檔集。由于在上述過(guò)程中,對(duì)異常文檔仍然進(jìn)行了標(biāo)注,并且還將距離該中心文檔的預(yù)定閾值內(nèi)的文檔移除,因此這些經(jīng)移除的文檔可以被認(rèn)定為基于與文檔集不同的模板生成的,因此,無(wú)需將這部分移除的文檔再添加到文檔集中,進(jìn)行標(biāo)注,從而可以提高標(biāo)注的效率。

經(jīng)過(guò)若干循環(huán)之后,方法300可以獲得性能較高的自然語(yǔ)言處理模型,并且保證專(zhuān)業(yè)人員標(biāo)注的工作量不會(huì)太大。

為了更清楚地解釋本公開(kāi)的原理,下面結(jié)合圖3描述一個(gè)具體示例。應(yīng)當(dāng)注意,該具體示例僅用于使得本領(lǐng)域技術(shù)人員對(duì)本公開(kāi)的原理具有更直觀的認(rèn)識(shí),并不旨在限制本公開(kāi)的范圍。

假設(shè)以醫(yī)療文檔處理為例,最初的文檔集中具有800個(gè)醫(yī)療文檔。在步驟301,對(duì)800個(gè)醫(yī)療文檔進(jìn)行聚類(lèi),例如聚類(lèi)成三個(gè)類(lèi),其中 第一個(gè)類(lèi)包括200個(gè)文檔,第二個(gè)類(lèi)包括250個(gè)文檔,第三個(gè)類(lèi)包括250個(gè)文檔。在步驟303,例如,從第一個(gè)類(lèi)的200個(gè)文檔中選擇5個(gè)中心文檔讓專(zhuān)業(yè)人員進(jìn)行標(biāo)注。在標(biāo)注完成之后,在步驟305,使用經(jīng)標(biāo)注的5個(gè)中心文檔來(lái)更新自然語(yǔ)言處理模型。例如,在該情況下為創(chuàng)建自然語(yǔ)言處理模型。然后在步驟307,判斷對(duì)自然語(yǔ)言處理模型的更新是否足夠大,由于創(chuàng)建模型是從無(wú)到有的過(guò)程,可以認(rèn)為更新足夠大,因此繼續(xù)到步驟309。在步驟309,從由800個(gè)文檔構(gòu)成的文檔集移除部分文檔。例如,根據(jù)相似性移除第一個(gè)類(lèi)中的50個(gè)文檔,這50個(gè)文檔包括經(jīng)標(biāo)注的5個(gè)文檔。然后,可以對(duì)文檔集中的剩余的750個(gè)文檔繼續(xù)進(jìn)行步驟301。

在第二個(gè)循環(huán)中,在步驟301,對(duì)750個(gè)醫(yī)療文檔進(jìn)行聚類(lèi),例如聚類(lèi)成三個(gè)類(lèi),其中第一個(gè)類(lèi)包括200個(gè)文檔,第二個(gè)類(lèi)包括200個(gè)文檔,第三個(gè)類(lèi)包括200個(gè)文檔。在步驟303,例如,從第一個(gè)類(lèi)的200個(gè)文檔中選擇5個(gè)中心文檔讓專(zhuān)業(yè)人員進(jìn)行標(biāo)注。在標(biāo)注完成之后,在步驟305,使用經(jīng)標(biāo)注的5個(gè)中心文檔來(lái)更新自然語(yǔ)言處理模型。例如,在該情況下為創(chuàng)建自然語(yǔ)言處理模型。然后在步驟307,判斷對(duì)自然語(yǔ)言處理模型的更新是否足夠大。例如,可以通過(guò)將更新前的自然語(yǔ)言處理模型(即,第一次循環(huán)中創(chuàng)建的自然語(yǔ)言處理模型)應(yīng)用于這5個(gè)中心文檔,并且比較模型的結(jié)果與人工標(biāo)注的結(jié)果之間的區(qū)別,如果區(qū)別大于預(yù)定閾值,則繼續(xù)步驟309。在步驟309,從由750個(gè)文檔構(gòu)成的文檔集移除部分文檔。這時(shí),可以調(diào)整用于移除部分文檔的閾值。例如,如果認(rèn)為在上個(gè)循環(huán)中移除過(guò)多的文檔,則在本次循環(huán)中可以增加用于移除部分文檔的閾值。例如,根據(jù)相似性移除第一個(gè)類(lèi)中的25個(gè)文檔,這25個(gè)文檔包括經(jīng)標(biāo)注的5個(gè)文檔。然后,可以對(duì)文檔集中的剩余的750個(gè)文檔繼續(xù)進(jìn)行步驟301。

備選地,例如,對(duì)于每個(gè)循環(huán),在步驟303處,還可以從第二個(gè)類(lèi)和第三個(gè)類(lèi)中也選擇一個(gè)或者多個(gè)(例如,5個(gè))中心文檔進(jìn)行標(biāo)注,在對(duì)三個(gè)類(lèi)都標(biāo)注完成之后,再前進(jìn)到步驟305,更新自然語(yǔ)言處理模型。

最終,經(jīng)過(guò)若干次的循環(huán),從800個(gè)文檔中提取出足夠多的信息,因此,在步驟307判斷出對(duì)自然語(yǔ)言處理模型的更新低于閾值,從而跳轉(zhuǎn)到步驟311,停止對(duì)自然語(yǔ)言處理模型的更新。

圖4示出了根據(jù)本公開(kāi)的示例性實(shí)施例的文檔處理設(shè)備400的框圖。如圖4所示,文檔處理設(shè)備400包括第一劃分裝置401、第一標(biāo)注裝置403和第一更新裝置405。

第一劃分裝置401被配置成基于第一文檔集中的文檔的相似性將第一文檔集劃分為多個(gè)類(lèi),該多個(gè)類(lèi)包括各自的中心文檔。根據(jù)一些實(shí)施例,第一劃分裝置401被進(jìn)一步配置成將第一文檔集劃分為多個(gè)類(lèi)包括對(duì)第一文檔集執(zhí)行聚類(lèi),以及其中中心文檔包括與聚類(lèi)的質(zhì)心的相似性大于預(yù)定閾值的文檔。

根據(jù)一些實(shí)施例,第一劃分裝置401被進(jìn)一步配置成以第一文檔集中的文檔為質(zhì)心執(zhí)行聚類(lèi),并且中心文檔為該質(zhì)心。

根據(jù)一些實(shí)施例,第一文檔集包括與醫(yī)學(xué)診療有關(guān)的文檔,并且其中第一劃分裝置401被進(jìn)一步配置成:根據(jù)醫(yī)療詞典對(duì)第一文檔集中的文檔進(jìn)行分段;以及根據(jù)經(jīng)分段的文檔之間的相似性來(lái)劃分第一文檔集。

根據(jù)一些實(shí)施例,第一劃分裝置401被進(jìn)一步配置成:根據(jù)第一文檔集中的文檔的詞頻-反向文檔頻率和語(yǔ)句順序中的至少一項(xiàng),來(lái)確定文檔的相似性;以及基于確定的相似性來(lái)劃分第一文檔集。

第一標(biāo)注裝置403被配置成使多個(gè)類(lèi)的中心文檔被標(biāo)注,該標(biāo)注至少包括對(duì)中心文檔中的語(yǔ)句的切分。第一更新裝置405被配置成基于該標(biāo)注更新用于標(biāo)注文檔的自然語(yǔ)言處理模型。

根據(jù)一些實(shí)施例,第一更新裝置405被進(jìn)一步配置成基于該標(biāo)注創(chuàng)建該自然語(yǔ)言處理模型。

根據(jù)一些實(shí)施例,第一更新裝置405包括:選擇單元,被配置成從經(jīng)標(biāo)注的文檔中選擇基于相同模板而生成的文檔;以及更新單元,被配置成基于選擇出的文檔來(lái)更新該自然語(yǔ)言處理模型。

根據(jù)一些實(shí)施例,設(shè)備400還包括:移除裝置,被配置成響應(yīng)于 對(duì)該自然語(yǔ)言處理模型的更新的量超過(guò)預(yù)定閾值,通過(guò)從第一文檔集移除部分文檔獲得第二文檔集;第二劃分裝置,被配置成基于第二文檔集中的文檔的相似性,將第二文檔集劃分為多個(gè)類(lèi);第二標(biāo)注裝置,被配置成使第二文檔集的多個(gè)類(lèi)的中心文檔被標(biāo)注;第二更新裝置,被配置成基于對(duì)第二文檔集的多個(gè)類(lèi)的中心文檔的標(biāo)注,更新該自然語(yǔ)言處理模型。

根據(jù)一些實(shí)施例,移除裝置被配置成響應(yīng)于第二文檔集為空,將先前移除的除經(jīng)標(biāo)注的中心文檔之外的文檔添加到第二文檔集。

根據(jù)一些實(shí)施例,移除裝置被進(jìn)一步配置成將先前移除的文檔中除經(jīng)標(biāo)注中心文檔之外的、基于相同模板的文檔添加到第二文檔集。

圖5示出了一個(gè)可以用來(lái)實(shí)施本公開(kāi)的實(shí)施例的設(shè)備500的框圖。如圖所示,設(shè)備500包括中央處理單元(cpu)501,其可以根據(jù)存儲(chǔ)在只讀存儲(chǔ)器(rom)502中的程序或者從存儲(chǔ)單元508加載到隨機(jī)訪問(wèn)存儲(chǔ)器(ram)503中的程序而執(zhí)行各種適當(dāng)?shù)膭?dòng)作和處理。在ram503中,還存儲(chǔ)有設(shè)備500操作所需的各種程序和數(shù)據(jù)。cpu501、rom502以及ram503通過(guò)總線504彼此相連。輸入/輸出(i/o)接口505也連接至總線504。

設(shè)備500中的多個(gè)部件連接至i/o接口605,包括:輸入單元606,例如鍵盤(pán)、鼠標(biāo)等;輸出單元607,例如陰極射線管(crt)、液晶顯示器(lcd)、揚(yáng)聲器等;存儲(chǔ)單元608,例如磁盤(pán)、光盤(pán)等;以及通信單元609,例如網(wǎng)卡、調(diào)制解調(diào)器等。通信單元609經(jīng)由諸如因特網(wǎng)的網(wǎng)絡(luò)執(zhí)行通信處理。

上文所描述的過(guò)程和處理,例如方法200或300可以由處理單元501執(zhí)行。例如,在實(shí)施例中,實(shí)現(xiàn)方法200或300的過(guò)程可以被實(shí)現(xiàn)為計(jì)算機(jī)軟件程序,其可被有形地包含在機(jī)器可讀介質(zhì)上。在這樣的實(shí)施例中,該計(jì)算機(jī)程序可以通過(guò)通信單元609從網(wǎng)絡(luò)上被下載和安裝,和/或借助于存儲(chǔ)單元508而被輸入設(shè)備500以供處理單元501執(zhí)行。

雖然已經(jīng)參考若干具體實(shí)施例描述了本公開(kāi),但是應(yīng)當(dāng)理解,本 公開(kāi)并不限于所公開(kāi)的具體實(shí)施例。本公開(kāi)旨在涵蓋所附權(quán)利要求的精神和范圍內(nèi)所包括的各種修改和等同方案。所附權(quán)利要求的范圍應(yīng)當(dāng)被給予最寬泛的解釋?zhuān)瑥亩羞@樣的修改及等效方案。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1