本說明書實施例涉及深度學(xué)習(xí)的,特別涉及一種數(shù)據(jù)構(gòu)建、代碼問答方法、任務(wù)平臺及代碼問答系統(tǒng)。
背景技術(shù):
1、隨著軟硬件開發(fā)的快速發(fā)展,代碼庫的規(guī)模和復(fù)雜性不斷增加,開發(fā)者面臨著如何高效利用這些龐大代碼資源的挑戰(zhàn)。在倉庫級代碼庫中,開發(fā)者常常需要在海量的代碼片段中快速找到相關(guān)信息,以解決代碼庫相關(guān)問題或進(jìn)行二次開發(fā),構(gòu)建針對代碼倉庫的自由問答模型的必要性越來越高。
2、目前,在構(gòu)建倉庫級代碼問答模型時,通用的問答模型無法有效處理代碼片段召回階段引入的噪聲代碼片段,進(jìn)而產(chǎn)生準(zhǔn)確度不足的答復(fù)效果,因此針對倉庫級代碼問答模型的數(shù)據(jù)構(gòu)建變得至關(guān)重要。
3、然而,構(gòu)建用于訓(xùn)練代碼問答模型的樣本數(shù)據(jù),往往依賴于人工標(biāo)注,這樣的方式對人員的專業(yè)素質(zhì)要求較高,成本高且效率不足,而采用全自動構(gòu)建的方式(例如,大語言模型和固定規(guī)則模板),由于無法對應(yīng)到代碼倉庫細(xì)節(jié),生成的樣本問題與代碼倉庫弱相關(guān),進(jìn)而降低了構(gòu)建得到的樣本問題和樣本答復(fù)的質(zhì)量,使得訓(xùn)練得到的代碼問答模型的性能不佳。因此,亟需一種高效且高質(zhì)量的樣本數(shù)據(jù)的自動構(gòu)建方法。
技術(shù)實現(xiàn)思路
1、有鑒于此,本說明書實施例提供了一種數(shù)據(jù)構(gòu)建方法。本說明書一個或者多個實施例同時涉及一種問答模型的訓(xùn)練方法,一種代碼問答方法,一種任務(wù)平臺,一種代碼問答系統(tǒng),一種數(shù)據(jù)構(gòu)建裝置,一種問答模型的訓(xùn)練裝置,一種代碼問答裝置,一種計算設(shè)備,一種計算機可讀存儲介質(zhì)以及一種計算機程序產(chǎn)品,以解決現(xiàn)有技術(shù)中存在的技術(shù)缺陷。
2、本說明書實施例的一個實施例中,提供了一種數(shù)據(jù)構(gòu)建方法,包括:
3、獲取第一代碼片段和針對第一代碼片段的初始樣本問題;
4、利用文本處理模型,基于代碼庫中樣本代碼倉庫的目錄結(jié)構(gòu)信息,對初始樣本問題進(jìn)行改寫,獲得樣本問題;
5、基于第一代碼片段和樣本問題,從代碼庫中召回相關(guān)的第二代碼片段;
6、利用文本處理模型,基于第二代碼片段,生成樣本問題對應(yīng)的樣本答復(fù),其中,樣本問題和樣本答復(fù)為用于訓(xùn)練代碼問答模型的樣本數(shù)據(jù),代碼問答模型適用于代碼倉庫。
7、本說明書一個實施例中,利用文本處理模型,基于代碼庫中樣本代碼倉庫的目錄結(jié)構(gòu)信息,對初始樣本問題進(jìn)行改寫,獲得特定于樣本代碼倉庫細(xì)節(jié)的、強相關(guān)的樣本問題,基于第一代碼片段和特定于樣本代碼倉庫細(xì)節(jié)的、強相關(guān)的樣本問題,從代碼庫中召回了相關(guān)的第二代碼片段,提升了代碼片段檢索召回的準(zhǔn)確性,利用文本處理模型,基于高質(zhì)量的第二代碼片段,生成準(zhǔn)確的樣本問題對應(yīng)的樣本答復(fù),獲得高準(zhǔn)確度的樣本問題和樣本答復(fù),實現(xiàn)了自動構(gòu)建得到高質(zhì)量的樣本數(shù)據(jù),不僅提升了數(shù)據(jù)構(gòu)建效率,降低了數(shù)據(jù)構(gòu)建成本,同時,高質(zhì)量的樣本數(shù)據(jù)使得訓(xùn)練得到的代碼問答模型,更適配于代碼庫中的代碼倉庫,可以完成適配于代碼倉庫的倉庫級、更高質(zhì)量的代碼問答處理,提升了用戶體驗。
1.一種數(shù)據(jù)構(gòu)建方法,包括:
2.根據(jù)權(quán)利要求1所述的方法,所述獲取第一代碼片段,包括:
3.根據(jù)權(quán)利要求2所述的方法,所述基于所述元數(shù)據(jù)信息,從所述代碼庫中召回相關(guān)的第一代碼片段,包括:
4.根據(jù)權(quán)利要求1所述的方法,所述獲取針對所述第一代碼片段的初始樣本問題,包括:
5.根據(jù)權(quán)利要求1-4任一項所述的方法,所述利用文本處理模型,基于代碼庫中樣本代碼倉庫的目錄結(jié)構(gòu)信息,對所述初始樣本問題進(jìn)行改寫,獲得樣本問題,包括:
6.根據(jù)權(quán)利要求5所述的方法,所述基于所述第一代碼片段和所述樣本問題,從所述代碼庫中召回相關(guān)的第二代碼片段,包括:
7.根據(jù)權(quán)利要求6所述的方法,所述基于所述第一代碼片段、所述關(guān)鍵詞信息和所述樣本問題,從所述代碼庫中召回相關(guān)的第二代碼片段,包括:
8.根據(jù)權(quán)利要求1-4任一項所述的方法,所述利用所述文本處理模型,基于所述第二代碼片段,生成所述樣本問題對應(yīng)的樣本答復(fù),包括:
9.一種問答模型的訓(xùn)練方法,包括:
10.一種代碼問答方法,包括:
11.一種任務(wù)平臺,包括樣本數(shù)據(jù)構(gòu)建接口和第一響應(yīng)單元;
12.根據(jù)權(quán)利要求11所述的任務(wù)平臺,還包括模型訓(xùn)練接口;
13.一種代碼問答系統(tǒng),包括問答接口和第二響應(yīng)單元;
14.一種計算設(shè)備,包括:
15.一種計算機可讀存儲介質(zhì),其存儲有計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至10任意一項所述方法的步驟。
16.一種計算機程序產(chǎn)品,包括計算機程序/指令,該計算機程序/指令被處理器執(zhí)行時實現(xiàn)權(quán)利要求1至10任意一項所述方法的步驟。