本技術(shù)涉及計算機(jī),特別是涉及一種服務(wù)實例部署方法、裝置、服務(wù)器及存儲介質(zhì)。
背景技術(shù):
1、ai(artificial?intelligence,人工智能)服務(wù)平臺可以支持?jǐn)?shù)以百計的模型服務(wù),各模型服務(wù)向業(yè)務(wù)方提供相應(yīng)的服務(wù)。為保證每一模型服務(wù)能夠并發(fā)的向不同的業(yè)務(wù)方提供服務(wù),ai服務(wù)平臺一般為每一模型服務(wù)部署多個服務(wù)實例,由這些服務(wù)實例并行處理業(yè)務(wù)方的不同服務(wù)請求。
2、相關(guān)技術(shù)中,ai服務(wù)平臺為每一模型服務(wù)部署服務(wù)實例時,一般是按照設(shè)置的固定數(shù)量進(jìn)行實例部署。然而業(yè)務(wù)方的服務(wù)請求中參數(shù)可能會發(fā)生變化,例如,請求處理的視頻分辨率變大、清晰度變高等,這都會導(dǎo)致服務(wù)實例需要處理的數(shù)據(jù)量變大,進(jìn)而導(dǎo)致服務(wù)實例處理相應(yīng)服務(wù)請求的時間變長。又由于每一模型服務(wù)的服務(wù)實例數(shù)量固定,這樣在某一模型服務(wù)的服務(wù)請求時間變長時,該模型服務(wù)沒有空閑服務(wù)實例,而其他模型服務(wù)的服務(wù)實例空閑的情況下,該沒有空閑服務(wù)實例的模型服務(wù)后續(xù)的服務(wù)請求難以被及時處理,而其他模型服務(wù)的服務(wù)實例所占用的計算資源卻被閑置,計算資源的利用率低。
技術(shù)實現(xiàn)思路
1、本技術(shù)實施例的目的在于提供一種服務(wù)實例部署方法、裝置、服務(wù)器及存儲介質(zhì),以使得服務(wù)平臺能夠及時處理業(yè)務(wù)方的服務(wù)請求,提高計算資源的利用率。具體技術(shù)方案如下:
2、在本技術(shù)實施的第一方面,首先提供了一種服務(wù)實例部署方法,所述方法包括:
3、獲得第一服務(wù)的效率描述信息,其中,所述效率描述信息用于描述所述第一服務(wù)的請求處理效率;
4、獲得所述第一服務(wù)的待處理請求的預(yù)期量和所述待處理請求的預(yù)期完成耗時;
5、根據(jù)所述效率描述信息、所述預(yù)期量和預(yù)期完成耗時,確定所述第一服務(wù)的實例的預(yù)期數(shù)量;
6、基于所述預(yù)期數(shù)量,部署所述第一服務(wù)的實例。
7、在一些實施例中,所述根據(jù)所述效率描述信息、所述預(yù)期量和預(yù)期完成耗時,確定所述第一服務(wù)的實例的預(yù)期數(shù)量,包括:
8、根據(jù)所述效率描述信息和所述預(yù)期量,確定所述第一服務(wù)依次響應(yīng)所述待處理請求的總耗時;
9、基于所述總耗時和所述預(yù)期完成耗時,獲得所述第一服務(wù)的實例的預(yù)期數(shù)量。
10、在一些實施例中,所述基于所述預(yù)期數(shù)量,部署所述第一服務(wù)的實例,包括:
11、基于當(dāng)前可用資源量和所述預(yù)期數(shù)量,確定所述第一服務(wù)的實例的待部署數(shù)量;
12、部署所述待部署數(shù)量個所述第一服務(wù)的實例。
13、在一些實施例中,所述基于當(dāng)前可用資源量和所述預(yù)期數(shù)量,確定所述第一服務(wù)的實例的待部署數(shù)量,包括:
14、若當(dāng)前可用資源量表征當(dāng)前可用資源不充足,則基于所述待處理請求的過期時間調(diào)整所述預(yù)期數(shù)量,得到所述第一服務(wù)的實例的待部署數(shù)量;
15、若當(dāng)前可用資源量表征當(dāng)前可用資源充足,則基于所述預(yù)期數(shù)量,確定所述待部署數(shù)量。
16、在一些實施例中,所述預(yù)期量根據(jù)以下請求量中至少一種確定:
17、請求消息隊列中未處理的所述第一服務(wù)的第一請求量;
18、設(shè)定時長內(nèi)待接收的所述第一服務(wù)的第二請求量。
19、在一些實施例中,所述獲得第一服務(wù)的效率描述信息,包括:
20、確定第一服務(wù)的樣本服務(wù)請求,并獲得所述樣本服務(wù)請求的數(shù)量,其中,所述樣本服務(wù)請求包括:設(shè)定歷史時長內(nèi)所述第一服務(wù)的服務(wù)請求和/或?qū)λ龅谝环?wù)進(jìn)行測試的服務(wù)請求;
21、獲得所述樣本服務(wù)請求的總處理耗時;
22、基于所述總處理耗時和所獲得數(shù)量,確定所述第一服務(wù)的效率描述信息。
23、在一些實施例中,所述獲得第一服務(wù)的效率描述信息,包括:
24、若檢測到以下情況中至少一種,獲得第一服務(wù)的效率描述信息:
25、所述第一服務(wù)的未處理服務(wù)請求數(shù)量大于第一數(shù)量;
26、所述第一服務(wù)的未處理服務(wù)請求的最大等待時長大于第一時長;
27、所述第一服務(wù)的配置被更新。
28、在本技術(shù)實施的第二方面,還提供了一種服務(wù)實例部署裝置,所述裝置包括:
29、第一獲得模塊,用于獲得第一服務(wù)的效率描述信息,其中,所述效率描述信息用于描述所述第一服務(wù)的請求處理效率;
30、第二獲得模塊,用于獲得所述第一服務(wù)的待處理請求的預(yù)期量和所述待處理請求的預(yù)期完成耗時;
31、確定模塊,用于根據(jù)所述效率描述信息、所述預(yù)期量和預(yù)期完成耗時,確定所述第一服務(wù)的實例的預(yù)期數(shù)量;
32、部署模塊,用于基于所述預(yù)期數(shù)量,部署所述第一服務(wù)的實例。
33、在一些實施例中,所述確定模塊,具體用于:
34、根據(jù)所述效率描述信息和所述預(yù)期量,確定所述第一服務(wù)依次響應(yīng)所述待處理請求的總耗時;
35、基于所述總耗時和所述預(yù)期完成耗時,獲得所述第一服務(wù)的實例的預(yù)期數(shù)量。
36、在一些實施例中,所述部署模塊,具體用于:
37、基于當(dāng)前可用資源量和所述預(yù)期數(shù)量,確定所述第一服務(wù)的實例的待部署數(shù)量;
38、部署所述待部署數(shù)量個所述第一服務(wù)的實例。
39、在一些實施例中,所述部署模塊,具體用于:
40、若當(dāng)前可用資源量表征當(dāng)前可用資源不充足,則基于所述待處理請求的過期時間調(diào)整所述預(yù)期數(shù)量,得到所述第一服務(wù)的實例的待部署數(shù)量;
41、若當(dāng)前可用資源量表征當(dāng)前可用資源充足,則基于所述預(yù)期數(shù)量,確定所述待部署數(shù)量。
42、在一些實施例中,所述預(yù)期量根據(jù)以下請求量中至少一種確定:
43、請求消息隊列中未處理的所述第一服務(wù)的第一請求量;
44、設(shè)定時長內(nèi)待接收的所述第一服務(wù)的第二請求量。
45、在一些實施例中,所述第一獲得模塊,具體用于:
46、確定第一服務(wù)的樣本服務(wù)請求,并獲得所述樣本服務(wù)請求的數(shù)量,其中,所述樣本服務(wù)請求包括:設(shè)定歷史時長內(nèi)所述第一服務(wù)的服務(wù)請求和/或?qū)λ龅谝环?wù)進(jìn)行測試的服務(wù)請求;
47、獲得所述樣本服務(wù)請求的總處理耗時;
48、基于所述總處理耗時和所獲得數(shù)量,確定所述第一服務(wù)的效率描述信息。
49、在一些實施例中,所述第一獲得模塊,具體用于:
50、若檢測到以下情況中至少一種,獲得第一服務(wù)的效率描述信息:
51、所述第一服務(wù)的未處理服務(wù)請求數(shù)量大于第一數(shù)量;
52、所述第一服務(wù)的未處理服務(wù)請求的最大等待時長大于第一時長;
53、所述第一服務(wù)的配置被更新。
54、在本技術(shù)實施的第三方面,還提供了一種服務(wù)器,包括處理器、通信接口、存儲器和通信總線,其中,處理器,通信接口,存儲器通過通信總線完成相互間的通信;
55、存儲器,用于存放計算機(jī)程序;
56、處理器,用于執(zhí)行存儲器上所存放的程序時,實現(xiàn)上述第一方面任一所述的方法的步驟。
57、在本技術(shù)實施的又一方面,還提供了一種計算機(jī)可讀存儲介質(zhì),所述計算機(jī)可讀存儲介質(zhì)內(nèi)存儲有計算機(jī)程序,所述計算機(jī)程序被處理器執(zhí)行時實現(xiàn)上述第一方面任一所述的方法的步驟。
58、在本技術(shù)實施的又一方面,還提供了一種包含指令的計算機(jī)程序產(chǎn)品,當(dāng)其在計算機(jī)上運行時,使得計算機(jī)執(zhí)行上述第一方面任一所述的方法的步驟。
59、本技術(shù)實施例提供的技術(shù)方案中,服務(wù)平臺中的管理設(shè)備先獲得描述第一服務(wù)的請求處理效率的效率描述信息、第一服務(wù)待處理請求的預(yù)期量、以及待處理請求的預(yù)期完成耗時,再根據(jù)獲得的效率描述信息、預(yù)期量和預(yù)期完成耗時,確定在預(yù)期完成耗時內(nèi)完成待處理請求所需實例的預(yù)期數(shù)量,并基于預(yù)期數(shù)量部署實例。
60、這樣,管理設(shè)備可以根據(jù)當(dāng)前第一服務(wù)的請求處理效率,以及第一服務(wù)的待處理請求的預(yù)期量,及時調(diào)整部署的實例數(shù)量。在第一服務(wù)的實例請求處理效率下降時,管理設(shè)備會為第一服務(wù)部署更多的實例,從而能夠同時處理更多的請求,加快請求處理進(jìn)度,避免因為某些請求中的數(shù)據(jù)量增大拖延第一服務(wù)其他請求的處理進(jìn)度。這樣,服務(wù)平臺就能夠及時響應(yīng)業(yè)務(wù)方的服務(wù)請求。而對于請求處理效率較高或者待處理請求較少的第一服務(wù),管理設(shè)備會為該第一服務(wù)部署較少的實例,避免由于該第一服務(wù)的服務(wù)實例閑置造成服務(wù)實例所占用的計算資源的浪費,進(jìn)而提高了計算資源的利用率。