首頁|必讀|視頻|專訪|運營|制造|監(jiān)管|大數據|物聯(lián)網|量子|低空經濟|智能汽車|特約記者
手機|互聯(lián)網|IT|5G|光通信|人工智能|云計算|芯片|報告|智慧城市|移動互聯(lián)網|會展
首頁 >> 人工智能 >> 正文

面向人工智能的數據治理框架

2025年2月18日 10:36  大數據期刊  作 者:李繼峰 張成龍 劉鑫 陳勁宇 張津銘 畢超

摘 要 

數據對人工智能的開發(fā)應用具有至關重要的作用,這已成為工業(yè)界和學術界的共識。基于人工智能與數據的互動關系,以及以數據為中心的開發(fā)實踐,提出面向人工智能的數據治理框架,包含源數據治理、預訓練數據治理、評測數據治理、微調數據治理、推理數據治理和運維數據治理6個方面,每個方面都有其重點任務和技術。同時,深入分析ChatGPT、Ziya2和能源領域部分人工智能模型的數據治理案例和成功經驗,以驗證該框架的有效性。結果表明,該框架在提高人工智能模型性能、優(yōu)化數據管理流程等方面具有積極作用,對面向人工智能的數據治理的理論和技術創(chuàng)新具有參考價值。

關鍵詞 

人工智能;源數據治理;預訓練數據治理;評測數據治理;微調數據治理;推理數據治理;運維數據治理

引言

在1956年達特茅斯會議上,人工智能(artificial intelligence,AI)作為獨立研究領域被提出,其后經歷了多個發(fā)展階段,包括早期的探索期、研究的低谷期以及近年來的快速發(fā)展期。AI是一個多維度、跨學科的研究領域,旨在通過計算機科學和工程學的方法模擬、延伸和擴展人類的智能。從廣義上講,AI使用計算機系統(tǒng)來執(zhí)行部分需要人類智能的任務,如視覺感知、語言理解、決策制定和翻譯,其應用范圍非常廣泛,包括但不限于專家系統(tǒng)、自然語言處理、機器學習、模式識別、人工神經網絡等,這些技術被應用于工業(yè)、醫(yī)療、金融、安防等多個領域,極大地提高了人們的工作效率和生活質量。

AI的發(fā)展依賴于多種技術和要素,包括基礎理論和算法、存儲、計算、通信、數據以及相關軟硬件的協(xié)同優(yōu)化等。其中,大規(guī)模、高質量的數據是AI系統(tǒng)的基礎,有效的數據收集、處理、分析等治理技術對于AI系統(tǒng)至關重要,直接影響著AI系統(tǒng)的性能。AI系統(tǒng)的開發(fā)應用離不開數據治理,從理論和實踐的角度,面向AI的數據治理技術框架值得深入研究和探討。

1 面向AI數據治理的理論分析

1.1 數據治理與AI發(fā)展的關系

數據治理是一套組織策略和實踐,通過制定和實施一系列政策、標準、責任和流程來管理、使用和保護數據,以保證數據的準確性、完整性、可用性、安全性、合規(guī)性,核心目標是提高數據質量。

AI的發(fā)展與數據治理密切相關,良好的數據治理是AI發(fā)展的前提條件,而AI技術的應用進一步提高了數據治理的能力和效率。數據治理通過數據清洗、去重和標準化等手段提高數據質量,高質量的數據可以顯著提升AI模型的性能和可靠性。此外,數據治理需確保數據處理過程符合法律法規(guī),保護個人隱私數據,這對于建立大眾對AI系統(tǒng)的信任至關重要。AI技術在數據治理中發(fā)揮著越來越重要的作用,它不僅提升了數據處理的效率和質量,還增強了數據的安全性和合規(guī)性,推動數據治理向智能化和自動化方向發(fā)展。例如,AI系統(tǒng)能夠自動化地進行數據收集、清洗、轉換和集成等步驟,顯著提高數據治理的效率和準確性;AI可用于數據加密存儲和傳輸、訪問控制等,提升了數據的安全性,同時AI還能自動識別和處理潛在的安全威脅,保障數據免受攻擊。

1.2 面向AI進行數據治理的必要性

數據是AI發(fā)展的核心要素和關鍵基礎。隨著AI技術的不斷進步,對數據的需求量和質量要求也在不斷提高。因此,建立有效的數據治理框架,確保數據的準確性、完整性和安全性,是推動AI發(fā)展的基礎。合理的數據治理可實現數據的共享和復用,充分挖掘數據價值和提高數據利用效率,從而降低AI系統(tǒng)的開發(fā)和運營成本,推動AI技術和產業(yè)健康發(fā)展。數據治理有助于提高AI系統(tǒng)的可信度、可靠性和安全性。規(guī)范數據的采集、存儲和使用過程,可以減少數據偏差和數據錯誤,從而提高AI系統(tǒng)的決策準確性和穩(wěn)定性。隨著AI技術的廣泛應用,個人數據的采集和使用越來越普遍,建立完善的數據治理體系、加強數據安全和隱私保護,有助于建立大眾對AI的信任。

1.3 面向AI進行數據治理的理論邏輯

AI系統(tǒng)的全生命周期主要包括系統(tǒng)規(guī)劃與需求分析、預訓練、評測、微調、部署與推理、維護與退役6個階段。數據治理貫穿AI系統(tǒng)的整個生命周期,從系統(tǒng)規(guī)劃到退役,每個階段都有特定的數據治理任務,以確保數據的質量、安全和合規(guī)性,為AI系統(tǒng)的開發(fā)應用提供基礎支撐(AI系統(tǒng)與數據治理全生命周期各階段的對應關系見表1)。

表1   AI系統(tǒng)與數據治理的生命周期對應關系

在AI系統(tǒng)的規(guī)劃與需求分析階段,確定AI系統(tǒng)的目標、范圍和需求(包括數據需求、功能需求和性能需求),需對源數據進行治理。數據治理包括確定數據需求、數據質量標準和數據安全要求。該階段需要對數據源進行評估,確保其可靠性、多樣性和相關性。

在AI系統(tǒng)的預訓練階段,準備和處理數據,選擇合適的算法和模型,進行模型的訓練和優(yōu)化,以達到預期的性能指標,需對預訓練數據進行治理,治理的重點是對數據進行清洗、轉換和增強,以滿足模型訓練的要求。這包括處理缺失值、異常值和噪聲數據,以及進行特征選擇等。

在AI系統(tǒng)的評測階段,對訓練好的模型進行評估(包括性能測試、泛化能力和魯棒性測試),以及進行必要的調整和優(yōu)化。為持續(xù)提升AI系統(tǒng)性能、避免出現預訓練數據被污染(即評測數據被包含在預訓練數據集中,從而影響模型評估結果)等情況,AI系統(tǒng)的評測數據不能一成不變,需要適應AI系統(tǒng)性能的提升、工程應用場景的拓展、預訓練數據的變化等情況。需對評測數據的多樣性與代表性、質量與準確性、規(guī)模與結構、復雜性與邏輯性、公平性與無偏性等進行全面動態(tài)的治理,以客觀反映AI系統(tǒng)的實際性能和任務表現。

在AI系統(tǒng)的微調階段,為確保AI系統(tǒng)能夠在具體應用場景中具有良好的適應性和泛化能力,需要對微調指令數據集進行治理,以便AI系統(tǒng)從微調指令數據集中充分學習到具體場景涉及的專業(yè)知識和能力。

在AI系統(tǒng)的部署與推理階段,應用AI系統(tǒng)進行推理、預測或生成,并監(jiān)控系統(tǒng)的性能和可靠性,確保滿足用戶的需求,需從推理數據的輸入出發(fā),系統(tǒng)化治理推理數據,關注實時數據的質量監(jiān)控和異常檢測,以確保模型在生產環(huán)境中的推理準確性和穩(wěn)定性。同時,需要管理數據的訪問權限,保護用戶隱私。

在AI系統(tǒng)的維護與退役階段,定期更新和維護系統(tǒng),處理數據和模型漂移,以及在系統(tǒng)不再滿足需求或無法繼續(xù)使用時,進行退役和數據的歸檔或銷毀,需對運維數據進行治理,包括對系統(tǒng)日志、性能指標等數據的收集和分析,用于系統(tǒng)的故障診斷和性能優(yōu)化。在系統(tǒng)退役時,還要對數據進行歸檔或銷毀,以遵循合規(guī)要求。

2 面向AI的數據治理實踐范式

2.1 以數據為中心的AI

在早期階段,AI研究的重點是在給定數據集的前提下,優(yōu)化模型架構算法設計。然而,局限于給定數據集,把過多注意力聚焦于模型的參數、結構或算法,并不能確保AI模型在現實應用中表現優(yōu)秀。因為實際任務的數據對于解決實際問題非常重要,通常模型難以從一個領域泛化到另一個領域。更進一步,忽視數據質量與多樣性可能引發(fā)的數據級聯(lián)效應,導致準確性下降和持續(xù)存在偏差等負面后果,這些問題在高風險領域的AI應用中尤為嚴重。

鑒于此,學術界和產業(yè)界的關注點逐漸轉向以數據為中心的AI,致力于實現數據的高質量和多樣性。以數據為中心的AI強調在模型架構算法相對穩(wěn)定的情況下,提升數據的質與量。盡管這一轉變仍在進行中,但已有許多成功案例證明了這種范式的優(yōu)勢。

2.2 以數據為中心與以模型為中心的關系

以數據為中心的AI方法并不是要取代以模型為中心的方法,而是二者相互補充,共同推動AI系統(tǒng)的發(fā)展。一方面,以模型為中心的技術可以支持以數據為中心的技術的目標實現。例如,可以利用生成模型(如生成對抗網絡和擴散模型)進行數據增強,從而生成更多高質量的數據樣本。另一方面,以數據為中心的方法也能夠促進以模型為中心的技術的進步。例如,數據可用性的提高可能會推動模型設計的進一步創(chuàng)新和改進。因此,在現實生產環(huán)境中,數據和模型往往是相互影響、交替演進的,以適應不斷變化的環(huán)境需求。

數據和模型之間的界限逐漸模糊。傳統(tǒng)上,數據和模型被視為兩個獨立的概念。然而,隨著模型能力的增強,算法、架構、參數等模型本身要素已轉變?yōu)橐环N特殊形式的數據,可視為數據的載體。通過精心設計的提示,人們利用大語言模型(large language model,LLM)生成所需的數據,而這些數據又可以被用來進一步訓練模型。這種方法的潛力已在GPT-4模型上得到了初步驗證。

2.3 面向AI數據治理的重點任務

按照以數據為中心的AI實踐范式,基于數據治理的全生命周期以及大語言模型開發(fā)應用的全過程,面向人工智能的數據治理重點任務及相關技術如下。

一是源數據的治理。根據AI系統(tǒng)規(guī)劃設計目標,主要從源頭和供給側解決大語言模型訓練耗費數據量大、耗費速度快,可能引起“數據短缺”的問題,同時也解決數據質量不高的問題,以推動訓練數據有較為穩(wěn)定的“源頭活水”。

二是預訓練數據的治理。預訓練數據的治理旨在構建豐富多樣且高質量的數據集,以支持機器學習模型的訓練,包括數據收集、數據準備、數據濃縮和數據增強。

三是評測數據的治理。這些評測數據集能夠對模型的性能進行全面客觀的評價,為模型優(yōu)化升級提供動力,包括同分布評測、異分布評測和評測數據集構建與治理。

四是微調數據的治理。微調數據的治理涉及數據收集、清洗、標注、驗證和持續(xù)監(jiān)控,以確保模型系統(tǒng)能夠進一步學習專業(yè)領域數據的知識,在特定場景任務上具備應有的性能和可靠性。

五是推理數據的治理。其重點是在大語言模型運行推理過程中,通過一些特定的數據設定和輸入,或者利用工程化的數據輸入來激發(fā)模型的特定功能,提高模型的推理性能。

六是運維數據的治理。人工智能持續(xù)發(fā)展需要不斷地維護更新相關基礎數據,運維數據治理的目標是在不斷變化的環(huán)境中確保數據的質量和可靠性,包括數據理解、數據質量保證、數據存儲與檢索、數據安全治理及合規(guī)處置數據與知識數據遷移。

3 面向AI數據治理的技術框架

3.1 源數據的治理

數據是大語言模型的基礎,為了提升大語言模型的性能,加強數據源頭治理是關鍵。數據源主要分為通用數據和專業(yè)數據兩大類。由于規(guī)模大、多樣性高和易于獲取,通用數據(如網頁、圖書、新聞和對話文本)對于大語言模型的建模能力和泛化能力至關重要。專業(yè)數據(如多語言數據、科學數據、代碼和特定領域資料)在提升通用大語言模型的性能方面占比較低,但能夠有效提升模型在特定任務上的解決能力。

在通用數據方面,網頁數據的數量最大,其內容的多樣性有助于大語言模型獲取豐富的語言知識。然而,網絡數據的處理和篩選是復雜的,需要去除低質量內容(如垃圾郵件),以確保數據質量。對話數據(如社交媒體評論和聊天記錄)對于提升模型的對話能力和問答任務表現有顯著效果,但其收集和處理相對困難。書籍數據作為人類知識的重要載體,能夠豐富模型的詞匯量和理解能力,尤其是在理解長文本結構和語義連貫性方面可發(fā)揮重要作用。

在專業(yè)數據方面,多語言數據在提升模型的多語言理解和生成能力方面發(fā)揮著關鍵作用。科學文本數據(如教材、論文和百科)對于提升模型在理解科學知識方面的能力具有重要意義。代碼作為一種格式化語言,具有長程依賴和準確的執(zhí)行邏輯,其語法結構、關鍵詞和編程范式對生成式人工智能的生成功能起著重要作用。編程問答社區(qū)和公共軟件倉庫是代碼數據的主要來源,提供了豐富的語境和真實世界中的代碼使用場景。

隨著模型的復雜度的提高和規(guī)模的擴大,其對數據的需求也在不斷增加。例如,OpenAI的GPT-3模型接受的數據訓練量達到了3 000億token,而2023年谷歌推出的新一代語言模型PaLM 2的token數量已經突破了3.6萬億。對數據的持續(xù)需求可能導致訓練數據枯竭。為了解決數據枯竭的問題,必須加強源頭數據治理,從供給側拓寬數據來源,從源頭上增加數據規(guī)模,提高數據質量。例如:在宏觀政策層面,加快數字化轉型,推動產業(yè)數字化、治理數字化進程;在中觀層面,推動行業(yè)、區(qū)域數字化轉型和數據治理;在微觀層面,鼓勵引導企業(yè)等主體參與產業(yè)數字化,將更多的實體關系、經營活動、知識積累轉化為高質量的數據資源、數據資產。

3.2 預訓練數據的治理

預訓練數據為AI模型構建基石,模型的性能在很大程度上取決于數據的質量和數量。預訓練數據治理旨在收集并生成豐富且高質量的訓練數據,以支持AI模型的訓練。

3.2.1 數據收集

傳統(tǒng)上,數據集構建從零開始,通過人工收集相關信息來完成,這一過程極為耗時。隨著技術的進步,數據集發(fā)現、數據集成、數據合成等一系列更加高效的方法被提出和應用,較好地提高了數據收集的效果。

數據集發(fā)現是訓練數據收集的第一步,旨在識別和選擇與目標任務相關的高質量數據集。選擇合適的數據集能夠確保模型在訓練過程中接觸到多樣化且具有代表性的信息,從而提高模型的泛化能力。數據集發(fā)現主要包括以下任務:一是數據源識別,確定潛在的數據源,包括公開數據集、學術資源、互聯(lián)網內容等;二是數據集評估, 評估數據集的質量、規(guī)模、多樣性和相關性,以確保其適用于預訓練;三是數據許可與合規(guī)管理,確保數據集的使用符合相關法律法規(guī)和倫理標準,包括數據隱私和版權問題。數據集成是將不同數據源的數據進行整合和統(tǒng)一的過程,以創(chuàng)建一個大規(guī)模、多樣化且一致的訓練數據集。數據集成可以消除“數據孤島”,提高數據的可用性和一致性,從而提升模型的訓練效果。

數據集成主要包括以下步驟:一是數據清洗與預處理,去除數據中的噪聲、錯誤和冗余信息,進行格式轉換和標準化,以確保數據的一致性和質量;二是數據融合與匹配,將來自不同數據源的數據進行融合,采用實體匹配和數據對齊技術解決數據沖突和不一致問題;三是數據增強,采用數據擴充、數據變換等增強技術,增加數據的多樣性和規(guī)模,以提高模型的魯棒性和泛化能力。

數據合成是通過生成新的數據樣本來補充現有數據集的過程,以解決數據稀缺或不平衡的問題。數據合成可以增加數據的多樣性和擴大數據的覆蓋范圍,從而提升模型的訓練效果和魯棒性。

數據合成主要包括以下內容:一是構建數據生成模型,基于已有真實數據或數據規(guī)律構造生成模型;二是使用生成模型(如生成對抗網絡、變分自編碼器等)生成新的數據樣本,以模擬真實數據的分布和特征;三是數據增強與混合,采用數據插值、數據融合等數據增強和混合技術,將生成的數據與現有數據相結合,以增加數據的多樣性和規(guī)模;四是數據評估與驗證,評估合成數據的質量和有效性,確保其與真實數據具有相似的分布和特征,以避免對模型訓練產生負面影響。

3.2.2 數據準備

數據準備是將原始數據轉換為適合AI模型訓練的格式的過程。數據準備是非常重要的一步,因為原始數據通常存在噪聲、不一致性和無關信息,如果不進行適當的清洗和轉換,會導致模型過擬合、泛化能力不足等問題。

數據準備包括以下步驟:一是數據清洗,識別并修正數據中存在的錯誤、不一致和不準確等問題,如填補缺失值、去除重復數據等;二是特征提取,從原始數據中提取相關的特征,如圖像的顏色、紋理特征,時間序列數據的統(tǒng)計和頻譜特征等;三是特征轉換,將原始特征轉換為新的特征,以提高模型性能,如歸一化、標準化、對數變換等。

3.2.3 數據濃縮

數據濃縮通過減少數據的特征數量或樣本數量來降低數據復雜度,同時盡可能保留數據的關鍵信息。它有助于減少對內存和計算資源的需求,提高模型訓練和部署的效率;緩解過擬合的情況,提高模型的泛化能力;提高模型的可解釋性,使模型更容易理解。

數據濃縮的主要方法有:一是特征規(guī)模壓降,選擇最相關的特征子集,具體包括過濾法、包裹法和嵌入法;二是維度壓降,將高維特征映射到低維空間,如主成分分析(PCA)和線性判別分析(LDA)等線性方法,以及自編碼器等非線性方法;三是實例選擇,選擇最具代表性的樣本子集,包括基于模型性能的包裹法和基于統(tǒng)計特性的過濾法。

3.2.4 數據增

數據增強是一種通過人工創(chuàng)造新的訓練樣本來增加數據集大小和多樣性的技術,其主要目的如下。一是提高模型的準確性、泛化能力和魯棒性,F代機器學習算法通常需要在大量數據上學習,但獲取大規(guī)模數據困難且耗時,數據增強通過自動化生成相似的新樣本來解決數據不足的問題。二是緩解數據類別不平衡的情況。數據增強可以通過增加對少數類別的數據樣本的采樣來平衡數據分布。

數據增強的主要方法如下:一是基本簡易操作方法,如圖像的縮放、旋轉、翻轉、模糊化處理等,這類方法直接對原始數據進行簡單的變換;二是數據合成方法,利用生成模型學習數據的分布,并生成新的合成樣本,這類方法從全局角度學習數據模式,生成更具有代表性的新樣本;三是針對數據類別不平衡的方法,如合成少數類過采樣技術(synthetic minority over-sampling technique,SMOTE)、自適應合成(adaptive synthetic,ADASYN)采樣方法等在少數類別樣本附近插值生成新樣本。SMOTE是一種針對數據類別不平衡問題的數據增強方法,通過在少數類別樣本與其最近鄰樣本之間進行線性插值來生成新的合成樣本,這可以有效增加少數類別的樣本數量,緩解類別不平衡的情況。ADASYN是SMOTE的一種擴展方法,根據每個少數類別樣本的學習難度(由其最近鄰樣本中的多數類別樣本比例決定)來動態(tài)調整生成新樣本的數量。對于那些更難學習的少數類別樣本,該方法會生成更多的合成樣本,這可以進一步提高模型對少數類別的學習能力。

3.3 評測數據的治理

評測數據治理的目標在于順應AI大語言模型技術發(fā)展的趨勢和實際應用場景的需要,構造合理的評測數據集,并適時更新或升級此數據集,以對大語言模型的綜合性能和單項能力進行評定。

3.3.1 同分布評測

同分布評估是指生成符合訓練數據分布的樣本作為評測數據集,以評估模型在特定子群體上的性能,并驗證檢查模型的性能邊界。同分布評估旨在更細粒度地評估模型的性能,以發(fā)現其在特定子群體上的不足,并檢查模型的倫理合規(guī)性,這對于構建可靠和安全的AI系統(tǒng)至關重要。這種評測方式有以下作用。一是發(fā)現模型在哪些訓練數據集的子集上性能欠佳。模型在整體上表現良好,但可能會在某些特定訓練數據子集上表現不佳,需要識別這些代表性的子集并進行調整,以避免出現偏差和錯誤,特別是在高風險應用中。二是分析驗證模型的能力邊界。理解模型的決策邊界并在部署前檢查其倫理合規(guī)性是至關重要的,尤其是在涉及政策制定等的高風險應用中。

同分布評測主要方法包括:一是數據切片方法,將數據集劃分為相關的子群體,并分別評估模型在每個子群體上的性能,這可以使用預定義的標準(如年齡、性別、種族等)或自動化的切片方法;二是算法可解釋性方法,生成一組假設性樣本,這些樣本可以改變模型的決策結果,幫助識別導致模型預測錯誤的最小輸入變化,以檢查模型的決策邊界。

3.3.2 異分布評測

異分布評測使用與訓練數據分布不同的樣本作為評測數據集,以全面評估模型的性能,為模型部署前的安全性和可靠性提供保障。其主要作用如下:一是評估模型在意外場景下的泛化能力,訓練數據和實際部署環(huán)境的數據分布可能存在差異,異分布評測可以揭示模型在這種差異情況下的表現;二是檢測模型的魯棒性,將生成對抗樣本作為評測數據集以發(fā)現模型存在的弱點,從而采取措施提高模型的安全性。

異分布評測的方法主要有:一是將生成對抗樣本作為評測數據,通過對輸入數據施加人為擾動,制造能夠誤導模型的樣本,評估模型的魯棒性;二是將生成分布偏移樣本作為評測數據,通過偏斜采樣或學習生成模型的方式,構造與訓練數據分布不同的樣本數據作為評測數據,評估模型在分布差異下的表現。

3.3.3 評測數據集的治理

評測數據集是評估和比較不同模型性能的關鍵工具。評測數據集的治理需要關注以下幾個方面。一是評測數據集的數量。大語言模型開發(fā)應用進入快速發(fā)展階段,單模態(tài)、多模態(tài)、通用型、垂直型等各類大語言模型不斷涌現,需要更多類型、更多數量的評測數據集對各類大語言模型進行評測,但目前評測數據集的類型和數量都相對較少。二是評測數據集的質量。其對于提高模型評估的準確性至關重要,直接影響評測結果的準確性和可靠性,直接或間接影響大語言模型開發(fā)應用各環(huán)節(jié)的數據治理效果。三是評測數據集的設計和選擇。設計選擇評測數據集,還應考慮信度、效度和難度等因素,以確保數據集能夠有效地反映模型的真實性能。即使是小型或合成的數據集也能夠驅動模型創(chuàng)新,在選擇評測數據集時,不僅要考慮數據的規(guī)模,還要考慮其能否全面覆蓋模型應用場景中可能出現的各種情況。四是評測數據集的多樣性和代表性。高階多數據集建模的研究表明,利用多模態(tài)、多類型的數據集可以更有效地解決傳統(tǒng)數據處理和分析方法失效的問題,在設計評測數據集時,應盡可能地考慮數據的多樣性和代表性,以確保模型能夠在多種不同的場景下被有效評估。五是評測數據集的隱私保護和用戶參與問題。在設計和使用評測數據集時,必須平衡數據質量與數據隱私、用戶權益保護。

大語言模型評測數據集治理面臨的問題包括但不限于評測數據集的數量、質量、設計和選擇、多樣性和代表性以及隱私保護等方面。需要綜合考慮數據集的設計原則、應用場景以及技術手段等,以確保評測數據集能夠有效地支持大語言模型的性能評估和優(yōu)化。

3.4 微調數據的治理

大語言模型經過預訓練具備了通用知識能力,要將其應用于具體的行業(yè)實際,還需具備行業(yè)的專業(yè)知識和能力,這需要借助指令微調來實現。指令微調的基礎是構建指令微調數據集,讓大語言模型在指令微調數據集上進行學習,要使大語言模型取得預期的微調效果,需對微調數據集進行科學有效的治理。

3.4.1 數據標注

數據標注是為數據集中的元素分配描述性標簽的過程,對于大語言模型微調至關重要,因為大語言模型微調使用的數據最好是標注過的高質量數據。傳統(tǒng)上,因極其耗時且資源密集,尤其在處理大規(guī)模數據集時,數據標注面臨巨大挑戰(zhàn)。近年來,研究焦點逐漸轉向通過減少人工干預同時保持標簽準確性的方式來提升標注效率。具體策略包括利用未標注數據的半監(jiān)督學習和主動學習方法,減少對顯式標簽的需求,以及通過眾包技術加速標注過程,盡管這帶來了數據一致性和質量控制的新難題。此外,先使用預訓練模型進行初步標注、再由專家審核的半自動標注工具的開發(fā)應用,已成為有效降低數據標注勞動強度的途徑。

3.4.2 指令微調

數據集的治理雖然經過大規(guī)模預訓練,模型能夠捕獲語言的普遍規(guī)律和潛在知識,模型最初的設計目標是預測文本序列中的下一個詞,這限制了模型直接理解和執(zhí)行詳細指令的能力。指令微調使大語言模型學習有標注的特定任務數據,熟悉如何解讀和響應具體的指令性文本,從而實現從通用語言理解向任務導向型智能的轉變。有效構建、治理指令微調數據集是進行指令微調、確保模型性能的關鍵步驟,具體策略和方法如下。

一是注重指令數據的來源和收集。從公開數據集、人類標注數據、自動生成數據等多渠道收集高質量數據,挖掘合適的指令模板,或使用種子指令進行改寫,形成指令和對應輸出的數據配對,從而提高指令數據的多樣性,確保數據集覆蓋多種指令類型和領域,以提高模型的泛化能力。

二是注重數據標注和管理。統(tǒng)籌自動標注和人工標注,為指令數據添加高質量的標簽。借助自動標注平臺或工具提高標注效率,如利用預訓練模型生成初步的指令和輸出,然后進行人工審核和修正。利用人工標注提高準確性,專業(yè)人員進行高質量的數據標注,可確保數據的準確性和倫理合規(guī)性。加強數據版本控制,使用版本控制系統(tǒng)管理數據集的不同版本,確保數據的可追溯性。

三是注重數據預處理。進行數據清洗,去除噪聲數據和不一致的指令-輸出對。對數據進行標準化處理,統(tǒng)一指令和輸出格式,以便模型更好地理解和處理指令微調數據。進行數據增強,通過同義詞替換、隨機插入或者刪除等操作增加數據的多樣性。

四是注重數據集評估和驗證。對數據集開展質量評估,建立包括準確性、及時性、一致性等在內的客觀指標,以及專家評估的主觀指標,定期評估指令數據的質量。結合運用自動評估和人工評估方法:自動評估可使用BLEU、ROUGE等指標評估微調數據集的質量;人工評估即通過人工審核數據集,確保指令和輸出的準確性和一致性。根據評估結果,采取數據清洗、特征工程等措施來提高指令數據的質量。

五是注重數據集組合。多任務微調可提升大語言模型的泛化性能,增加微調任務數量的好處在不同規(guī)模模型上得到了驗證,因此,有必要組合多個不同任務構成具有多樣性的指令微調數據集。不同任務數據的混合比例很關鍵,通常由實驗和經驗決定。為了讓大語言模型解決特定任務,可依據表示相似性和梯度相似性選擇相關多任務子集。但是需注意,不同任務間可能存在沖突,組合數據量過大可能因數據格式和分布的相似性削弱模型能力。

六是注重數據集的持續(xù)改進。建立反饋機制,收集模型在實際應用中的表現,持續(xù)改進數據集。定期更新數據集,確保數據集的時效性和相關性。同時,加強數據集的文檔和元數據管理。詳細記錄數據集的來源、構建方法、標注過程和使用說明,確保數據的透明性和可追溯性。管理數據集的元數據,包括數據格式、標注信息、使用場景等,方便檢索和使用數據。

3.5 推理數據的治理

推理數據治理是指在應用大語言模型進行推理的過程中,根據具體應用場景或執(zhí)行推理任務的特點,有針對性地設計數據輸入或者指令提示,嵌入必要的檢索增強數據知識庫,引入思維鏈,激發(fā)模型的特定能力,提高推理決策的準確性。

3.5.1 提示工程的數據治理

提示工程是一種通過設計和構建高質量的模型輸入提示來實現特定任務的方法。它通過設計構造輸入數據而不是調整模型本身來達到預期目標,可以指導大語言模型完成復雜的任務,相比于微調模型更加靈活高效,可以快速探索模型的知識能力。

為更好地提升模型推理性能,有必要從數據生成、質量控制、存儲檢索等多個角度對提示工程數據集進行系統(tǒng)性的設計、優(yōu)化和治理,以確保提示數據的高質量和可用性。一是手動設計提示模板并自動生成提示數據集?梢詮耐獠空Z料庫中挖掘模板,或使用種子提示進行改寫,以豐富提示的多樣性。二是采用梯度搜索或生成模型等學習方法自動生成提示。該方法可更有效地探索模型的知識,發(fā)現最優(yōu)的提示。三是建立提示工程數據質量評估機制。定期檢查提示數據集的質量,并采取措施進行改進。使用機器學習模型自動檢測數據質量問題,并通過人工參與等方式持續(xù)優(yōu)化數據質量。四是設計高效的提示數據存儲和檢索系統(tǒng)。為確保在模型部署、推理時能夠快速獲取所需的提示數據,可以采用資源分配優(yōu)化、查詢加速等方法來提高提示數據的獲取效率。

3.5.2 檢索增強生成的數據治理

檢索增強生成(retrieval-augmented generation, RAG)技術是在模型推理階段引入外部數據知識進行輔助增強的技術,可以顯著提高大語言模型的推理性能和準確性,預防出現幻覺。RAG的框架主要由索引、檢索器、增強器和生成器4個核心組件構成。在索引階段,對外部數據知識進行向量化索引;在檢索階段,利用向量相似性技術快速檢索與用戶查詢相關的文檔;在增強階段,將用戶查詢與檢索到的上下文結合,形成較精煉準確的組合查詢提示;在生成階段,將組合后的查詢提示傳遞給模型,生成最終響應和輸出。

大語言模型檢索增強技術實現的基礎在于構建和治理大語言模型外掛的數據知識庫。檢索增強知識庫的治理步驟如下。一是進行數據收集與預處理,根據大語言模型推理應用的專業(yè)領域需求,收集大量的基礎專業(yè)數據,包括書籍、文章、網頁內容等,并進行清洗、格式化和標準化處理。二是進行知識表示與抽取,將知識以結構化或半結構化的形式進行表示,并使用自然語言處理技術從文本中抽取知識。三是進行知識融合與推理,將抽取的知識融合到知識庫中,解決知識沖突和冗余問題,并利用知識庫進行推理,發(fā)現新的知識或關系。四是進行知識更新與維護,定期更新知識庫,以反映最新的信息和知識,并保持知識庫的動態(tài)性和準確性。

3.5.3 思維鏈的數據治理

思維鏈可提升大語言模型的推理能力。思維鏈是類似于人類思維的逐步推理過程,通過構建一個包含這些思維鏈的數據庫,模型可以參考它們來改進自身的推理過程。為了確保這些思維鏈的質量,需要專家進行審核和標注,以保證其正確性和邏輯性。此外,問題的多樣性也至關重要,數據庫應包含來自不同領域的例子,以提高模型的泛化能力。

在模型推理過程中,如何有效地訪問和利用這個數據庫是一個值得考慮的問題。可能需要采取混合方法,一部分思維鏈用于訓練,另一部分在實時推理時進行檢索。隨著問題和思維鏈數量的增加,數據庫的可擴展性和檢索效率成為一個挑戰(zhàn),可采用圖數據庫或索引系統(tǒng)來優(yōu)化管理。安全性和隱私性也是不可忽視的問題,特別是在數據庫包含敏感信息或被應用于重要系統(tǒng)時,必須采取措施防止未經授權的訪問和潛在的篡改。此外,評估該數據庫對模型性能的影響是必要的,需要開發(fā)相應的指標來檢驗思維鏈的引入是否提升了模型的推理能力和預測生成的準確性。

3.6 運維數據的治理

大語言模型運維階段在全生命周期中占據較大的時間比例,這一階段的數據治理范圍不僅覆蓋大語言模型運維數據的監(jiān)控管理運用,還包括前4個階段數據的維護優(yōu)化更新。運維數據的治理是一個多層次、持續(xù)進行的過程,致力于提高數據在動態(tài)環(huán)境中的質量和可靠性。

3.6.1 數據理解

為了進行有效的維護,首要任務是深入理解數據。數據理解不僅要識別數據類型和結構,還要求深入探究數據的內涵,包括但不限于數據的來源、演變歷程、內在關系和潛在偏見。數據理解可借助高級可視化、數據估值等技術。高級可視化技術可以揭示數據的分布模式和異常,數據估值技術則評估數據對特定目的的價值,確保維護的數據是相關的、有價值的,并且適合于預定的應用場景。

3.6.2 數據質量保證

實際應用中,數據基礎設施頻繁、持續(xù)更新,影響了數據質量。因此,數據治理不僅需要構建高質量的訓練或推理數據,更要在不斷變化的環(huán)境中維持其卓越性。在動態(tài)環(huán)境中確保數據質量有兩個核心方面:一是持續(xù)監(jiān)控數據質量,實際應用中的數據復雜多變,可能包含與預期目標不符的異常數據點,因此建立定量的評估標準來衡量數據質量至關重要;二是質量改進,如果模型受低質量數據的影響,實施質量改進策略以提升數據質量變得至關重要,這直接關聯(lián)到模型性能的提升。

3.6.3 數據存儲與檢索

存儲與檢索為AI系統(tǒng)快速準確地提供數據,目前已有多種加速數據獲取的策略。數據存儲不僅要確保數據的安全性和完整性,還要優(yōu)化數據的訪問速度。查詢加速技術,如索引優(yōu)化、數據緩存策略,以及利用分布式存儲和并行處理技術,大幅縮短了數據檢索的時間,提升了系統(tǒng)的響應效率。然而,這些策略的實施也帶來了存儲空間管理的復雜性、數據一致性和分布式系統(tǒng)中的同步等問題。因此,設計靈活且高效的存儲架構,平衡存儲效率與檢索速度,成為AI系統(tǒng)數據管理的重要內容。3.6.4 數據安全治理數據安全治理始終是數據治理不可忽視的重要內容,需綜合采取以下治理策略:遵循數據最小化原則;實施加密傳輸與存儲;嚴格進行訪問控制及身份驗證;實時監(jiān)控并檢測異常;定期開展安全審計與滲透測試;應用隱私保護技術確保合規(guī);構建分層防御體系,建立應急響應計劃,全方位保護數據免受內外威脅,保障服務穩(wěn)定與用戶信息安全。

3.6.5 數據合規(guī)處置與遷移

處置數據是數據治理的最后一步。一是對數據進行歸檔與備份。對大語言模型訓練和運行過程中產生的大量數據進行分類和評估,將其劃分為核心數據或輔助數據。針對核心數據(如高質量的訓練樣本、模型參數等),應進行長期歸檔備份,以備未來研究、審計或復用;針對輔助數據,應依據其價值決定保留或銷毀。二是保護隱私。在數據處置過程中注重隱私保護與合規(guī)處理,嚴格遵守數據保護法規(guī),對涉及用戶個人信息的數據進行匿名化處理或徹底刪除,確保不違反隱私保護政策。三是數據遷移與整合。為仍有價值的數據規(guī)劃合理的遷移路徑,將其整合至新的數據管理系統(tǒng)中,以便后續(xù)利用。當大語言模型退役時,可考慮利用遷移學習技術將大語言模型在特定任務上的學習成果轉移到新模型或新任務上,實現模型知識數據的遷移和復用。

4 面向AI數據治理的案例與經驗

4.1 ChatGPT的數據治理實踐

在探討大語言模型的發(fā)展歷程中,特別是GPT系列大語言模型,模型性能的提升不僅與參數量的增加相關,還與數據質量優(yōu)化緊密相關。GPT系列模型的相關研究揭示了大語言模型數據治理方面的細致工作,其策略涵蓋了上述數據治理框架的多個重要方面。

4.1.1 訓練數據的治理演進

GPT模型的成功依賴于多個因素,模型參數的數量增加只是其中之一。對比研究GPT-1、GPT-2、GPT-3、InstructGPT和ChatGPT/GPT-4的相關論文發(fā)現,GPT模型通過改進的數據收集、標記和準備策略,顯著提升訓練數據的數量和質量。訓練數據的治理是大語言模型性能提升的關鍵性因素。

GPT-1:在BooksCorpus數據集上進行訓練,該數據集包含4 629 MB原始文本,涵蓋各種書籍類型,對訓練數據的治理不夠重視。

GPT-2:通過爬取Reddit鏈接創(chuàng)建WebText數據集,并將其用于模型的預訓練。研發(fā)團隊開始重視訓練數據的治理,具體策略如下:一是對Reddit鏈接進行過濾,爬取高質量的文本數據;二是使用Dragnet和Newspaper工具對文本數據進行提純;三是基于啟發(fā)式策略進行數據去重和數據清理(數據準備)。經過數據治理,得到40 GB文本(約為GPT-1使用數據量的8.6倍),GPT-2無須微調即表現出良好的性能。

GPT-3:主要在Common Crawl數據集上訓練,這是一個龐大但質量較差的數據集。采用的數據治理策略如下:一是訓練分類器,過濾低質量文檔;二是使用WebText判斷文檔質量;三是使用Spark的MinHashLSH進行數據去重;四是擴展WebText訓練數據集,添加較高質量的書籍語料庫和Wikipedia數據。對45 TB純文本數據進行治理后,獲得570 GB文本(進行了嚴格的數據質量控制,選用率僅為1.27%),在此更高質量更大規(guī)模訓練數據集上訓練得到的GPT-3模型,其性能超過GPT-2。

InstructGPT:在人類反饋的基礎上進行強化學習微調,以符合人類期望。采用的數據治理策略如下:一是使用數據標注技術,用人類反饋答案的數據進行監(jiān)督學習微調;二是通過考試和問卷的嚴格過程選擇標注者,確保數據標注質量;三是構建比較數據集(按質量排序的人類評估答案)以訓練獎勵模型,然后使用人類反饋的強化學習(reinforcement learning from human feedback,RLHF)進行微調。通過前述數據治理,InstructGPT生成了更真實、無偏見、更符合人類期望的答案。

ChatGPT/GPT-4:隨著產品商業(yè)化進程推進,數據治理等相關訓練信息不再披露。ChatGPT/GPT-4很大程度上遵循了Transformer的架構設計,并在更高質量、更大規(guī)模的強化學習數據集上使用RLHF方法對模型進行微調,大幅提升模型性能。

從GPT-1到ChatGPT/GPT-4的訓練數據治理經歷了如下變化:較低質量、較小規(guī)模的數據集→更高質量、更大規(guī)模的數據集→更高質量、更大規(guī)模、引入人類反饋的標注數據集。與此同時,除了增加參數以適應更多的訓練數據,模型算法結構設計沒有重大調整,這表明了數據治理的重要性。

4.1.2 推理數據的治理

演進針對大語言模型的推理數據開發(fā)與治理研究仍處于初期階段。在不久的將來,基于特定任務的推理數據開發(fā)方法將逐漸適應大語言模型,如構建對抗性攻擊數據以測試模型魯棒性。

當前的ChatGPT/GPT-4模型已達到高度復雜的水平,可以通過僅調整提示(推理數據輸入)來實現各種目標。未來,許多AI從業(yè)者可能不再需要訓練或微調模型,而是專注于提示工程。然而,提示工程是一個依賴經驗的、具有挑戰(zhàn)性的任務,即使是語義上相似的提示也可能產生顯著不同的輸出。在這種情況下,需要采用更加多樣化的推理數據治理技術或策略,以提高模型的推理效果。

4.1.3 運維數據的治理演進

ChatGPT/GPT-4在數據維護方面花費了大量精力。作為商業(yè)產品,ChatGPT/GPT-4不可能只訓練一次就停滯,其運維數據需要不斷被更新和維護。一是持續(xù)進行數據收集,通過用戶輸入的提示和提供的反饋進一步改進模型。在這個過程中,模型開發(fā)者需要設計指標來監(jiān)控數據質量以及維護數據質量的策略,以收集更高質量的數據。二是加強數據理解,開發(fā)各種工具來可視化和理解用戶數據,以更好地理解用戶需求并指導未來的模型改進。三是采用高效的數據處理技術,隨著ChatGPT/GPT-4用戶的快速增長,要開發(fā)高效的數據管理系統(tǒng),以便快速檢索用于訓練和測試的相關數據。

4.2 Ziya2大語言模型的數據治理實踐

Ziya2研究團隊致力于持續(xù)預訓練技術的開發(fā),在保持模型的大小和結構基本不變的前提下,深入分析高質量的預訓練數據如何顯著提升大語言模型的性能。為此,研究團隊以Meta AI公司130億參數的Llama2模型為基礎,在高質量訓練數據集(約7 000億個中英文token)上進行了持續(xù)預訓練,最終推出了Ziya2模型。預訓練過程分為3個階段,具體采取了以下數據治理策略。

在第一階段,對接近LLaMA2原始分布的英文數據進行采樣,并對中文數據進行了清洗,對代碼數據進行了格式化,對這些數據進行混合,形成了高質量的無監(jiān)督數據集,并進行預訓練。在此階段,訓練數據被完全隨機化,不同的數據片段被拼接成4 096個token的樣本,并利用注意力掩碼避免不同數據片段之間相互干擾,從而最大限度地提高訓練效率。

在第二階段,引入中文和英文標注數據,如Wanjuan-Idea數據集,增強Ziya2在下游任務上的性能。與第一階段隨機組合數據的方式不同,這一階段將相同類型的標注數據拼接成一個樣本,并確保每個樣本中拼接的數據都是完整的。

在第三階段,增加了與數學相關的標注數據,如MetaMath數據集,數據的拼接方式與第二階段保持一致。經過這一階段的預訓練,Ziya2顯著提升了數學推理能力和編程能力。這一結果表明,數學推理數據對于編程這類邏輯性較強的任務至關重要。為了防止Ziya2在預訓練中出現災難性遺忘,第二階段和第三階段額外采樣了與標注數據同比例的中英文無標注數據構建訓練數據集,以進行持續(xù)的預訓練。

經過這一系列的訓練,Ziya2團隊成功打造了130億參數的Ziya2模型。對比基準模型,Ziya2模型在各項評估指標上均展現了顯著的性能提升。具體而言,以LLaMA2為標準進行LLM評估,Ziya2在MMLU上提高了10%,在CMMLU上提高了61%,在C-Eval上提高了68%,在GSM8K數學問題解答任務上提升了138%,在MATH數學問題解答任務上提升了120%,在HumanEval代碼生成任務上提升了89%。相較于其他開源的、規(guī)模相當的大語言模型,Ziya2在中文及英文通用任務上取得了領先地位,在數學和編程領域任務上的表現顯著優(yōu)于同類模型。這表明,采用高質量的數據集和恰當的持續(xù)預訓練策略,可以在不大幅度增加模型參數規(guī)模的情況下,有效提升大語言模型的性能表現。

4.3 能源領域AI大語言模型的數據治理實踐

在能源領域,AI大語言模型的應用已經取得了顯著進展,以數據為中心的人工智能開發(fā)應用范式發(fā)揮著重要作用。

中國南方電網有限責任公司的“大瓦特”大語言模型主要應用于智能客服、輸電巡檢、負荷預測等任務。該模型整合了電力行業(yè)的專業(yè)知識和海量數據,構建了一個跨自然語言和計算機視覺模態(tài)的大語言模型,能夠處理復雜的電力系統(tǒng)任務,如巡檢報告自動生成和故障預測等。在“大瓦特”大語言模型的構建過程中,數據治理發(fā)揮了基礎性作用,重點在數據的收集、清洗和標注,并通過不斷優(yōu)化數據質量和豐富數據樣本,提升了模型的準確性和泛化能力。

國家能源集團的能源通道大語言模型主要用于煤炭、電力、鐵路、港口、航運、化工等多領域的智能查詢、智能平衡、智能預警和智慧分析。該模型利用生產運營過程中的設備、貨物、物流、銷售、氣象等數據,對通用大語言模型進行強化訓練,形成了具備能源專業(yè)知識的行業(yè)大語言模型。該模型數據治理融合了產業(yè)特定數據與通用數據,注重提高數據的質量和多樣性,從而提升模型在特定能源場景中的應用效果。

上海全應科技有限公司的熱電云平臺模型的應用場景主要是熱電生產的智能調控,以提升發(fā)電效率和減少碳排放。該模型通過AI技術對熱電生產過程進行全自動智能調控,優(yōu)化發(fā)電過程中的各項參數。該公司在數據收集和處理上投入大量資源,確保數據的準確性和實時性,從而使AI模型能夠進行精準的預測和調控。

國網山東電力公司的AI中臺代表性應用場景包括智能巡檢、智能營銷與客服等。該公司與百度智能云合作,搭建了AI中臺,利用大語言模型技術提升電力系統(tǒng)的智能化水平。其數據治理的重點是數據的標準化和統(tǒng)一化管理,通過構建高質量的數據集提升了AI模型的訓練效果和應用性能。

上述案例充分體現了以數據為中心發(fā)展人工智能的核心思想,即通過高質量的數據治理來驅動AI模型的性能提升,主要治理策略如下:一是注重數據收集與清洗,提升源數據治理效果,確保數據的全面性和準確性;二是注重數據集成與增強,提升預訓練數據治理效果,將不同來源的數據進行集成融合,提升數據的多樣性和覆蓋面;三是突出數據治理的中心地位,注重數據標注與管理,通過專業(yè)的數據標注和管理工具,提升數據的可用性和訓練效果;四是注重數據持續(xù)優(yōu)化與模型升級迭代,加強運維數據的治理,通過不斷的數據治理和模型迭代,提升AI模型的性能和適應性。

5 結束語

在人工智能研究及開發(fā)應用領域,以數據為中心的方法逐漸占據核心地位。經過學術界和產業(yè)界多年的不懈努力,人工智能相關模型架構設計日趨完善,特別是自Transformer架構問世以來,其潛力被持續(xù)挖掘中。目前,提升數據集的規(guī)模和質量已經成為增強AI系統(tǒng)性能的關鍵途徑。源數據治理、預訓練數據治理、評測數據治理、微調數據治理推理數據治理和運維數據治理將更緊密地融合在AI系統(tǒng)開發(fā)應用全過程中,成為推動人工智能發(fā)展的關鍵支撐力量。目前,大語言模型技術未被應用于雙碳目標、節(jié)能減排、應對氣候變化等細分領域,下一步相關人員可結合能源環(huán)境和應對氣候變化專業(yè)領域的特點,對該專業(yè)領域的大語言模型開發(fā)應用進行嘗試,將面向人工智能的數據治理框架和技術應用于能源-環(huán)境-經濟復雜系統(tǒng)和應對氣候變化建模,以對省間多區(qū)域協(xié)同減排關鍵技術進行智能化組合生成、發(fā)掘評價,進而在具體應用中進一步豐富和完善面向人工智能的數據治理理論框架和技術實踐。

編 輯:章芳
飛象網版權及免責聲明:
1.本網刊載內容,凡注明來源為“飛象網”和“飛象原創(chuàng)”皆屬飛象網版權所有,未經允許禁止轉載、摘編及鏡像,違者必究。對于經過授權可以轉載,請必須保持轉載文章、圖像、音視頻的完整性,并完整標注作者信息和飛象網來源。
2.凡注明“來源:XXXX”的作品,均轉載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網贊同其觀點和對其真實性負責。
3.如因作品內容、版權和其它問題,請在相關作品刊發(fā)之日起30日內與本網聯(lián)系,我們將第一時間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進行的“內容核實”、“商務聯(lián)系”等行為,均不能代表本站。本站擁有對此聲明的最終解釋權。
相關新聞              
 
人物
vivo胡柏山:手機行業(yè)是最典型的新質生產力代表
精彩專題
低空經濟2025:助力中國經濟騰飛,成就高質量發(fā)展
2024通信業(yè)年終盤點
2024數字科技生態(tài)大會
2024年度中國光電纜優(yōu)質供應商評選活動
CCTIME推薦
關于我們 | 廣告報價 | 聯(lián)系我們 | 隱私聲明 | 本站地圖
CCTIME飛象網 CopyRight © 2007-2024 By CCTIME.COM
京ICP備08004280號-1  電信與信息服務業(yè)務經營許可證080234號 京公網安備110105000771號
公司名稱: 北京飛象互動文化傳媒有限公司
未經書面許可,禁止轉載、摘編、復制、鏡像