劉強(qiáng)(1979-)
男,遼寧工業(yè)大學(xué)研究生,(遼寧工業(yè)大學(xué)信息科學(xué)與工程學(xué)院,遼寧 錦州 121001 ),研究方向?yàn)橹悄芸刂啤?BR>
摘要:論文基于免疫網(wǎng)絡(luò)理論和克隆選擇原理,建立了一種人工免疫數(shù)據(jù)聚類分析算法,并詳細(xì)闡述了聚類算法在城市交通時(shí)段自動(dòng)劃分中的具體應(yīng)用。實(shí)例分析表明,該算法可以有效減少聚類數(shù)據(jù)的冗余信息,特別適合于解決分級(jí)聚類等傳統(tǒng)方法不適應(yīng)的大數(shù)據(jù)量聚類問題,對(duì)解決城市交通時(shí)段的自動(dòng)劃分等數(shù)據(jù)聚類問題是可行的和有效的。
關(guān)鍵詞:聚類;人工免疫系統(tǒng);模式識(shí)別;交通控制
Abstract: An artificial immune algorithm for data clustering is proposed in this paper. This work is mainly based on the immune network theory and the clone selection principle extracted from vertebrate immune systems. Experiments show that the given clustering algorithm can effectively reduce the redundant information of data, and thus, especially fit to the mass data clustering applications where hierarchical clustering algorithm or other traditional clustering algorithms may be ineffective.
Key words: clustering;artificial immune system;pattern recognition;traffic signal control
1 引言
目前城市交通信號(hào)控制應(yīng)用較為普遍的是多時(shí)段定時(shí)控制方案。多時(shí)段定時(shí)控制(time of day,TOD)是根據(jù)車流量等交通信息把一天劃分為若干個(gè)時(shí)間段,不同的時(shí)段采用不同的信號(hào)優(yōu)化控制方案。TOD控制的前提是交通時(shí)段的合理劃分。傳統(tǒng)上,交通工程技術(shù)人員根據(jù)收集到的交通流量,繪制流量時(shí)間曲線圖,根據(jù)曲線的特征人工劃分交通時(shí)段。傳統(tǒng)方法具有很大的主觀性,極易產(chǎn)生不合理的時(shí)段劃分,難以滿足現(xiàn)代城市交通模式快速變化的需求。
以生物免疫系統(tǒng)為基礎(chǔ)的人工免疫系統(tǒng)(artificial immune systems, AIS) [1]已成為目前國(guó)內(nèi)外計(jì)算智能領(lǐng)域一個(gè)新的研究熱點(diǎn)。本文在詳細(xì)研究生物免疫學(xué)和AIS的最新研究成果的基礎(chǔ)上,建立了一種人工免疫數(shù)據(jù)聚類分析算法,該算法可以有效減少聚類數(shù)據(jù)的冗余信息,特別適合于解決分級(jí)聚類等傳統(tǒng)聚類方法不適應(yīng)的大數(shù)據(jù)量聚類問題。論文把建立的人工免疫算法用于城市交通時(shí)段的自動(dòng)劃分[2],克服了人工時(shí)段劃分的不合理性,為TOD交通時(shí)段的劃分及城市交通控制方案的制定提供了一條新的思路[3]。
2 免疫系統(tǒng)的基本理論
生物免疫系統(tǒng)是一個(gè)由細(xì)胞、分子和器官組成的復(fù)雜系統(tǒng),其主要功能是限制異物對(duì)肌體的侵害[4]。免疫系統(tǒng)抵御外部入侵,使其機(jī)體免受病原侵害的應(yīng)答反應(yīng)稱為免疫(immunity)。外部有害病原入侵機(jī)體并激活免疫細(xì)胞,誘導(dǎo)其發(fā)生反應(yīng)的過程稱為免疫應(yīng)答。誘導(dǎo)免疫系統(tǒng)產(chǎn)生免疫應(yīng)答的物質(zhì)稱為抗原(antigen,簡(jiǎn)稱Ag),能與抗原進(jìn)行特異性結(jié)合的免疫細(xì)胞稱為抗體(antibody, 簡(jiǎn)稱Ab)。抗原與抗體的結(jié)合強(qiáng)度用親和度(affinity)度量。AIS主要涉及T細(xì)胞和B細(xì)胞的相關(guān)免疫特性。B細(xì)胞的作用是識(shí)別抗原和分泌抗體,T細(xì)胞能夠促進(jìn)和抑制B細(xì)胞的產(chǎn)生與分化。免疫系統(tǒng)的結(jié)構(gòu)示意如圖1所示。生物免疫學(xué)的研究成果是AIS的理論基礎(chǔ)。本文給出的數(shù)據(jù)聚類算法,主要基于生物免疫隱喻的克隆選擇理論[5]和免疫網(wǎng)絡(luò)理論[6]。當(dāng)淋巴細(xì)胞實(shí)現(xiàn)對(duì)抗原的識(shí)別,即抗體與抗原的親和度(affinity)超過一定閾值后,B細(xì)胞被激活并增殖復(fù)制產(chǎn)生細(xì)胞克隆。由于遺傳和免疫細(xì)胞在增殖中的基因突變,形成了免疫細(xì)胞的多樣性。當(dāng)每一種抗原侵入機(jī)體后都能在機(jī)體內(nèi)選擇出能識(shí)別和消滅相應(yīng)抗原的免疫細(xì)胞克隆,使之激活、分化和增殖,進(jìn)行免疫應(yīng)答以最終清除抗原。克隆選擇的主要特征是免疫細(xì)胞在抗原刺激下產(chǎn)生克隆擴(kuò)增,隨后通過遺傳變異分化為多樣性效應(yīng)細(xì)胞和記憶細(xì)胞。
圖1 免疫系統(tǒng)的基本結(jié)構(gòu)
3 人工免疫聚類分析算法
AIS借鑒了一些生物免疫系統(tǒng)的功能、原理和模型,使用學(xué)習(xí)、記憶和關(guān)聯(lián)檢索來完成識(shí)別與分類任務(wù),具有強(qiáng)大的和魯棒的信息處理能力,是一種有效的數(shù)據(jù)聚類分析方法[7]。AIS將待分析的數(shù)據(jù)作為抗原,通過抗體對(duì)抗原的學(xué)習(xí)、記憶過程來識(shí)別、分類不同數(shù)據(jù),并從中找出數(shù)據(jù)間的相關(guān)性能。
假設(shè)標(biāo)稱為[0,1]下的Q個(gè)輸入數(shù)據(jù)集構(gòu)成抗原Ag,聚類分析的目的就是要通過免疫學(xué)習(xí),尋找記憶數(shù)據(jù)集M作為輸入數(shù)據(jù)的聚類。
為描述算法的方便,定義如下變量:
Ag:輸入抗原,即待聚類的輸入數(shù)據(jù)集合,或研究問題的論域:
(1)
Ab:抗體,即N個(gè)初始網(wǎng)絡(luò)細(xì)胞:
(2)
M:記憶數(shù)據(jù)集,即nt個(gè)網(wǎng)絡(luò)記憶細(xì)胞:
(3)
:所有抗體與抗原Agj的距離度量矢量和親和力矢量;
:M中抗體的相似度矢量;
Nc:激發(fā)細(xì)胞產(chǎn)生的克隆細(xì)胞數(shù)量;
Cj:激發(fā)細(xì)胞產(chǎn)生的克隆細(xì)胞群體,親和力成熟后變?yōu)镃。
基于免疫網(wǎng)絡(luò)理論和克隆選擇原理的人工免疫聚類算法由如下步驟構(gòu)成[5,6,7,8]:
Step1 隨機(jī)初始化N個(gè)抗體Ab,作為初始網(wǎng)絡(luò)細(xì)胞。
Step2 設(shè)定循環(huán)控制參數(shù)。
Step3 輸入待聚類數(shù)據(jù)作為抗原,對(duì)抗原Agj(j=1,2,…,Q)進(jìn)行如下操作:
Step3.1 計(jì)算距離度量矢量Dj和親和力矢量AFj:
抗原與抗體之間的距離用歐幾里德距離定義,即
(4)
根據(jù)聚類分析的特點(diǎn),抗原與抗體之間的親和力采用式(5)定義:
(5)
于是
(6)
(7)
Step3.2按照opR(optimal selecting Rate)的比率從Ab中選擇n個(gè)與Agj具有最高親和力的抗體進(jìn)行克隆擴(kuò)增,產(chǎn)生對(duì)應(yīng)的克隆細(xì)胞集合Cj。根據(jù)克隆選擇原理,抗體與抗原的親和力越大,抗體產(chǎn)生的克隆細(xì)胞數(shù)量越多。對(duì)n個(gè)選擇細(xì)胞按親和力從小到大的順序排序,克隆細(xì)胞的數(shù)量按下式計(jì)算。
(8)
式中:Nc為n個(gè)抗體產(chǎn)生的克隆細(xì)胞總數(shù);α為乘數(shù)因子,用于控制克隆群體的規(guī)模;Int(.)為取整函數(shù)。
Step3.3 應(yīng)用式(9)對(duì)克隆的抗體進(jìn)行隨機(jī)變異操作,實(shí)現(xiàn)親和力的成熟,產(chǎn)生具有更高親和力的抗體細(xì)胞C。
(9)
式中:rand(CR,NR)為隨機(jī)函數(shù),表示從CR中隨機(jī)抽取NR個(gè)變量;μ為抗體的變異率。生物免疫系統(tǒng)抗體變異的實(shí)質(zhì)是基因片斷的重組,使得子代抗體與抗原的親和力得以迅速提高,而且與抗原具有較大親和力的抗體具有較小的變異率。抗體的變異率按式(10)確定:
(10)
式中:AFv為抗體親和力的標(biāo)稱值,k為比例因子,η為衰減控制系數(shù)。k與η的合理取值可以保證變異個(gè)體在其允許的域值范圍[0,1]之內(nèi)。
Step3.4 計(jì)算C的抗體細(xì)胞與抗原Agj的親和力矢量AFc j。
Step3.5 按照rsR(re-selecting Rate)的比率,選擇C中若干個(gè)與抗原Agj具有最高親和力的抗體,作為部分記憶細(xì)胞Mp 。
Step3.6 去除Mp中相似度sij小于閾值σd的抗體,產(chǎn)生新的記憶集Mk ,實(shí)現(xiàn)免疫系統(tǒng)克隆抑制的效果。抗體的相似度sij用抗體間的歐幾里德距離描述,即:
(11)
Step3.7 把部分記憶細(xì)胞Mk合并到記憶細(xì)胞集合M(M [M;Mk])。
Step4 計(jì)算M中各記憶細(xì)胞的相似度矢量S,去除M中相似度sij低于閾值σs的抗體,實(shí)現(xiàn)不同克隆集的網(wǎng)絡(luò)抑制。sij按式(11)計(jì)算。
Step5 按照wsR(worst selecting Rate)的比率,隨機(jī)產(chǎn)生若干個(gè)抗體替換原抗體中親和力較低的個(gè)體,體現(xiàn)免疫系統(tǒng)的自組織功能。
Step6 變量替換,返回Step3,進(jìn)行下一代的網(wǎng)絡(luò)學(xué)習(xí),直到達(dá)到要求的學(xué)習(xí)代數(shù),或滿足設(shè)定的聚類迭代要求(如迭代達(dá)到了預(yù)定的記憶細(xì)胞的個(gè)數(shù)或抗原與記憶細(xì)胞的平均親和力達(dá)到了預(yù)定的誤差范圍等)。
學(xué)習(xí)過程結(jié)束后,算法的輸出M為聚類數(shù)據(jù)的記憶數(shù)據(jù)集,S為記憶數(shù)據(jù)集各抗體之間的相似度。根據(jù)待聚類數(shù)據(jù)與各記憶細(xì)胞的距離,或抗原與記憶細(xì)胞的親和度,可方便的實(shí)現(xiàn)對(duì)抗原數(shù)據(jù)的聚類。上述聚類算法的核心是保持網(wǎng)絡(luò)抗體代克隆、變異及抑制的操作,最終產(chǎn)生記憶數(shù)據(jù)集。
調(diào)節(jié)抑制閾值σs可以控制網(wǎng)絡(luò)的學(xué)習(xí)規(guī)模和性能,閾值越大,得到的免疫記憶數(shù)據(jù)越多,分類密度越大,數(shù)據(jù)的相似性越高。算法中其他參數(shù)的選擇原則如下:初始化抗體個(gè)數(shù)N根據(jù)經(jīng)驗(yàn)選定,其大小不影響聚類結(jié)果,但選擇過大影響計(jì)算速度,過小則體現(xiàn)不了抗原特征,一般取N=20。克隆乘數(shù)因子α的選擇取決于初始抗體的個(gè)數(shù)N。最佳抗體選擇率opR一般取初始抗體的10%到20%,但opR的取值應(yīng)保證每代至少有一個(gè)最優(yōu)抗體克隆擴(kuò)增。最差抗體選擇率wsR體現(xiàn)免疫系統(tǒng)的自組織特性,一般取值不應(yīng)超過10%。從抗體多樣性的角度考慮,再次選擇率rsR可以取較大的值,但聚類的目的是減少數(shù)據(jù)冗余信息,rsR不易太大,一般取克隆細(xì)胞的10%作為部分記憶細(xì)胞。
4 交通時(shí)段的免疫聚類研究
交通時(shí)段的人工免疫聚類分析分兩步進(jìn)行:第一步將交通數(shù)據(jù)看作免疫系統(tǒng)的抗原;第二步采用常規(guī)的聚類分析方法,對(duì)交通流量的免疫記憶集做聚類分析,實(shí)現(xiàn)交通時(shí)段的自動(dòng)劃分。
交通工程實(shí)踐中,一般以15min的交通流量為基礎(chǔ)進(jìn)行交通時(shí)段的劃分,將一天的96個(gè)交通流量數(shù)據(jù)作為免疫系統(tǒng)的抗原。
4.1 交通數(shù)據(jù)的預(yù)處理
考慮交通數(shù)據(jù)變化較大(如白天峰值時(shí)段的交通流量與夜晚谷值時(shí)段的交通流量相差十分懸殊),聚類前首先應(yīng)用式(12)對(duì)交通數(shù)據(jù)做標(biāo)準(zhǔn)化變換處理:
(12)
式中“*”表示交通流量的原始數(shù)據(jù)。聚類實(shí)踐表明,如果直接應(yīng)用每天的交通數(shù)據(jù)進(jìn)行聚類,結(jié)果存在文獻(xiàn)[2]指出的“時(shí)段沖突”或“聚類重疊”,即同一時(shí)間段在不同的工作日(如每周的星期一)歸屬于不同的類。(3節(jié)中各式的p=1,Ag,Ab,M等矩陣均降為同維列向量)。
4.2 交通時(shí)段聚類分析實(shí)例
本文結(jié)合現(xiàn)實(shí)應(yīng)用的需要,利用錦州交警支隊(duì)提供的解放路的交通數(shù)據(jù)庫,進(jìn)行基于人工免疫算法的交通聚類研究,實(shí)現(xiàn)城市交通時(shí)段的自動(dòng)劃分。圖2為根據(jù)歷史交通數(shù)據(jù)的96個(gè)平均流量繪制的解放路與士英街路口星期一的交通流量時(shí)間曲線圖。
圖2 24小時(shí)平均交通流量曲線
把上述96個(gè)平均交通流量作為抗原應(yīng)用于3節(jié)的人工免疫聚類算法,進(jìn)行免疫識(shí)別和記憶。算法中的參數(shù)設(shè)置如下:初始化抗體個(gè)數(shù)N=20;最佳抗體選擇率opR=20%;克隆乘數(shù)因子α =1;再次選擇率rsR=20%,wsR=10%;最大迭代次數(shù)NA=15;為保證抗體的多樣性,σd取0.001,σs為0.05。表1是交通流數(shù)據(jù)的人工免疫計(jì)算過程,共分15代。
表1 聚類數(shù)據(jù)的人工免疫計(jì)算過程:
從數(shù)據(jù)分類結(jié)果可以看出第9次迭代結(jié)果,記憶數(shù)據(jù)集同抗原數(shù)據(jù)之間具有較大的平均親和力,免疫記憶數(shù)據(jù)集的規(guī)模適中,是一種較為理想的數(shù)據(jù)分類結(jié)構(gòu)。
為直觀起見,將由人工免疫算法得到的記憶數(shù)據(jù)應(yīng)用譜系圖的方法描述如圖3所示,顯然,當(dāng)距離值取0.1時(shí),第9次迭代結(jié)果的14個(gè)記憶數(shù)據(jù)被清晰地分成了5類。
圖3 交通流記憶細(xì)胞集的聚類譜系圖
采用重心法計(jì)算各交通數(shù)據(jù)與記憶類重心之間的距離,進(jìn)行交通數(shù)據(jù)的二次聚類,并與其交通時(shí)段對(duì)應(yīng),得到解放路與士英街路口星期一的交通時(shí)段劃分情況如圖4所示。即根據(jù)交通流量可以把全天分為如下幾個(gè)交通時(shí)段:類I時(shí)段22:45-5:15;類II時(shí)段12:15-14:00,20:30-22:45;類III時(shí)段5:15-6:30, 8:15-11:00;類Ⅳ時(shí)段11:00-12:15,16:00- 18:00,19:15-20:30;類V時(shí)段6:30-8:15,14:00-16:00,18:00-19:15。
圖4 TOD交通時(shí)段劃分
5 結(jié)束語
人工免疫數(shù)據(jù)聚類算法可以有效減少聚類數(shù)據(jù)的冗余信息,特別適合于解決分級(jí)聚類等傳統(tǒng)方法不適應(yīng)的大數(shù)據(jù)量聚類問題。作者把建立的人工免疫聚類算法應(yīng)用于城市交通時(shí)段的自動(dòng)劃分,克服了人工時(shí)段劃分的不合理性。合理設(shè)置參數(shù)的取值范圍可以滿足不同聚類問題的需要。
其它作者:
王艷秋(1955-),女,教授,遼寧工業(yè)大學(xué)信息科學(xué)與工程學(xué)院院長(zhǎng),博士,碩士研究生導(dǎo)師,研究方向:近代交流調(diào)速系統(tǒng);智能控制。
張健(1981- ),男,遼寧工業(yè)大學(xué)研究生,研究方向:智能控制。
參考文獻(xiàn)
[1]肖人彬, 王磊.人工免疫系統(tǒng):原理、模型、分析及展望[J]. 計(jì)算機(jī)學(xué)報(bào), 2002, 25 (12) : 1282 - 1291.
[2]HAUSER T, SCHERER W. Data mining tools for real time traffic signal decision support and maintenance[C]//Proc of IEEE Int Conf on Systems, Man, and Cybernetics. Tucson, USA: IEEE Press, 2001:1471-1477.
[3]PARK.B, LEE Do-Hoon, YUN Hsoo. Enhancement of Time of Day Based Traffic Signal Control [C]// Proc of IEEE Int Conf on Systems, Man, and Cybernetics. USA: IEEE Press, 2003:3619 - 3624.
[4]林學(xué)顏, 張玲. 現(xiàn)代細(xì)胞與分子免疫學(xué)[M].北京:科學(xué)出版社, 1999:46-62.
[5]CASTROL, ZUBENF. An evolutionary immune network for data clustering[C]// Proc of the Sixth Brazilian Symposium on Neural Networks. Janeiro: IEEE Press, 2000: 84-89.
[6]DASGU PTAD, FORRESTS. Artificial immune systems in industrial applications[C]//Proc of Second In t Conf on Intelligent Processing and Manufacturing of Materials. Honolulu, USA: IEEE Press, 1999: 257-267.
[7]Dasnupta D. Artificial Immune Systems and Their Applications[M].New York: Sprinner~Verlan, 1999.
[8]TIMM IS J, N EAL M. Artificial immune systems for data analysis [J]. B io System s, 2000, 55 (2): 143 - 150.
[9]D. K. Merchant, G. L. Nemhauser. Optimality conditions for a dynamic traffic assignment model [J]. Transportation Science B, 1978, 12: 200-207.