: N4 w! O. P2 K$ f% P5 f3 ?Fig. 4:标签数据的可视化处理3 _8 S1 k- x* D
无线传播模型建模赛题; P$ Y' W8 ]( x" l( B+ y
本赛题除在中国研究生数学建模竞赛网站上上交论文外,问题三需要在华为云平台上提交模型,不提交的队伍将被视为没有完成此题而不计入比赛成绩。; j- ^0 K5 L8 l5 F I" M
特征工程中的特征设计$ B6 r# o1 |: r) _) s; e
高效的机器学习模型建立依赖于输入变量与问题目标的强相关性,因此输入变量也称为 “特征”。特征工程的本质是从原始数据中转换得到能够最好表征目标问题的参数,并使得各个参数的动态范围在一个相对稳定的范围内,从而提高机器学习模型训练的效率。一般特征工程的典型技术有:* U" A9 U6 O2 x/ U
剔除失真、低质量数据;数据插值补齐;去除异常点; & u& g( M( z6 |9 ]; J连续数据离散化;数据去均值;幅度限制;方差限制。3 ~: F; o7 o0 k, H; l7 f6 J1 H* J
高阶的特征工程需要充分利用与目标问题相关的专业知识。对于信道传播模型问题,可以如Fig. 5所示根据已知的几何位置来挑选合理的特征。例如,通过发射机相对地面的高度h_b、机械下倾角θ_MD、垂直电下倾角θ_ED,发射机所在栅格位置与目标栅格位置,可以得到栅格与发射机的距离d以及栅格与信号线的相对高度〖∆h〗_v,而〖∆h〗_v就可以作为一个特征。- ^/ ~0 j! I+ c; h
& y0 c- y# O' c: u7 n$ SFig. 5:根据目标栅格与发射机的地理位置关系提取特征 }, y+ c6 h, j, B3 p
" h7 h$ F4 G7 Y3 E, j2 {7 H+ z
除了几何位置特征,传统经验信道模型中涉及的参数也可以纳入特征工程的考察范围。例如城市中的经典模型Cost 231-Hata,其定义如下:7 i; f/ c4 |" S7 ^% X2 Q2 a; t- I
PL=46.3+33.9 log_10f-13.82 log_10〖h_b 〗-α+(44.9-6.55 log_10〖h_ue 〗 ) log_10d+C_m, (1)4 {3 j4 X& ]9 x9 J
其中PL定义为传播路径损耗(dB)、f为载波频率(MHz)、h_b 为基站天线有效高度(m)、h_ue 为用户天线有效高度(m)、α为用户天线高度纠正项(dB)、d为链路距离(km)以及C_m为场景纠正常数(dB)。RSRP与PL的关系为:6 w& \! i: y' z5 g4 a, k
RSRP=P_t-PL, (2) - h3 ?; Q) A% f+ h其中P_t是小区发射机发射功率(dBm)(见Table 2)。% \8 N" m T- E( K2 Z
问题一 - l" K T. z( E5 a6 V请根据Cost 231-Hata模型以及下述数据集信息设计合适的特征,并阐述原因。5 L: ~$ {' ~; r/ x$ G
Table 6:数据集信息 # ~5 v4 R& q! V f3 p- K: u. p- I工程参数数据& Q! ^4 A+ j. V( ^/ L6 y
Cell Index Cell X Cell Y Height Azimuth Electrical Downtilt Mechanical Downtilt Frequency Band RS Power, P! X8 X5 x5 M8 C9 p' `5 a
2 100 100 49m 45° 2° 2° 1800MHz 18.2 dBm& x3 N7 ^3 `! \ ]
地图数据2 b$ Q/ D9 L& F7 Q* O3 W- E7 Q
Cell Altitude Cell ; @1 A; T4 j) A1 j- `) K/ BBuilding Height Cell ( Q, o' T! v( u9 m. X% B1 t/ cClutter w: x% I, J0 B3 UIndex X Y Altitude Building Height Clutter Index 4 w/ `9 i+ s3 Q3 k' P) d5 X* O7 x
47m 9m 11 500 500 9m 0m 1 A8 f5 T0 ?( H8 [0 x aRSRP标签数据- D- F9 K" d7 e1 S1 [
RSRP . }# ^6 @& I) x7 g8 a i
-100 dBm 6 L4 R( o7 w+ C4 S( R# u4 w & \+ f( r2 k1 P ~特征工程中的特征选择 8 w. ~) Q) |$ G& f" k完成特征设计后,通常需要选择有意义的特征输入机器学习模型进行训练。对于不同方法构造出来的特征,需要从多个层面来判断这个特征是否合适。通常来说,可以从以下两个方面来选择特征:1 U+ P0 k: s% v' d! u u
特征是否发散:如果一个特征不发散,例如方差接近于0,也就是说样本在这个特征上基本上没有差异,这个特征对于样本的区分并没有什么用。8 c; S' M" W8 D4 B( z1 r
特征与目标的相关性:这点比较显见,与目标相关性高的特征,应当优先选择。$ V; t; ]" z/ h5 @4 z
问题二3 E( P/ [( d" d8 h# }
基于提供的各小区数据集,设计多个合适的特征,计算这些特征与目标的相关性,并将结果量化、排序,形成如下的表格,并阐明设计这些特征的原因和用于排序的量化数值的计算方法。1 `1 t2 q- n; F3 v
Table 7:特征名称及其与目标的相关性 ' v8 q; o5 D$ r! o/ T1 |排序 特征名称 该特征与目标的相关性 # [ C: ^2 c, g6 n& k, e0 G' X- Z1 ) b, j. r% t* o2 P! Y2 3 u) p& z0 L" f6 D
… 4 h2 X; i6 d6 s7 e) T- J: Y) N% p) J+ e $ s7 ?4 x5 G) R% r) aRSRP预测, g. r) Z V; L; ]3 g
问题三 % X9 a7 g7 x& V, p! H# | R在设计和选择了有效的特征之后,就可以通过建立预测模型来进行RSRP的预测了。请各个参赛队根据自己建立的特征集以及赛题提供的训练数据集,建立基于AI的无线传播模型来对不同地理位置的RSRP进行预测。为研究生更明白本问题的目标,下面将分别介绍评审数据集、提交内容和线上代码评分方法。 , z0 \0 ]! c2 k0 I评审数据集简介# K0 o2 v' R; r2 r7 R9 \ D
线上代码评分系统将使用对参赛队保密的评审数据集来对模型进行评分,以便公平地测试各参赛队提交模型的实际泛化能力。评审数据集与训练数据集一样,一共包括了多个文件,每个文件代表一个小区内的数据。文件的命名方式为test_id.csv,其中id为小区的唯一标识,例如test_1003501.csv表示唯一标识为1003501的小区数据。! n4 q g( y+ n4 Z. i, ? V+ S
评审数据集的文件中含有除了RSRP之外的前17个字段,与该17个字段对应的RSRP字段需要由研究生提交的模型代码程序预测生成。 # v$ Z" Z7 c2 v1 v- q. F提交内容4 C9 j( R% p7 s" ~& J* {
论文要以文字形式详细阐述AI模型的建模过程,包括模型的建立方法,参数的设置和训练的结果,特别是第三问要阐述清楚。 ! U5 P2 |* p* G- P4 J& ~7 K* O第三问需要提交完整的模型。针对每一个评审数据集的输入文件,模型输出要求也是一个文件,例如输入数据文件名为test_123456.csv,则输出文件名必须为test_123456.csv_result.txt。另外,输出文件的数量与输入文件必须一致,否则会以全0文件代替输出文件进行评分。例如,参赛队伍如果没有提交针对输入文件名为test_123456.csv的输出文件,系统在评分时会自动产生全零的test_123456.csv_result.txt进行评分。 ) }% o/ V D7 @: ?& y% `每个输出文件内容的样例如下所示,% f9 I0 x- T: G" R1 r+ A4 ^( K& y
! ~4 q* r g, n4 c& d. o9 b{“RSRP”: [[-54.505], [-73.416], [-76.123], [-74.261], [-98.143]]} W9 }/ I. e, S+ B( n : i, C7 @. s5 [% { \7 p其中方括号内的数字表示输入文件的每一行数据所对应的RSRP预测值,预测值的数量与输入文件的行数(表头除外)对应,例如上文的输出文件对应的输入文件应该是5行(表头除外)。如果输出文件的预测值少于输入文件的行数,则会以补0的形式将输出文件填满后进行评分;如果输出文件的预测值多余输入文件的行数,则会取输出文件的前N个预测值进行评分,其中N为输入文件的行数。* K x5 l# v6 V3 g
# {/ A2 @% ]: t3 d线上代码评分方法% v8 l$ f& x0 A% M) U! u: J. V
对于提交的预测RSRP值,将根据以下条件进行排序。 8 N. M2 J2 c, e+ ]. ?- A; n$ m/ o• 模型在评审数据集的评估下,弱覆盖识别率 (PCRR : Poor coverage recognition rate) 必须大于等于20%。+ Z$ M! ~- y/ h" [
• 在PCRR精度达标后,再根据预测均方根误差 (RMSE : Root mean squared error)大小进行各参赛组的名次排序(RMSE小者排名靠前)。 V* { w# D. V9 \ @' s
PCRR和RMSE的介绍如下所示:$ I3 } D; R# z: ^8 S
弱覆盖识别率 (PCRR : Poor coverage recognition rate)3 g: N6 r* Y$ x7 Z
在进行预测的过程中如果可以有效识别弱覆盖区域,能够更好地帮助运营商精准规划和优化网络从而提升客户体验。因此,除RMSE为有效测试目标之外,弱覆盖识别准确率也是作为一项非常有价值的评价指标。( o! ^# C6 ^# l0 |/ t& h7 k5 h
在本次建模比赛中,弱覆盖判决门限P_th的值定为-103 dBm。若RSRP预测值或实测值小于P_th则为弱覆盖并标记为1,若大于等于P_th则为非弱覆盖并标记为0。根据比较预测值和实测值得到的弱覆盖以及非弱覆盖的差别,可以对以下参数进行统计: . z7 ^# d1 M: P8 {$ HTrue Positive(TP): 真实值为弱覆盖,预测值也为弱覆盖;8 o* ^ x; Q; |! b* M: i
False Positive(FP): 真实值为非弱覆盖,预测值为弱覆盖;1 S, ~3 @/ x8 |5 S8 q2 t
False Negative(FN):真实值为弱覆盖,预测值为非弱覆盖; W2 @. ]. B7 W x6 Y2 STrue Negative(TN): 真实值为非弱覆盖,预测值也为非弱覆盖。 - {$ ]4 n) o, E/ g8 k0 v # [8 G0 G6 u+ X% a4 ^5 ]$ \7 m+ tTable 8:TP、FP、FN和TN的定义/ H) ?' t- b0 j+ I
真实结果' A* k: L6 r3 F3 K ]7 i5 r
True(弱覆盖) False(非弱覆盖) 8 f: b( w0 u1 J8 A, P: ]. B: E预测结果 True(弱覆盖) TP FP- v% Z) S5 K+ H. ?1 k {/ [
False(非弱覆盖) FN TN - A( P) V" l! i9 j" e% _7 j! LPCRR综合考虑Precision(准确率)和Recall(召回率)的目标,其计算公式如下:; t; i9 _0 @. N/ t! q
PCRR= 2*(Precision*Recall)/(Precision+Recall) (3) 0 h0 e0 n3 ~: Q5 J* | C; v( _4 n其中Precision可以理解为预测结果为弱覆盖的栅格实际也是弱覆盖的概率,其定义如下: 3 q* J1 p8 V+ SPrecision= TP/(TP+FP) (4)- Y# _) B8 |8 }1 p1 b
Recall可以理解为真实结果为弱覆盖的栅格有多少被预测成了弱覆盖的概率,其定义如下: z, s( H. k* t0 q% s% g
Recall= TP/(TP+FN) (5) 4 f5 ~, L j; Z$ k$ w# E* t8 xPCRR的计算代码可以参考以下程序& i1 H8 m: L' a. W) Z' ]
Table 9:PCRR计算方法参考 ; B. d. U2 r8 y# ~& @* ]. Q! gdef CaculatePcrr(y_true,y_pred):: Q- X, K1 G( ~# L& ^5 _
t = -103 / q7 t. t1 S$ V9 y7 T9 J @; ]tp = len(y_true[(y_true < t)&(y_pred < t)])! {, P& v! d" Z: `# y& H
fp = len(y_true[(y_true >= t)&(y_pred < t)]): u% t ]3 b8 n ^
fn = len(y_true[(y_true < t) & (y_pred >= t)])$ S) c* d( I! T- s Z
precision =tp/(tp+fp) 5 m" g1 K O6 U4 l$ O, x; k# s: Jrecall = tp/(tp+fn) ! a8 t& M% t* V4 C/ A7 jpcrr = 2 * (precision * recall)/(precision + recall) , k) i& M$ i# R1 Xreturn pcrr, C) O. ~. |& r9 N6 z: _2 |" N
其中y_true为真实的RSRP标签列,y_pred为预测的RSRP标签列 . T! A0 n# f7 v1 v% L d j& \4 u8 h8 P: T
均方根误差 (RMSE : Root mean squared error)2 c7 @) z P4 C) \# {1 f5 v8 X
19 z' N0 K3 M3 P# y
RMSE是评估预测值和实测值整体偏差的指标,其大小直观表现了仿真准确性。直接计算待评估数据的RMSE,计算公式如下:7 }1 z" y5 X% q1 \ {
RMSE= √(1/N ∑_(i=1)N▒〖(P((i))-P ̂((i)))〗2 ) (6) & V- c& S9 a. G: q其中P^((i))为参赛队机器学习模型对于第i组评审数据集的RSRP预测值,P ̂^((i))为第i组评审数据集的RSRP实际测量值。 % D4 C5 M2 e7 X- W模型提交与数据获取 ) ]' S( M" G# G组委会将为参赛队提供华为云ModelArts作为AI运算平台,训练数据集都存储在该平台上。参赛队伍可以将训练数据下载到本地展开训练,同时竞赛评审也利用华为云大赛平台进行。 6 z4 O/ R) l. g! G& h本次竞赛线上部分的数据集获取、模型提交、评分与排名系统等详细内容请访问本次竞赛的华为云网站:https://developer.huaweicloud.com/competition/competitions/1000013923/introduction& p i% F" ^6 ~ k; V
线上作品提交时间:9月21日早上9:00 - 9月23日中午12:00; i: A p$ t; B1 ]3 L
参赛选手可以多次提交模型,每个队伍每天提交次数上限为5次。最终以其提交中最优成绩为准。. H2 z9 I# A; a
————————————————* F: w! q1 S" N5 a, ]+ R( Z! P! {
版权声明:本文为CSDN博主「和你在一起^_^」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。7 ^' m5 K( u# F& P
原文链接:https://blog.csdn.net/weixin_42462804/article/details/101018995 * v% {+ p$ |6 v2 H* g8 W# I% w p: s% J) n* W