8.8 KiB
业务背景与数据角色
- 主数据源 (Main Data):
OTT_GRID是本项目数据分析的核心主干,定义了基础的栅格化分析框架。 - 补充数据源 (Metric Supplement):
4G/5G MR覆盖数据用于对业务指标模型进行深度补充(如:小区级覆盖、PCI 干扰等指标)。 - 建模原则:分析时通常以 OTT 的栅格体系为基准,将 MR 的指标作为扩展属性进行关联补齐。
文档适用范围与分层约定
- 定位说明:本文档仅针对 ODS 层(三份原始 CSV 源数据)的业务语义进行统一说明。
- 字段命名差异:本文档中的字段名均指代 ODS 原始字段。在
dmk模式下的模型表(如tm_xxx事实表、td_xxx维表)中,字段名可能已根据《SQL 编码规范》进行了重命名或规范化(如provincecode可能映射为province_id等)。 - 逻辑一致性:尽管字段名可能改变,但本文档定义的计算逻辑、聚合规则和粒度模型在各层级中保持一致。
基础的概念
时间/账期概念:
- 暂时不需要关注, ott 数据就是月度数据,4/5G覆盖数据则会有分区的字段(不在现有表元数据中体现)
维度概念:
数据源维度:
- data_type: 1:数准 2:腾讯
行政区维度
省: provincecode 对应的中文名称字段: province_name 市: citycode 对应的中文名称字段: city_name 区县: districtcode 对应的中文名称字段: district_name
网络维度
网络: network_class 4G/LTE,5G_SA/NR/5G 频段: freq 频点: earfcn PCI: pci (不要关注其字段类型) 运营商: operator_name 枚举值 :mobile(移动),telecom(电信),unicom(联通),guangdian(广电)
栅格维度
栅格: regionid(无论是OTT还是45G覆盖数据中)
小区维度
小区: cellkey (可以作为小区的唯一标识,也可以作为小区的唯一主键,不要关注其内容格式,无论是eci 还是其他,都一定是小区的唯一标识)
属性/标签概念:
NOTE:
- **凡是本节字段列表中没有说明的字段,都是不要关注的字段。忽略即可。比如:经纬度的偏移量(xx_offset_xx), data_source, 小区经纬度(cell_lon/lat)等 ** -- 4/5G 对齐说明: ss 是5G前缀。比如ssrsrpcount 就与4G的 rsrpcount 对应
字段列表
-
device_id_list 这是一个设备列表(此处代表的是用户列表),意味列表中的每个元素就是代表了一个全网唯一的设备(用户),不需要关注其内容,格式,加密等
-
indoor_flag : 室内外标识。 0:室外,1:室内
栅格中心经纬度: center_lon/grid_lon center_lat/grid_lat (这个经纬度代表了一个栅格唯一的位置表示,就是代表了栅格点)。暂时忽略 xx_offset_xx 偏移字段。
指标概念:
NOTE:
- 对于其他指标如: 越区覆盖,重叠覆盖,过覆盖,mod30/mod3干扰等概念,不需要深入了解。
RSRP
-
概念: 代表了信号的强弱, 一般是以dBm为单位,数值越大,信号越好。一般, -110dBm以上表示信号较好, -110dBm以下表示信号较差。
-
一般凡是字段名称中带有rsrp的指标或者覆盖相关的字段指标,都是与rsrp强相关的指标。例如:
- totalrsrp
- avgrsrp
- rsrpcount
SINR
-
概念: SINR(Signal to Interference plus Noise Ratio),即信号与干扰加噪声的比值,反映了接收信号质量的指标,越大越好。一般 -3 以上代表信号干扰低。
-
有无ul都是一个概念
-
一般凡是字段名称中带有SINR的指标或者干扰相关的字段指标,都是与SINR强相关的指标。例如:
- totalulsinr
- avg_sinr
RSRQ
-
概念: RSRQ(Reference Signal Received Quality),即参考信号接收质量,反映了信号质量的指标,越大越好。一般-10/13.5 以上表示信号质量较好,否则表示信号质量较差。
-
一般凡是字段名称中带有rsrq的指标,都是与rsrq强相关的指标。例如:
- totalrsrq
- avgrsrq
- rsrqcount
计算概念:
计数 count/cnt/num(s)
- 主要就是进行计数,字段名称中带有 count 或 cnt 或 num(s) 的指标都是。例如:
- rsrqcount
- overlap_mrcount
- rsrpcount (特别说明: rsrp的采样点数,一般就是代表各种指标概念的mr基础总数,一般做分母用,用于计算不同的平均值或率值)
- ssrsrpcount 与 rsrpcount对应,分别代码5G与4G的 mr 基础总数
总量 sum/total/sum(s)
- 主要就是进行求和,字段名称中带有 sum 或 total 或 sum(s) 的指标都是。例如:
- totalsssinr
- totalrsrp
平均数 avg/mean/avg(s/_)
- 主要就是进行平均值,字段名称中带有 avg 或 mean 或 avg(s) 的指标都是。一般都是通过: 总量/计数 得到的。例如:
- overlap_avgrsrp = overlap_totalrsrp/overlap_mrcount
- avgrsrq = totalrsrq/rsrpcount
业务概念说明:
- weak 代表的是弱
- cover 代表的是覆盖
- 如果中文说明中有覆盖字眼,就说明是与rsrp相关或是由rsrp相关指标计算而来
- 不需要关注电平等级
- 优良差的标准是由业务需求规范中决定的,与需求强相关,无法直接确定
字段类型说明
三种基础ODS数据中,同一字段,类型不一致,是事实,无法改变。同语义概念的字段,是事实,无法改变。
数据粒度与汇总说明
OTT 数据粒度 (OTT_GRID)
- 复合细粒度定义:
OTT_GRID的一行记录是由以下维度的组合唯一确定的:- [行政区划]
province/city/district+ [时间]year_month+ [数据来源]data_type+ [运营商]operator_name+ [网络类型]network_class+ [频点/频段]earfcn/freq+ [栅格ID]regionid。
- [行政区划]
- 独立性原则:不同的
data_type(如:1:数准,2:腾讯)代表独立的数据来源,它们之间没有必然联系,在数据中表现为完全独立的行。 - 栅格级汇总逻辑:
- 必须聚合计算:由于原始数据存在频点、运营商等细分维度,计算栅格级(regionid)平均指标时,必须先进行求和聚合。
- 正确公式:
平均 RSRP = sum(totalrsrp) / sum(rsrpcount)。 - 禁忌:严禁直接对
avgrsrp字段执行AVG()操作,因为不同行之间的采样点数(权重)是不一致的。
MR 数据粒度 (4G/5G MR_GRID_SCELL)
- 复合细粒度定义:
4G/5G MR的一行记录是由以下维度的组合唯一确定的:- [行政区划]
province/city/district+ [小区]cellkey+ [PCI]pci+ [频段]freq+ [栅格ID]regionid。
- [行政区划]
- 并行数据说明:在同一个小区、同一个栅格内,由于 PCI 或频段的不同,会存在多条并行的记录。
- 汇总聚合逻辑:
- 必须聚合计算:在进行栅格级(regionid)汇总分析时,必须跨越小区、PCI、频段以及需要忽略的字段(如
data_source、plmn)进行求和聚合。 - 正确公式:
- 4G:
平均 RSRP = sum(totalrsrp) / sum(rsrpcount)。 - 5G:
平均 RSRP = sum(totalrsrp) / sum(ssrsrpcount)。
- 4G:
- 必须聚合计算:在进行栅格级(regionid)汇总分析时,必须跨越小区、PCI、频段以及需要忽略的字段(如
- 禁忌:严禁直接对
avgrsrp或avg_rsrp字段执行AVG()操作。 - 网络类型区分:4G/5G MR 的网络类型由原始表名 or 数据来源区分,不包含
network_class字段。
跨表关联与对齐规范
在进行多表联合查询或跨 ODS 层数据对比时,必须遵循以下对齐准则:
1. 关联主键 (Join Keys)
- 行政区划级关联:必须包含
provincecode,citycode,districtcode(或对应的名称字段) 作为基础过滤或关联条件。 - 栅格级关联:以
regionid作为核心关联键。
2. 运营商维度对齐
- MR 数据 (4G/5G):数据仅代表本运营商(电信/telecom)。不进行运营商区分,不使用
plmn字段。 - OTT 数据:包含全量运营商(移动/电信/联通/广电)。
- 对齐要求:若将 OTT 与 MR 在栅格级别进行对比(如:计算偏离度),必须在 OTT 侧显式过滤
operator_name = 'telecom'。
3. 指标语义映射清单
| 语义概念 | MR (4G/5G) 字段 | OTT 字段 |
|---|---|---|
| 栅格经度 | grid_lon |
center_lon |
| 栅格纬度 | grid_lat |
center_lat |
| 基础采样点数 | rsrpcount / ssrsrpcount |
rsrpcount |
| 平均 SINR | avg_sinr |
avgsinr |
| 总 RSRP | totalrsrp |
totalrsrp |
4. 跨表禁忌
- 严禁对比电平等级:忽略所有
levelX_mrcount字段,跨表时严禁关联或对比此类分布指标。 - 降维处理:由于 OTT 存在频点(earfcn)粒度而 MR 不存在,在
regionid级别关联时,OTT 必须先按栅格进行SUM聚合降维。