ctc_poc2026/ods/基础信息语义统一.md

201 lines
8.8 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# 业务背景与数据角色
- **主数据源 (Main Data)**`OTT_GRID` 是本项目数据分析的核心主干,定义了基础的栅格化分析框架。
- **补充数据源 (Metric Supplement)**`4G/5G MR` 覆盖数据用于对业务指标模型进行深度补充小区级覆盖、PCI 干扰等指标)。
- **建模原则**:分析时通常以 OTT 的栅格体系为基准,将 MR 的指标作为扩展属性进行关联补齐。
# 文档适用范围与分层约定
- **定位说明**:本文档**仅针对 ODS 层**(三份原始 CSV 源数据)的业务语义进行统一说明。
- **字段命名差异**:本文档中的字段名均指代 **ODS 原始字段**。在 `dmk` 模式下的模型表(如 `tm_xxx` 事实表、`td_xxx` 维表字段名可能已根据《SQL 编码规范》进行了重命名或规范化(如 `provincecode` 可能映射为 `province_id` 等)。
- **逻辑一致性**:尽管字段名可能改变,但本文档定义的计算逻辑、聚合规则和粒度模型在各层级中保持一致。
# 基础的概念
## 时间/账期概念:
* 暂时不需要关注, ott 数据就是月度数据4/5G覆盖数据则会有分区的字段不在现有表元数据中体现
## 维度概念:
### 数据源维度:
* data_type: 1数准 2腾讯
### 行政区维度
省: provincecode 对应的中文名称字段: province_name
市: citycode 对应的中文名称字段: city_name
区县: districtcode 对应的中文名称字段: district_name
### 网络维度
网络: network_class 4G/LTE5G_SA/NR/5G
频段: freq
频点: earfcn
PCI: pci (不要关注其字段类型)
运营商: operator_name 枚举值 mobile(移动),telecom(电信),unicom(联通),guangdian(广电)
### 栅格维度
栅格: regionid无论是OTT还是45G覆盖数据中
### 小区维度
小区: cellkey 可以作为小区的唯一标识也可以作为小区的唯一主键不要关注其内容格式无论是eci 还是其他,都一定是小区的唯一标识)
## 属性/标签概念:
> NOTE:
- **凡是本节字段列表中没有说明的字段都是不要关注的字段。忽略即可。比如经纬度的偏移量xx_offset_xx, data_source, 小区经纬度cell_lon/lat**
-- 4/5G 对齐说明: ss 是5G前缀。比如ssrsrpcount 就与4G的 rsrpcount 对应
### 字段列表
- device_id_list 这是一个设备列表(**此处代表的是用户列表**),意味列表中的每个元素就是代表了一个全网唯一的设备(用户),不需要关注其内容,格式,加密等
- indoor_flag : 室内外标识。 0室外1室内
栅格中心经纬度: center_lon/grid_lon center_lat/grid_lat (这个经纬度代表了一个栅格唯一的位置表示,就是代表了栅格点)。***暂时忽略 xx_offset_xx 偏移字段。***
## 指标概念:
> NOTE:
* 对于其他指标如: 越区覆盖重叠覆盖过覆盖mod30/mod3干扰等概念不需要深入了解。
### RSRP
* 概念: 代表了信号的强弱, 一般是以dBm为单位数值越大信号越好。一般 -110dBm以上表示信号较好 -110dBm以下表示信号较差。
* 一般凡是字段名称中带有rsrp的指标或者覆盖相关的字段指标都是与rsrp强相关的指标。例如
- totalrsrp
- avgrsrp
- rsrpcount
### SINR
* 概念: SINRSignal to Interference plus Noise Ratio即信号与干扰加噪声的比值反映了接收信号质量的指标越大越好。一般 -3 以上代表信号干扰低。
* **有无ul都是一个概念**
* 一般凡是字段名称中带有SINR的指标或者干扰相关的字段指标都是与SINR强相关的指标。例如
- totalulsinr
- avg_sinr
### RSRQ
* 概念: RSRQReference Signal Received Quality即参考信号接收质量反映了信号质量的指标越大越好。一般-10/13.5 以上表示信号质量较好,否则表示信号质量较差。
* 一般凡是字段名称中带有rsrq的指标都是与rsrq强相关的指标。例如
- totalrsrq
- avgrsrq
- rsrqcount
## 计算概念:
### 计数 count/cnt/num(s)
* 主要就是进行计数,字段名称中带有 count 或 cnt 或 num(s) 的指标都是。例如:
- rsrqcount
- overlap_mrcount
- rsrpcount **特别说明:** rsrp的采样点数一般就是代表各种指标概念的mr基础总数一般做分母用用于计算不同的平均值或率值
- ssrsrpcount 与 rsrpcount对应分别代码5G与4G的 mr 基础总数
### 总量 sum/total/sum(s)
* 主要就是进行求和,字段名称中带有 sum 或 total 或 sum(s) 的指标都是。例如:
- totalsssinr
- totalrsrp
### 平均数 avg/mean/avg(s/_)
* 主要就是进行平均值,字段名称中带有 avg 或 mean 或 avg(s) 的指标都是。一般都是通过: 总量/计数 得到的。例如:
- overlap_avgrsrp = overlap_totalrsrp/overlap_mrcount
- avgrsrq = totalrsrq/rsrpcount
---
# 业务概念说明:
- weak 代表的是弱
- cover 代表的是覆盖
- 如果中文说明中有覆盖字眼就说明是与rsrp相关或是由rsrp相关指标计算而来
- **不需要关注电平等级**
- **优良差的标准是由业务需求规范中决定的,与需求强相关,无法直接确定**
---
# 字段类型说明
## 三种基础ODS数据中同一字段类型不一致是事实无法改变。同语义概念的字段是事实无法改变。
---
# 数据粒度与汇总说明
## OTT 数据粒度 (OTT_GRID)
- **复合细粒度定义**`OTT_GRID` 的一行记录是由以下维度的组合唯一确定的:
- **[行政区划]** `province/city/district` + **[时间]** `year_month` + **[数据来源]** `data_type` + **[运营商]** `operator_name` + **[网络类型]** `network_class` + **[频点/频段]** `earfcn`/`freq` + **[栅格ID]** `regionid`
- **独立性原则**:不同的 `data_type`1数准2腾讯代表独立的数据来源它们之间没有必然联系在数据中表现为完全独立的行。
- **栅格级汇总逻辑**
- **必须聚合计算**由于原始数据存在频点、运营商等细分维度计算栅格级regionid平均指标时必须先进行求和聚合。
- **正确公式**`平均 RSRP = sum(totalrsrp) / sum(rsrpcount)`
- **禁忌**:严禁直接对 `avgrsrp` 字段执行 `AVG()` 操作,因为不同行之间的采样点数(权重)是不一致的。
## MR 数据粒度 (4G/5G MR_GRID_SCELL)
- **复合细粒度定义**`4G/5G MR` 的一行记录是由以下维度的组合唯一确定的:
- **[行政区划]** `province/city/district` + **[小区]** `cellkey` + **[PCI]** `pci` + **[频段]** `freq` + **[栅格ID]** `regionid`
- **并行数据说明**:在同一个小区、同一个栅格内,由于 PCI 或频段的不同,会存在多条并行的记录。
- **汇总聚合逻辑**
- **必须聚合计算**在进行栅格级regionid汇总分析时必须跨越小区、PCI、频段以及需要忽略的字段`data_source``plmn`)进行求和聚合。
- **正确公式**
- **4G**: `平均 RSRP = sum(totalrsrp) / sum(rsrpcount)`
- **5G**: `平均 RSRP = sum(totalrsrp) / sum(ssrsrpcount)`
- **禁忌**:严禁直接对 `avgrsrp``avg_rsrp` 字段执行 `AVG()` 操作。
- **网络类型区分**4G/5G MR 的网络类型由原始表名 or 数据来源区分,不包含 `network_class` 字段。
# 跨表关联与对齐规范
在进行多表联合查询或跨 ODS 层数据对比时,必须遵循以下对齐准则:
## 1. 关联主键 (Join Keys)
- **行政区划级关联**:必须包含 `provincecode`, `citycode`, `districtcode` (或对应的名称字段) 作为基础过滤或关联条件。
- **栅格级关联**:以 `regionid` 作为核心关联键。
## 2. 运营商维度对齐
- **MR 数据 (4G/5G)**:数据仅代表**本运营商(电信/telecom**。不进行运营商区分,不使用 `plmn` 字段。
- **OTT 数据**:包含全量运营商(移动/电信/联通/广电)。
- **对齐要求**:若将 OTT 与 MR 在栅格级别进行对比(如:计算偏离度),**必须**在 OTT 侧显式过滤 `operator_name = 'telecom'`
## 3. 指标语义映射清单
| 语义概念 | MR (4G/5G) 字段 | OTT 字段 |
| :--- | :--- | :--- |
| **栅格经度** | `grid_lon` | `center_lon` |
| **栅格纬度** | `grid_lat` | `center_lat` |
| **基础采样点数** | `rsrpcount` / `ssrsrpcount` | `rsrpcount` |
| **平均 SINR** | `avg_sinr` | `avgsinr` |
| **总 RSRP** | `totalrsrp` | `totalrsrp` |
## 4. 跨表禁忌
- **严禁对比电平等级**:忽略所有 `levelX_mrcount` 字段,跨表时严禁关联或对比此类分布指标。
- **降维处理**:由于 OTT 存在频点earfcn粒度而 MR 不存在,在 `regionid` 级别关联时OTT 必须先按栅格进行 `SUM` 聚合降维。