4.2 KiB
4.2 KiB
- 对于以下的目标
*表,尽量以ODS OTT 数据为主数, tm_cell_grid_coverage_m 以ODS MR 数据为主数 - 对于目标的表,ODS MR 只要需要的场景下才会涉及。比如:重叠覆盖类指标,过覆盖类指标,MOD类指标
~~- 对于目标表中的字段:indoor_flag, 只在
tm_region_coverage_m中必填,其他表置空处理不考虑~~ - 对于数据计算的环境:分为 hivesql, postgis(pg) 两侧,一般只有涉及到空间计算时,才会涉及到postgis(pg), 比如:表
tm_cluster_area_m. 默认情况下,以 hivesql侧为主 - 所有的目标*表,其中涉及到的
市场份额,驻留比,高价值,VIP等字眼 的字段,直接置空处理。 tm_cluster_area_m要单独进行梳理分析- 全量持久化要求:本项目涉及的所有核心表,包括依赖维表 (
#) 和 目标计算表 (*),最终必须全部持久化存储于 PostgreSQL (PG) 数据库中。 - 维表双侧冗余:第一组
td_grid,td_building_grid_m,td_building_cell_m等维表,在 PG 侧作为应用支撑的同时,必须在 HiveSQL 侧同步保留备份,以支撑tm_xxx系列表的月度大规模聚合计算。 - 计算逻辑 Skill 化:所有目标
*表的梳理结论必须沉淀为独立的 Skill 文档,存储于target_table_skills/目录下,文件名为表名.md,作为指导开发智能体生成 SQL 的基准。 - 开发产物规范化:开发代码(SQL、Shell)必须按表归档于
src/目录下的独立子目录(以表名命名)。SQL 与 Shell 脚本分离,并包含README.md执行说明。 - 维度补全与双源融合策略 (UNION 模式):
- 维度缺省填充:在计算分支中,若数据源不具备目标表维度,必须采用默认值填充(如
indoor_flag = -1,freq = 'all')。 - 室内外明细粒度 (0/1):主数来源锁定为 ODS MR,代表电信本网深度覆盖。
- 全量聚合粒度 (-1):主数来源锁定为 ODS OTT,代表全网大盘覆盖。
- 结果集成:两类数据执行
UNION ALL后存入 PG,禁止在同一行中混合两源原始采样指标。
- 维度缺省填充:在计算分支中,若数据源不具备目标表维度,必须采用默认值填充(如
- 用户数去重与近似计算:跨栅格聚合(如区域、楼宇)的用户数统计必须基于
device_id_list执行集合去重。为优化性能,接受并推荐使用近似计算函数(如approx_count_distinct)。 - 聚类融合策略 (OTT 锚点 + MR 空间回填):
tm_cluster_area_m聚类簇不再进行单源隔离。- 锚点聚类:基于
tm_grid_coverage_m中indoor_flag = -1(OTT 侧) 的弱覆盖栅格执行空间聚类,确定簇的地理边界 (WKT) 和核心规模指标 (用户数)。 - 空间回填:利用生成的聚类区域边界,通过空间关联 (Spatial Join) 统计并回填该区域内 MR 侧 (
indoor_flag ∈ {0, 1}) 的网络质差指标(如重叠覆盖、干扰点数等)。 - 输出要求:最终表结构不包含
indoor_flag,实现同一地理区域内规模与质量指标的合一。
- 锚点聚类:基于
- 楼宇分类判别规范:
- 数据源限定:由于涉及三网对比,
building_type的判定逻辑仅在 OTT 数据分支(indoor_flag = -1)下执行。 - 判定依据:严格执行
specs\build_type_specs.md中的判定算法。
4. 栅格达标率 (Grid Coverage Rate) 计算标准
- 数据源限定:由于涉及三网对比,
该指标用于衡量行政区、楼宇或场景内,网络覆盖“优秀”的栅格占比。其计算采用两级判定逻辑:
- 栅格级判定 (Grid Level):
- 在
tm_grid_coverage_m中计算。 - 判定标准:若单个栅格内的覆盖率(RSRP >= -105dBm 或 -110dBm 的采样点占比)≥ 90%,则判定为该栅格“达标”。
- 在
- 区域级聚合 (Region Level):
- 在
tm_region_coverage_m、tm_building_coverage_m等表中聚合。 - 计算公式:
COUNT(达标栅格) / COUNT(该区域内所有有采样点的栅格)。 - 注意:分子分母均需按运营商(operator_name)和网络制式(network_class)进行隔离统计。
- 在
- 字典映射:分类结果必须映射至
td_dict_item_202605031501111.csv定义的标准 Key(如network_first,advantage等)。