ctc_poc2026/specs/openspec.md

- 对于以下的目标`*` 表，尽量以ODS OTT 数据为主数， **tm_cell_grid_coverage_m 以ODS MR 数据为主数**
- 对于目标*的表，ODS MR 只要需要的场景下才会涉及。比如：重叠覆盖类指标，过覆盖类指标，MOD类指标
~~- 对于目标*表中的字段：indoor_flag， 只在 `tm_region_coverage_m` 中**必填**，其他表置空处理不考虑~~
- 对于数据计算的环境：分为 hivesql, postgis(pg) 两侧，一般只有涉及到空间计算时，才会涉及到postgis(pg)， 比如：表 `tm_cluster_area_m`. 默认情况下，以 hivesql侧为主
- 所有的目标*表，其中涉及到的 `市场份额`, `驻留比`，`高价值`, `VIP` 等字眼 的字段，直接置空处理。
- **`tm_cluster_area_m`要单独进行梳理分析**
- **全量持久化要求**：本项目涉及的所有核心表，包括依赖维表 (`#`) 和 目标计算表 (`*`)，最终必须全部持久化存储于 PostgreSQL (PG) 数据库中。
- **维表双侧冗余**：第一组 `td_grid`, `td_building_grid_m`, `td_building_cell_m` 等维表，在 PG 侧作为应用支撑的同时，必须在 HiveSQL 侧同步保留备份，以支撑 `tm_xxx` 系列表的月度大规模聚合计算。
- **计算逻辑 Skill 化**：所有目标 `*` 表的梳理结论必须沉淀为独立的 Skill 文档，存储于 `target_table_skills/` 目录下，文件名为 `表名.md`，作为指导开发智能体生成 SQL 的基准。
- **开发产物规范化**：开发代码（SQL、Shell）必须按表归档于 `src/` 目录下的独立子目录（以表名命名）。SQL 与 Shell 脚本分离，并包含 `README.md` 执行说明。
- **维度补全与双源融合策略 (UNION 模式)**：
    1. **维度缺省填充**：在计算分支中，若数据源不具备目标表维度，必须采用默认值填充（如 `indoor_flag = -1`, `freq = 'all'`）。
    2. **室内外明细粒度 (0/1)**：主数来源锁定为 **ODS MR**，代表电信本网深度覆盖。
    3. **全量聚合粒度 (-1)**：主数来源锁定为 **ODS OTT**，代表全网大盘覆盖。
    4. **结果集成**：两类数据执行 `UNION ALL` 后存入 PG，禁止在同一行中混合两源原始采样指标。
- **用户数去重与近似计算**：跨栅格聚合（如区域、楼宇）的用户数统计必须基于 `device_id_list` 执行集合去重。为优化性能，接受并推荐使用近似计算函数（如 `approx_count_distinct`）。
- **聚类融合策略 (OTT 锚点 + MR 空间回填)**：`tm_cluster_area_m` 聚类簇不再进行单源隔离。
    1. **锚点聚类**：基于 `tm_grid_coverage_m` 中 `indoor_flag = -1` (OTT 侧) 的弱覆盖栅格执行空间聚类，确定簇的地理边界 (WKT) 和核心规模指标 (用户数)。
    2. **空间回填**：利用生成的聚类区域边界，通过空间关联 (Spatial Join) 统计并回填该区域内 MR 侧 (`indoor_flag ∈ {0, 1}`) 的网络质差指标（如重叠覆盖、干扰点数等）。
    3. **输出要求**：最终表结构不包含 `indoor_flag`，实现同一地理区域内规模与质量指标的合一。
- **楼宇分类判别规范**：
    1. **数据源限定**：由于涉及三网对比，`building_type` 的判定逻辑仅在 OTT 数据分支（`indoor_flag = -1`）下执行。
    2. **判定依据**：严格执行 `specs\build_type_specs.md` 中的判定算法。
    ### 4. 栅格达标率 (Grid Coverage Rate) 计算标准

该指标用于衡量行政区、楼宇或场景内，网络覆盖“优秀”的栅格占比。其计算采用两级判定逻辑：

1.  **栅格级判定 (Grid Level)**：
    *   在 `tm_grid_coverage_m` 中计算。
    *   **判定标准**：若单个栅格内的覆盖率（RSRP >= -105dBm 或 -110dBm 的采样点占比）**≥ 90%**，则判定为该栅格“达标”。
2.  **区域级聚合 (Region Level)**：
    *   在 `tm_region_coverage_m`、`tm_building_coverage_m` 等表中聚合。
    *   **计算公式**：`COUNT(达标栅格) / COUNT(该区域内所有有采样点的栅格)`。
    *   **注意**：分子分母均需按运营商（operator_name）和网络制式（network_class）进行隔离统计。
  3. **字典映射**：分类结果必须映射至 `td_dict_item_202605031501111.csv` 定义的标准 Key（如 `network_first`, `advantage` 等）。