如何生成包含最少n个点的不规则网格？

给定大量（约100万个）不均匀分布点的样本-是否可以生成包含指定最小n点数量的不规则网格（大小，但形状是否可能不规则？）？

如果这样的网格的基元“单元”恰好包含n个点或至少n个点，那么对我而言，重要性就不那么重要了。在ArcGIS中使用genvecgrid或在QGIS / mmgis中使用创建网格层，但是它们都将创建常规网格，这将导致输出的单元格为空（较小的问题-我可以简单地丢弃它们）或点数小于n的单元格（因为我需要一个解决方案来汇总这些单元格，可能使用这里的一些工具？）。

我一直在搜索，但无济于事，并且对商业（ArcGIS和扩展）或免费开放（Python，PostGIS，R）解决方案。

网格需要如何“常规”？我想知道您是否可以进行一些层次的聚类，然后仅剪切树状图以满足您的需求（尽管这可能会扩展定义为常规空间配置的内容）。 CrimeStat文档提供了这类群集的一些很好的例子。

您能否确切解释“不规则网格”的含义？这听起来很矛盾：-)。更重要的是，此练习的目的是什么？还要注意，可能还需要其他条件或约束：毕竟，如果在所有100万个点周围绘制一个正方形，则可以将其视为网格的一部分，并且将包含n个以上的网格。不过，您可能不希望这种简单的解决方案：但是，为什么不呢？

@AndyW谢谢。好主意，值得探索。会看看。 “网格”的大小和形状对我来说是次要的-优先级（由于数据隐私）是“隐藏” n个功能的后面

@whuber也谢谢。我同意-但不确定如何命名该分区。如上所述，我的主要动机是数据隐私。有五个点的位置（我无法在最终地图上显示），我想通过覆盖它们的区域来表示它们；并获得均值/中位数/等。价值。我同意可以绘制一个代表它们的矩形或凸包-我猜这将是最终的数据隐私保护吗？ ;]但是-用形状边界表示它会更有用，比如说10个特征。然后-我仍然可以保留空间模式。

IMO根据您的描述，我将使用某种类型的插值并显示一个栅格图（也许最小N的大小的自适应带宽足以使数据平滑）。就CrimeStat而言，我相信使用的最大文件约为100,000个案件（并且群集肯定会随着时间的流逝）。您可能需要对数据进行一些预概括，以便将其表示为更少的情况，并且无论您想要什么，仍然可以获得理想的结果。这是一个非常简单的程序，建议您花几分钟尝试一下，然后亲自看看。

#1 楼

我看到MerseyViking建议使用四叉树。我将建议相同的内容，并且为了解释它，这是代码和示例。该代码是用R编写的，但是应该很容易地移植到Python中。 y方向，在每个级别上交替变化，直到不再需要分割为止。

由于目的是掩盖实际点的位置，因此在分割中引入一些随机性是很有用的。一种快速简单的方法是在分位数集上从50％处拆分一个小的随机量。以这种方式（a）分裂值极不可能与数据坐标重合，因此点将唯一地落入由分区创建的象限中，并且（b）点坐标将无法从四叉树精确地重建。 />
因为要在每个四叉树叶子中维持最小数量的节点数量k，所以我们实施了四叉树的受限形式。它将支持（1）将聚类点划分为每个在k和2 * k -1个元素之间的组，以及（2）映射象限。他们按班级。类标签加快了后处理（例如绘图）的速度，如下所示。该代码使用数字值作为ID。这在树中的深度达到52（使用双精度；如果使用无符号长整数，则最大深度为32）。对于较深的树（在任何应用中都不太可能，因为至少涉及R * 2 ^ 52点），所以id必须是字符串。

quadtree <- function(xy, k=1) {
  d = dim(xy)[2]
  quad <- function(xy, i, id=1) {
    if (length(xy) < 2*k*d) {
      rv = list(id=id, value=xy)
      class(rv) <- "quadtree.leaf"
    }
    else {
      q0 <- (1 + runif(1,min=-1/2,max=1/2)/dim(xy)[1])/2 # Random quantile near the median
      x0 <- quantile(xy[,i], q0)
      j <- i %% d + 1 # (Works for octrees, too...)
      rv <- list(index=i, threshold=x0, 
                 lower=quad(xy[xy[,i] <= x0, ], j, id*2), 
                 upper=quad(xy[xy[,i] > x0, ], j, id*2+1))
      class(rv) <- "quadtree"
    }
    return(rv)
  }
  quad(xy, 1)
}

请注意，此算法（以及大多数后处理算法）的递归分治设计意味着时间要求为O（m），RAM使用量为O（n），其中k是数字单元格数和m是点数。 n与m成比例，除以每个单元格的最小点n。这对于估计计算时间很有用。例如，如果将n = 10 ^ 6点划分为50-99点（k = 50）的单元格需要13秒，则m = 10 ^ 6/50 =20000。如果您想将其划分为5-9每个像元的点数（k = 5），m大10倍，因此计时时间增加到大约130秒。（因为随着单元的变小，在它们的中心附近分解一组坐标的过程变得更快，所以实际的时间只有90秒。）要一直达到每个单元的k = 1点，大约需要六倍的时间。还是九分钟，我们可以预期代码实际上会比这快一点。

在继续之前，让我们生成一些有趣的不规则空间数据并创建其受限的四叉树（0.29秒的经过时间）：

下面是生成这些图的代码。它利用了k的多态性：例如，只要将R函数应用于points.quadtree对象，就会调用points。函数的强大功能非常简单，可以根据聚类标识符为点着色，这很明显：需要重复裁剪用于四叉树划分的阈值，但是相同的递归方法既简单又优雅。如果需要，可以使用变体构造象限的多边形表示形式。

points.quadtree <- function(q, ...) {
  points(q$lower, ...); points(q$upper, ...)
}
points.quadtree.leaf <- function(q, ...) {
  points(q$value, col=hsv(q$id), ...)
}

作为另一个示例，我生成了1,000,000个点并将它们分为5-9个组。计时是91.7秒。

lines.quadtree <- function(q, xylim, ...) {
  i <- q$index
  j <- 3 - q$index
  clip <- function(xylim.clip, i, upper) {
    if (upper) xylim.clip[1, i] <- max(q$threshold, xylim.clip[1,i]) else 
      xylim.clip[2,i] <- min(q$threshold, xylim.clip[2,i])
    xylim.clip
  } 
  if(q$threshold > xylim[1,i]) lines(q$lower, clip(xylim, i, FALSE), ...)
  if(q$threshold < xylim[2,i]) lines(q$upper, clip(xylim, i, TRUE), ...)
  xlim <- xylim[, j]
  xy <- cbind(c(q$threshold, q$threshold), xlim)
  lines(xy[, order(i:j)],  ...)
}
lines.quadtree.leaf <- function(q, xylim, ...) {} # Nothing to do at leaves!

作为与GIS交互的一个示例，让我们使用quadtree库将所有四叉树单元作为多边形shapefile写出。该代码模拟shapefiles的裁剪例程，但是这一次它必须生成单元的向量描述。这些作为数据帧输出，供lines.quadtree库使用。

n <- 25000       # Points per cluster
n.centers <- 40  # Number of cluster centers
sd <- 1/2        # Standard deviation of each cluster
set.seed(17)
centers <- matrix(runif(n.centers*2, min=c(-90, 30), max=c(-75, 40)), ncol=2, byrow=TRUE)
xy <- matrix(apply(centers, 1, function(x) rnorm(n*2, mean=x, sd=sd)), ncol=2, byrow=TRUE)
k <- 5
system.time(qt <- quadtree(xy, k))
#
# Set up to map the full extent of the quadtree.
#
xylim <- cbind(x=c(min(xy[,1]), max(xy[,1])), y=c(min(xy[,2]), max(xy[,2])))
plot(xylim, type="n", xlab="x", ylab="y", main="Quadtree")
#
# This is all the code needed for the plot!
#
lines(qt, xylim, col="Gray")
points(qt, pch=".")

点本身可以使用shapefiles或通过导入（x，y ）坐标。

使用示例：

cell <- function(q, xylim, ...) {
  if (class(q)=="quadtree") f <- cell.quadtree else f <- cell.quadtree.leaf
  f(q, xylim, ...)
}
cell.quadtree <- function(q, xylim, ...) {
  i <- q$index
  j <- 3 - q$index
  clip <- function(xylim.clip, i, upper) {
    if (upper) xylim.clip[1, i] <- max(q$threshold, xylim.clip[1,i]) else 
      xylim.clip[2,i] <- min(q$threshold, xylim.clip[2,i])
    xylim.clip
  } 
  d <- data.frame(id=NULL, x=NULL, y=NULL)
  if(q$threshold > xylim[1,i]) d <- cell(q$lower, clip(xylim, i, FALSE), ...)
  if(q$threshold < xylim[2,i]) d <- rbind(d, cell(q$upper, clip(xylim, i, TRUE), ...))
  d
}
cell.quadtree.leaf <- function(q, xylim) {
  data.frame(id = q$id, 
             x = c(xylim[1,1], xylim[2,1], xylim[2,1], xylim[1,1], xylim[1,1]),
             y = c(xylim[1,2], xylim[1,2], xylim[2,2], xylim[2,2], xylim[1,2]))
}

（在此处对read.shp使用任何所需的范围以放大到子区域或扩展映射到更大的区域；此代码默认为点的范围。）

仅此一项就足够了：这些多边形与原始点的空间连接将识别聚类。一旦确定，数据库“摘要”操作将生成每个单元格内点的摘要统计信息。

哇！太棒了一旦回到办公室，我就会用我的数据试一试=）

– radek
2012年8月21日15:48

最佳答案@whuber！ +1

– MerseyViking
2012年8月21日在17:33

（1）您可以直接使用shapefile包读取shapefile，或者可以以ASCII文本格式导出（x，y）坐标，并使用read.table读取它们。（2）我建议以两种形式写出qt：首先，作为xy的点shapefile，其中将id字段包含为群集标识符；第二，将由lines.quadtree绘制的线段写为折线shapefile（或类似处理将像元写为多边形shapefile）。这就像修改lines.quadtree.leaf以将xylim输出为矩形一样简单。（请参见编辑。）

– hu
2012年8月21日在20:56

@whubber非常感谢您的更新。一切顺利。当之无愧的+50，尽管现在我认为它值得+500！

– radek
2012年8月22日上午10:16

我怀疑计算出的ID出于某些原因不是唯一的。在Quad的定义中进行以下更改：（1）初始化id = 1；（2）在Lower =行中将id / 2更改为id * 2；（3）在upper =行中对id * 2 + 1进行类似更改。（我将编辑我的答复以反映这一点。）这还应该考虑面积的计算：根据您的GIS，所有面积都是正值或全部都是负值。如果它们均为负数，则反转cell.quadtree.leaf中x和y的列表。

– hu
2012年8月22日13:55

#2 楼

查看此算法是否为您的数据样本提供了足够的匿名性：

从规则网格开始
如果多边形的阈值小于阈值，则与相邻的交替合并（E，S，W ，N）顺时针旋转。
如果多边形小于阈值，则转到2，否则转到下一个多边形

，例如，最小阈值为3：

细节在于魔鬼：看来这种方法（或几乎任何凝聚性聚类算法）都可能在整个地方留下很少的“孤立”点，从而无法进行处理。我并不是说这种方法是不可能的，但是如果没有实际的算法以及将其应用于实际点数据集的示例，我将保持健康的怀疑态度。

– hu
2012年8月21日在16:50

确实，这种方法可能有问题。我正在考虑的这种方法的一个应用是使用点作为住宅建筑物的表示。我认为这种方法在人口更稠密的地区效果很好。但是，仍然存在这样的情况：“在无处可走的地方”实际上只有一两座建筑物，这需要大量的迭代，并且会导致很大的面积最终达到最小阈值。

– radek
2012年8月21日19:53

#3 楼

与Paulo有趣的解决方案类似，如何使用四叉树细分算法？

设置希望四叉树去的深度。您还可以为每个像元设置最小或最大点数，以便某些节点比其他节点更深/更小。冲洗并重复直到符合条件。

谢谢。您会为此推荐什么软件？

– radek
2012年8月21日在10:41

原则上，这是一个好主意。但是，如果您永远不允许每个单元格的最小点数少于正数，那么空节点将如何出现？（四叉树种类繁多，因此，空节点的可能性表明您在意一个不适合数据的四叉树，这引起了人们对四叉树对预期任务的用处的担忧。）

– hu
2012年8月21日在16:20

我这样描述：想象一个节点中的点超过最大阈值，但是它们聚集在节点的左上角。该节点将被细分，但右下子节点将为空，因此可以对其进行修剪。

– MerseyViking
2012年8月21日在17:31

我知道您在做什么（+1）。诀窍是在由坐标确定的点（例如它们的中位数）进行细分，从而保证没有空单元格。否则，四叉树主要由点所占据的空间确定，而不是点本身。然后，您的方法将成为执行@Paulo提出的通用想法的有效方法。

– hu
2012年8月21日18:00

#4 楼

另一种方法是创建一个非常精细的网格，并使用max-p算法。 http://pysal.readthedocs.org/en/v1.7/library/region/maxp.html

编程黑洞网

如何生成包含最少n个点的不规则网格？

评论

#1 楼

评论

#2 楼

评论

#3 楼

评论

#4 楼