🔬 科技研究与边缘计算实验室

专注于大语言模型架构、边缘计算(Edge Computing)以及分布式系统的定量研究。

大语言模型 (LLM)

研究简报:端侧模型(On-Device LLM)在边缘节点的推理延迟优化

摘要:本研究探讨了如何利用 Cloudflare Workers 的 WebAssembly (Wasm) 运行时,在靠近用户的边缘节点部署轻量化量化模型,以显著降低跨境网络带来的延迟。

随着小型语言模型(如 Llama-3-8B 4-bit 量化版)的成熟,将推理任务从中心化的 GPU 集群下沉到全球边缘节点(Edge Nodes)成为可能。通过定量分析,我们发现传统的中心化架构在跨国请求中存在大约 150ms-300ms 的网络抖动。

延迟数学模型

总延迟 T_total 可以粗略表示为传输延迟与推理延迟之和:

Ttotal = Tnetwork + Tinference = (2 · D) / cfiber + Ntokens / TPS

通过在离读者最近的 Cloudflare 边缘节点运行 Wasm 推理,我们将 T_network 成功压缩至接近本地网络响应(< 20ms)。

分布式系统

深度解析:Cloudflare KV 与 Durable Objects 的强一致性权衡

在设计全球分布式系统时,CAP定理是无法回避的。Cloudflare KV 采用的是最终一致性(Eventual Consistency),由于其全球缓存刷新的特性,数据写入后通常需要几十秒才能同步全球。

如果研究场景需要强一致性(比如学术论文投票系统或分布式锁),我们需要使用 Durable Objects。以下是我们研究团队在边缘端实现原子计数器的核心逻辑:

export class CounterObject {
  constructor(state, env) {
    this.state = state;
  }
  async fetch(request) {
    let value = await this.state.storage.get("value") || 0;
    value++;
    await this.state.storage.put("value", value);
    return new Response(value.toString());
  }
}