WebGPU 离线终端

[ TERMINAL ]

[ SYSTEM ] 等待挂载指令...

>> 初始化完成。本地 GPU 待命中。
>> 请在顶部选择模型架构并执行 [载入模型]。

[ WebGPU 离线大模型技术白皮书 ]

01. 架构概览与 WebGPU 原理

本系统为一个纯粹的“前端重计算”节点。核心引擎基于 Apache TVM 编译栈与 WebGPU API，将物理显卡（GPU）的 VRAM 直接映射为计算矩阵池。本界面无任何后端服务器依赖。

02. 存储持久化与物理隔离

模型权重文件（.gguf 变体）被拦截并吸入浏览器的 Cache Storage API 底层沙盒。
- 初次挂载： 需通过骨干网拉取模型切片（1~4GB）至本地硬盘。
- 离线唤醒： 切断网络后，系统直接从硬盘沙盒将权重加载至显存。实现 100% 物理级气隙隔离（Air-gapped）。

03. 资源销毁与更新机制

点击主界面的 [ ⏏ 清除本地模型 ] 按钮，系统将执行底层 API 遍历，强制爆破并格式化所有包含 WebLLM 特征的本地数据库区块。
此操作将彻底释放硬盘空间（回收 GB 级容量）。当您需要更新迭代模型版本，或设备空间告急时，请务必执行此核销指令。

04. 显存 (VRAM) 临界值守则

大语言模型为显存吞噬者。若跨越硬件红线，将触发浏览器的 OOM（Out Of Memory）防卫机制强制杀除进程：

Gemma 2B / Qwen 1.5B： 极度轻量，占用约 1.5GB 显存，适用于废旧机型及基础单板机。
Phi-3 Mini： 逻辑强化型，占用约 2.2GB 显存，建议 8GB RAM 物理机。
Llama-3 8B： 重装构架，显存消耗暴涨至 6GB+。无独立显卡设备严禁强行挂载。

05. 安全宣告

单文件架构。所有神经元突触交互、思考过程、输入输出，均局限在您的物理设备内。将本 HTML 拷入闪存盘带入无人区，它仍是具备完整语义解析能力的智能中枢。