本系统为一个纯粹的“前端重计算”节点。核心引擎基于 Apache TVM 编译栈与 WebGPU API,将物理显卡(GPU)的 VRAM 直接映射为计算矩阵池。本界面无任何后端服务器依赖。
模型权重文件(.gguf 变体)被拦截并吸入浏览器的 Cache Storage API 底层沙盒。
- 初次挂载: 需通过骨干网拉取模型切片(1~4GB)至本地硬盘。
- 离线唤醒: 切断网络后,系统直接从硬盘沙盒将权重加载至显存。实现 100% 物理级气隙隔离(Air-gapped)。
点击主界面的 [ ⏏ 清除本地模型 ] 按钮,系统将执行底层 API 遍历,强制爆破并格式化所有包含 WebLLM 特征的本地数据库区块。
此操作将彻底释放硬盘空间(回收 GB 级容量)。当您需要更新迭代模型版本,或设备空间告急时,请务必执行此核销指令。
大语言模型为显存吞噬者。若跨越硬件红线,将触发浏览器的 OOM(Out Of Memory)防卫机制强制杀除进程:
单文件架构。所有神经元突触交互、思考过程、输入输出,均局限在您的物理设备内。将本 HTML 拷入闪存盘带入无人区,它仍是具备完整语义解析能力的智能中枢。