阿里 ECS 是一台物理机器构成的还是多台物理机器构成的？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

Recommended Services

Amazon Web Services

LeanCloud

New Relic

ClearDB

这是一个创建于 1401 天前的主题，其中的信息可能已经有所发展或是发生改变。

阿里 ECS 是一台机器构成的还是多台机器构成的？

是一台物理机实现（某一台池化机器上的某个虚拟机）
还是多台物理机构成的网络计算机（即：纯粹基于网络的计算机，比如：内存由北京的一个服务器组成，CPU 由广东和福建的两台服务器共同构成，硬盘是浙江的三台服务器构成的）

请问是 1 还是 2 ？

如果不是 2 ，那么现在的技术世界里存不存在 2 这种实现？

第 1 条附言 2021-12-21 16:12:17 +08:00

了解到有一项叫做“超融合”的技术，有点类似于 2 的情况。

构成

机器

物理

ecs

51 条回复 2021-12-22 15:22:53 +08:00

ThirdFlame

2021-12-21 15:00:47 +08:00

显然是 1
2 的话成本有点高而且开销有点大

julyclyde

2021-12-21 15:02:28 +08:00

古代有个 mosix 可以把多个机器合并为一个
不过后来这东西没继续发展了

现在的 ecs 应该都是小于等于一台物理机的

wy315700

2021-12-21 15:04:29 +08:00

内存和 CPU 应该是一起的，硬盘分本地硬盘和云硬盘

PopRain

2021-12-21 15:10:48 +08:00

你在开玩笑吗？内存、CPU 不在一台计算机上？硬盘可能是网络的，但是一般也是在同一个机房，不太可能异地，异地也只是备份而已。

andyskaura

2021-12-21 15:17:45 +08:00

太看得起网络带宽了吧

seasona

2021-12-21 15:23:20 +08:00

1 ，ecs 其实就是 QEMU/KVM 开出的一台虚拟机，CPU 和内存都是一台本地服务器的，硬盘基本都是网络盘

swulling

2021-12-21 15:31:25 +08:00

CPU 和内存是一台宿主机上的，硬盘通常挂载同一个可用区的云盘。

这是因为网络带宽和时延，也就刚刚追上硬盘，离内存还远（受到物理规律限制可能永远追不上）

stoneabc

2021-12-21 15:35:19 +08:00

@PopRain 不过最新的各种内存、gpu pooling 的研究，过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了…

t6attack

2021-12-21 15:35:26 +08:00

研究过 GPU 编程的朋友，可能会发现一个问题：当运算数据量很小的时候，速度提升并不明显，甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升，被“向 GPU 传递数据所消耗的时间”所抵消。
你看，半个主板的距离，速度损耗都让人无法接受。你这直接给拉开两个城市了。

Alexonx

2021-12-21 15:37:56 +08:00 via Android

2 的实现的话，目前受限于网络带宽，很少有大规模的应用。OSDI '18 有篇论文挺类似的，这个论文描述的系统架构把硬件分成了处理器、内存和存储三种，中间通过网络进行通信，但是其中操作系统要付出大量的代价来保证一致性和容错。
PDF:https://www.usenix.org/system/files/osdi18-shan.pdf

2i2Re2PLMaDnghL

2021-12-21 15:59:42 +08:00

@stoneabc 但做法也不太可能是表现为一台机器（一个操作系统），而是表现为一个任务分发器（一个编排系统）

justs0o

2021-12-21 16:06:32 +08:00

第二种除非有突破光速的东西出来，否则永远不可能

kenshin912

2021-12-21 16:07:43 +08:00

显然是 1
内存和 CPU 必然在一台宿主机上 , 不然那延迟......
硬盘也应该在同一个机房内.

lopssh

2021-12-21 16:13:17 +08:00

@Alexonx

@julyclyde

@stoneabc

有一项叫做“超融合”的技术，不知道是否部分符合了 2 的定义。

felixcode

2021-12-21 16:20:29 +08:00

带宽可能可以通过技术革新来解决，但延时是受物理规律限制的。

CPU 和内存间有几到几十毫秒，再融合也不行，超融合也不行，再多的超字也不行。

FantaMole

2021-12-21 16:23:10 +08:00

超融合老是让我出戏到打牌

westoy

2021-12-21 16:30:09 +08:00

红帽的超融合是基于软件方案的定义，又不是你说的那种六神合体......

loading

2021-12-21 16:31:24 +08:00

@lopssh #14 你知道现在的超融合是怎么回事吗？约等于坑人。
你说的那种是集群，超过一台计算机能力的才需要把一个实例分布到多台物理机，你说的可能是指超级计算机。你自己查一下，阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了？

echo1937

2021-12-21 16:32:32 +08:00

@lopssh #14 超融合也不是你想象的那样子。

https://www.vmware.com/cn/products/hyper-converged-infrastructure.html

freelancher

2021-12-21 16:33:35 +08:00

@lopssh 无语了都。超融合能突破物理极限吗？

超融合的本质是分布式存储 + 虚拟化融合部署，核心是分布式存储。

存储放另一个地区都会造成巨大的网络延迟。

没事就多看看计算机的书！我潜水的都被炸出来了！

stoneabc

2021-12-21 16:34:06 +08:00

@felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别

mikuazusa

2021-12-21 16:36:54 +08:00

只能是 1 ，2 的情况目前的超融合也达不到。
想了解超融合的，看一下什么是超融合一体机就知道了。

felixcode

2021-12-21 16:41:22 +08:00

@stoneabc
"内存由北京的一个服务器组成，CPU 由广东和福建的两台服务器共同构成"
这个怎么能达到 us 级别？

freelancher

2021-12-21 16:41:36 +08:00

令人震惊的计算机文盲。不多说了。看完帖子我能气晕。

stoneabc

2021-12-21 16:43:08 +08:00

@felixcode 仅指 “多台物理机构成” ，跨地域当然不行

felixcode

2021-12-21 16:51:37 +08:00

@stoneabc
roce 的个位数 us 级延时是指适配器延时，没算上传输延时。
哪怕是个位数 us 级的延时，放到现有的架构上，内存与 cpu 之间的延时也是现有单机的上百倍了。

Chase2E

2021-12-21 16:57:05 +08:00

<=一台物理机器，云计算的本质就是利用冗余资源嘛

b1u2g3

2021-12-21 17:05:15 +08:00

无知，半知半解 =》无畏

interim

2021-12-21 17:08:19 +08:00

一时无力吐槽，这竟然是个开发问出的问题，建议重修计算机。

msg7086

2021-12-21 17:11:59 +08:00 via Android

超融合我记得只有存储是共享的吧，而且也是走 IB 之类互联的。
这些技术的难点都在于突破光（电）速。
CPU 和内存之间十几厘米的距离到顶了，拉到隔壁桌子都不行，你还跨省。这么远的距离，4GHz 的 CPU 瞬间被拉成 4KHz 。

markgor

2021-12-21 17:13:38 +08:00

所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。
只涉及到存储 /计算 /带宽能力。
和虚拟机完全不是一个级别的。
另外阿里 ecs 也不是一台物理机器；

存储->建立存储池，末端是多台物理机器；
CPU/内存->集群中建立的虚拟机；
比方 A 集群中由 3 台物理机组成，虚拟机的配置运行仅仅会在其中一台节点中生效。
当发现这个节点异常时，集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的，所以这个移动其实仅仅是配置。

如果你有租用超过 3 年的云主机，你细心查看会发现有过自动重启的日志（可能看运气吧，但我其中一台试过），提交工单后答复由于宿主机异常，导致了转移，所以引起云服务器重启....

内存带宽大概是 4200MT/s ，网络带宽需要达到怎样的条件才能这样异地组机呢，而且还没考虑稳定性...
这有点过渡设计了....

eason1874

2021-12-21 17:22:41 +08:00

硬盘可以通过网络连接，大部分场景能满足，需要高 I/O 的除外

CPU 和内存通过网络连接不可行，损耗极其大，说可行的要么不懂，要么骗子

这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。

julyclyde

2021-12-21 17:50:32 +08:00

@lopssh 那只是个市场用语

ch2

2021-12-21 17:55:05 +08:00

你用过就知道，哪台机器性能指标啥样都得提前文档里写好的，同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚，不在一台机器上的都能猜得到

xingHI

2021-12-21 18:15:14 +08:00

香港轻量最低配什么价格

PMR

2021-12-21 18:22:45 +08:00 via Android

内存延迟超过 80/90ns 都已经出现计算能力下降的情况

内存 cpu 在上广的情况
天翼云在两地网络延迟能摸到 29ms
这延迟带来是非常致命

luckyc

2021-12-21 18:44:20 +08:00

内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去.

vhwwls

2021-12-21 19:04:35 +08:00

底层是高度定制化的 KVM ，CPU 和内存当然只能是同一台机器上的，至于硬盘视情况而定，大部分情况是分布式存储上的。

tinybaby365

2021-12-21 19:21:12 +08:00

CPU 和内存来自同一台 host ，（ CPU 和内存都归为计算资源），磁盘可以来自该 host ，也可以是外部的云盘。云盘也是不会出 zone 的，不可能跨 region 的，延迟太大了。云盘使用的是 RDMA 类的方案。

littlewing

2021-12-21 19:51:25 +08:00

如果你买的是 1024C1024T 的配置的话，有可能是 2

lamesbond

2021-12-21 22:31:47 +08:00

应该是 1 ，阿里专有云资源快用完的时候，能开好几台 1 核，2 核的 ecs ，但开不出一台高配的，这些 1 核，2 核的就是每台物理机的“边角料”

dianso

2021-12-21 22:34:46 +08:00

内存一般都在香港吧，网线应该在美国和欧洲，硬盘在国内，毕竟数据重要。

Buges

2021-12-21 22:37:33 +08:00 via Android

除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现，不过你关心的不再是机器而是应用程序本身。

Barnard

2021-12-22 09:11:23 +08:00

不应该，异地的通信已经是大大制约了，即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽，更别说异地了，所以现在 SOC 集成 CPU 和内存，性能提升明显。

另外这些都应该是很基础的计算机知识，楼主不知道么？

ganbuliao

2021-12-22 11:29:37 +08:00

就是用了超融合也得在一个机房里面网络延迟是个大问题

thtznet

2021-12-22 12:00:43 +08:00

1 和 2 事实上是统一的，任何计算机的所有联接目前都是物理联接，网线也是通过物理连上的，所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线，理论上 PCB 金线的数据传输极限也是光速，光纤的传速极限也是光速，但是基于物理地点的差距，那么即便都在光速的情况下传输信号，那么 [方案 1] 永远都比 [方案 2] 快，那么现实的问题是，如果 [方案 1] 的计算资源不够了怎么办？目前计算机设计的方案就是在物理地点附近堆硬件，将 2 台物理计算机相邻放置，并将 CPU 和内存和硬盘等多个组件全部联起来，用什么连？用 PCB 连，所以它成了多路服务器，规模再大点，还要继续堆硬件，物理地点还要更靠近，一个 PCB 板有制造极限，那么用多个 PCB 联接起来，所以它成了刀片服务器，规模再大点，继续堆。。。所以它成了超算。。。