阿里 ECS 是一台机器构成的还是多台机器构成的?
请问是 1 还是 2 ?
如果不是 2 ,那么现在的技术世界里 存不存在 2 这种实现?
1 ThirdFlame 2021-12-21 15:00:47 +08:00 显然是 1 2 的话成本有点高 而且开销有点大 |
2 julyclyde 2021-12-21 15:02:28 +08:00 古代有个 mosix 可以把多个机器合并为一个 不过后来这东西没继续发展了 现在的 ecs 应该都是小于等于一台物理机的 |
![]() | 3 wy315700 2021-12-21 15:04:29 +08:00 内存和 CPU 应该是一起的,硬盘分本地硬盘和云硬盘 |
![]() | 4 PopRain 2021-12-21 15:10:48 +08:00 ![]() 你在开玩笑吗? 内存、CPU 不在一台计算机上? 硬盘可能是网络的,但是一般也是在同一个机房,不太可能异地,异地也只是备份而已。 |
![]() | 5 andyskaura 2021-12-21 15:17:45 +08:00 ![]() 太看得起网络带宽了吧 |
6 seasona 2021-12-21 15:23:20 +08:00 1 ,ecs 其实就是 QEMU/KVM 开出的一台虚拟机,CPU 和内存都是一台本地服务器的,硬盘基本都是网络盘 |
![]() | 7 swulling 2021-12-21 15:31:25 +08:00 CPU 和内存是一台宿主机上的,硬盘通常挂载同一个可用区的云盘。 这是因为网络带宽和时延,也就刚刚追上硬盘,离内存还远(受到物理规律限制可能永远追不上) |
8 stoneabc 2021-12-21 15:35:19 +08:00 @PopRain 不过最新的各种内存、gpu pooling 的研究,过个几年真有可能 cpu 、内存、gpu 等设备都不在一台物理机上了… |
9 t6attack 2021-12-21 15:35:26 +08:00 研究过 GPU 编程的朋友,可能会发现一个问题:当运算数据量很小的时候,速度提升并不明显,甚至比 CPU 计算更慢。原因是 GPU 带来的速度提升,被“向 GPU 传递数据所消耗的时间”所抵消。 你看,半个主板的距离,速度损耗都让人无法接受。你这直接给拉开两个城市了。 |
10 Alexonx 2021-12-21 15:37:56 +08:00 via Android ![]() 2 的实现的话,目前受限于网络带宽,很少有大规模的应用。OSDI '18 有篇论文挺类似的,这个论文描述的系统架构把硬件分成了处理器、内存和存储三种,中间通过网络进行通信,但是其中操作系统要付出大量的代价来保证一致性和容错。 PDF:https://www.usenix.org/system/files/osdi18-shan.pdf |
11 2i2Re2PLMaDnghL 2021-12-21 15:59:42 +08:00 @stoneabc 但做法也不太可能是表现为一台机器(一个操作系统),而是表现为一个任务分发器(一个编排系统) |
12 justs0o 2021-12-21 16:06:32 +08:00 第二种除非有突破光速的东西出来,否则永远不可能 |
![]() | 13 kenshin912 2021-12-21 16:07:43 +08:00 显然是 1 内存和 CPU 必然在一台宿主机上 , 不然那延迟...... 硬盘也应该在同一个机房内. |
![]() | 14 lopssh OP |
![]() | 15 felixcode 2021-12-21 16:20:29 +08:00 带宽可能可以通过技术革新来解决,但延时是受物理规律限制的。 CPU 和内存间有几到几十毫秒,再融合也不行,超融合也不行,再多的超字也不行。 |
16 FantaMole 2021-12-21 16:23:10 +08:00 超融合老是让我出戏到打牌 |
![]() | 17 westoy 2021-12-21 16:30:09 +08:00 红帽的超融合是基于软件方案的定义, 又不是你说的那种六神合体...... |
![]() | 18 loading 2021-12-21 16:31:24 +08:00 @lopssh #14 你知道现在的超融合是怎么回事吗?约等于坑人。 你说的那种是集群,超过一台计算机能力的才需要把一个实例分布到多台物理机,你说的可能是指超级计算机。你自己查一下,阿里的 ECS 哪一个配置超过现在一台普通的服务器的配置了? |
![]() | 19 echo1937 2021-12-21 16:32:32 +08:00 |
![]() | 20 freelancher 2021-12-21 16:33:35 +08:00 @lopssh 无语了都。超融合能突破物理极限吗? 超融合的本质是分布式存储 + 虚拟化融合部署,核心是分布式存储。 存储放另一个地区都会造成巨大的网络延迟。 没事就多看看计算机的书!我潜水的都被炸出来了! |
21 stoneabc 2021-12-21 16:34:06 +08:00 @felixcode 先不说能不能实现。。现在云厂商普通 vpc 内网的延时也就个位数 ms 。。上 Roce 之类东西的话能到个位数 us 级别 |
![]() | 22 mikuazusa 2021-12-21 16:36:54 +08:00 只能是 1 ,2 的情况目前的超融合也达不到。 想了解超融合的,看一下什么是超融合一体机就知道了。 |
![]() | 23 felixcode 2021-12-21 16:41:22 +08:00 |
![]() | 24 freelancher 2021-12-21 16:41:36 +08:00 ![]() 令人震惊的计算机文盲。不多说了。看完帖子我能气晕。 |
![]() | 26 felixcode 2021-12-21 16:51:37 +08:00 |
![]() | 27 Chase2E 2021-12-21 16:57:05 +08:00 <=一台物理机器,云计算的本质就是利用冗余资源嘛 |
![]() | 28 b1u2g3 2021-12-21 17:05:15 +08:00 无知,半知半解 =》无畏 |
![]() | 29 interim 2021-12-21 17:08:19 +08:00 ![]() 一时无力吐槽,这竟然是个开发问出的问题,建议重修计算机。 |
![]() | 30 msg7086 2021-12-21 17:11:59 +08:00 via Android 超融合我记得只有存储是共享的吧,而且也是走 IB 之类互联的。 这些技术的难点都在于突破光(电)速。 CPU 和内存之间十几厘米的距离到顶了,拉到隔壁桌子都不行,你还跨省。这么远的距离,4GHz 的 CPU 瞬间被拉成 4KHz 。 |
![]() | 31 markgor 2021-12-21 17:13:38 +08:00 所谓的超融合其实就是现在云厂推的无服务器应用...单纯跑一个应用的。 只涉及到存储 /计算 /带宽 能力。 和虚拟机完全不是一个级别的。 另外阿里 ecs 也不是一台物理机器; 存储->建立存储池,末端是多台物理机器; CPU/内存->集群中建立的虚拟机; 比方 A 集群中由 3 台物理机组成,虚拟机的配置运行仅仅会在其中一台节点中生效。 当发现这个节点异常时,集群会把配置文件移动到另一个节点中。由于数据的存储是存储池中的,所以这个移动其实仅仅是配置。 如果你有租用超过 3 年的云主机,你细心查看会发现有过自动重启的日志(可能看运气吧,但我其中一台试过),提交工单后答复由于宿主机异常,导致了转移,所以引起云服务器重启.... 内存带宽大概是 4200MT/s ,网络带宽需要达到怎样的条件才能这样异地组机呢,而且还没考虑稳定性... 这有点过渡设计了.... |
![]() | 32 eason1874 2021-12-21 17:22:41 +08:00 硬盘可以通过网络连接,大部分场景能满足,需要高 I/O 的除外 CPU 和内存通过网络连接不可行,损耗极其大,说可行的要么不懂,要么骗子 这题目让我想起好多人以为超算就是堆 CPU 堆内存。。。 |
![]() | 34 ch2 2021-12-21 17:55:05 +08:00 你用过就知道,哪台机器性能指标啥样都得提前文档里写好的,同一个大区不同小区之间高几毫秒延迟都得说的清清楚楚,不在一台机器上的都能猜得到 |
35 xingHI 2021-12-21 18:15:14 +08:00 香港轻量最低配什么价格 |
36 PMR 2021-12-21 18:22:45 +08:00 via Android 内存延迟超过 80/90ns 都已经出现计算能力下降的情况 内存 cpu 在上广的情况 天翼云在两地网络延迟能摸到 29ms 这延迟带来是非常致命 |
37 luckyc 2021-12-21 18:44:20 +08:00 内存、CPU 必须在一起, 人家厂商为了最大化的加速, 恨不得把内存集成到 CPU 里面去. |
![]() | 38 vhwwls 2021-12-21 19:04:35 +08:00 底层是高度定制化的 KVM ,CPU 和内存当然只能是同一台机器上的,至于硬盘视情况而定,大部分情况是分布式存储上的。 |
![]() | 39 tinybaby365 2021-12-21 19:21:12 +08:00 CPU 和内存来自同一台 host ,( CPU 和内存都归为计算资源),磁盘可以来自该 host ,也可以是外部的云盘。云盘也是不会出 zone 的,不可能跨 region 的,延迟太大了。云盘使用的是 RDMA 类的方案。 |
40 littlewing 2021-12-21 19:51:25 +08:00 如果你买的是 1024C1024T 的配置的话,有可能是 2 |
![]() | 41 lamesbond 2021-12-21 22:31:47 +08:00 应该是 1 ,阿里专有云资源快用完的时候,能开好几台 1 核,2 核的 ecs ,但开不出一台高配的,这些 1 核,2 核的就是每台物理机的“边角料” |
![]() | 42 dianso 2021-12-21 22:34:46 +08:00 内存一般都在香港吧,网线应该在美国和欧洲,硬盘在国内,毕竟数据重要。 |
![]() | 43 Buges 2021-12-21 22:37:33 +08:00 via Android 除了硬盘都是 1 。其实 serverless 可以算是一种类似 2 的实现,不过你关心的不再是机器而是应用程序本身。 |
![]() | 44 Barnard 2021-12-22 09:11:23 +08:00 不应该,异地的通信已经是大大制约了,即使在同一个主板都要想方设法增加内存和 cpu 之间的总线带宽,更别说异地了,所以现在 SOC 集成 CPU 和内存,性能提升明显。 另外这些都应该是很基础的计算机知识,楼主不知道么 ? |
![]() | 45 ganbuliao 2021-12-22 11:29:37 +08:00 就是用了超融合 也得在一个机房里面 网络延迟是个大问题 |
46 thtznet 2021-12-22 12:00:43 +08:00 1 和 2 事实上是统一的,任何计算机的所有联接目前都是物理联接,网线也是通过物理连上的,所以 1 和 2 的区别只是联接的线是 PCB 上的金线还是光纤+PCB 金线,理论上 PCB 金线的数据传输极限也是光速,光纤的传速极限也是光速,但是基于物理地点的差距,那么即便都在光速的情况下传输信号,那么 [方案 1] 永远都比 [方案 2] 快,那么现实的问题是,如果 [方案 1] 的计算资源不够了怎么办?目前计算机设计的方案就是在物理地点附近堆硬件,将 2 台物理计算机相邻放置,并将 CPU 和内存和硬盘等多个组件全部联起来,用什么连?用 PCB 连,所以它成了多路服务器,规模再大点,还要继续堆硬件,物理地点还要更靠近,一个 PCB 板有制造极限,那么用多个 PCB 联接起来,所以它成了刀片服务器,规模再大点,继续堆。。。所以它成了超算。。。 |
![]() | 47 Rorysky 2021-12-22 12:04:55 +08:00 连核与核之间的 cpu cache 同步都嫌代价大,你还搞 异地的? 2 不存在 |
48 6ufq0VLZn0DDkL80 2021-12-22 13:26:34 +08:00 。。。。 |
![]() | 49 Felldeadbird 2021-12-22 13:27:51 +08:00 第二个方案需要在 硬件上做设计. 不然怎样调度每个硬件? 抛开网络物理限制,每次请求接收运算就消耗了时间. 如果是一台超售的机房, 容错率怎样解决? |
![]() | 50 hyq 2021-12-22 13:50:14 +08:00 阿里云不太了解,但是从 AWS 来看,最大型号的虚拟机和唯一的物理机 baremetal 是相同配置,是不是可以断定是方案 1 |
![]() | 51 libook 2021-12-22 15:22:53 +08:00 我的了解是 CPU 和内存在一个集群里,存储在另一个集群里。 所以可以算是大体上是方案 1 ,存储部分像方案 2 分离成独立的集群。 一台虚拟机的 CPU 、内存部分不会跨物理机,因为现在计算机性能太强了,网络是没法满足这么大强度的数据交换的。 |