Teradata基础知识和使用过程中应该注意的问题
Teradata系统架构及特性DW项目组赵世辉 2010年5月
Teradata基础知识和使用过程中应该注意的问题
Teradata系列培训基础培训1. 2. 3. Teradata软硬件体系架构原理 Teradata数据库对象介绍 Teradata工具集介绍
中级培训1. Teradata数据库设计规范 2. Teradata SQL规范 3.数据仓库Teradata平台管理规范
高级培训1. 2. 3. 4. 5.| 2
Teradata工具使用方法和技巧 Teradata程序设计与开发数据库高级管理数据库调优……内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
目录Teradata软硬件体系结构 Teradata数据库原理及特点 Teradata数据保护机制 Teradata系统访问配置及连接方式
Teradata使用中的一些问题及案例分析
| 3
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
Teradata系统的硬件构成BynetBynet线光纤 PLine/Sline以太网
存储阵列
MPP节点
AWS| 4
备份服务器内部资料请勿外传
磁带库
Teradata基础知识和使用过程中应该注意的问题
Teradata主机结构
MPP系统
工作站集群模式批量处理优化
底层并行线性扩展均衡负载
高可用性
热备组件 RAID技术
Clique技术
| 5
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
AWS及备份设备收集显示主机、存储、Bynet所有模块运行信息设备管理的统一界面AWS
通过TVI进行远程维护和故障通知
基于LAN-BASE备份技术
由备份服务器处理备份任务,减轻数据库压力备份服务器
使用Netvault工具,可在AWS上的客户端操作备份恢复
由机械手+磁带驱动器+磁带槽位+磁带组成根据磁带的条码自动实现磁带的拆卸和装填磁带库
可远程控制,可多驱动器并行工作和交叉工作
| 6
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
扩展知识:Teradata主机产品线
550
1550
2550企业入门级数据仓库或部门级的数据集市 46节点 140 TB
5xxx企业级的数据仓库系统,应用于战略性和操作性的企业智能化的EDW/ADW 1024节点 10 PB
用途
数据集市或开发测试机
在极端大量数据环境中的分析
扩展性(支持数据量)
单节点 6 TB
1024节点 50 PB
| 7
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
建行数据仓库生产设备的演变 硬件 - 18(+1)个TD 5500H节点 - 36C@2.66GHZ双核 - 144GB内存 - 100TB数据库空间
·软件- OS: Suse Linux 9 - DB: TD V2R6.2
硬件 - 6个TD 5450H节点 - 12C@3.0GHZ - 24GB内存 - 16TB数据库空间 硬件 - 8个NCR 5251节点 - 32C@733MHZ - 32GB内存 - 4TB数据库空间 软件 - OS: MP-RAS 4 - DB: TD V2R5 软件 - OS: MP-RAS 4 - DB: TD V2R5
2008年设备更新2007年设备更新
2006年DW上线
| 8
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
目录Teradata软硬件体系结构 Teradata数据库原理及特点 Teradata数据保护机制 Teradata系统访问配置及连接方式
Teradata使用中的一些问题及案例分析
| 9
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
Teradata数据库底层结构
VPROC虚处理软件
并行控制软件系统软件Applications/ Utilities (TPA)
主机直连
Channel Drivers Gateway So
ftware局域网
硬件
| 10
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
Teradata数据库工作原理SQL请求结果返回
基本读写过程
解析器
解析引擎PE将SQL请求拆分成各AMP的请求以便并行处理
PE
优化器
解析器分解接收到的SQL交易请求,验证语法、权限等
分发器
优化器产生最优的查询方案
信息传递层(MPL)
分发所优化的方案到AMP数据通过表PI的HASH值均匀分布到各AMP管理的磁盘(写)
AMP
AMP
AMP
AMP
信息传递层可汇总各AMP数据,将最终结果返回客户端(读)
数据
数据
数据
数据
| 11
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
PE( Parsing Engine )一种VPROC,用于解释SQL请求、接收输入记录、审查
数据、发送信息到AMP每个节点2个PE,每个PE能并发操作120条会话,每个会
话能处理多个请求当多个用户同时访问系统时,Teradata能够通过PE在各
节点间自动平衡负载,不需要人工干预可以由工具 (TDQM、TDWM)控制查询的执行过程
| 12
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
AMP( Access Module Processor )一种VPROC,拥有内存和CPU资源,与一个VDISK连接,管理数据库/表的部分数据
每节点根据需求可划分多个AMP控制所有磁盘交互及部分数据库的操作,如读、写、转换、
格式化等一个请求可以分发到所有AMP一起共同工作,每个AMP也
可以同步工作于多个请求各个AMP并行处理,互不干扰,交易处理结果在信息传递层汇总后,直接返回给应用程序内部资料请勿外传
| 13
Teradata基础知识和使用过程中应该注意的问题
Teradata数据库特点专为海量数据仓库等OLAP应用设计
多节点的单一数据库系统跨多代设备线性扩展自动数据分配机制可实现多维并行内嵌分析决策功能
采用SPOOL技术易于管理
| 14
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
专为数据仓库等OLAP系统设计OLAP数据库 VS OLTP数据库OLAP数据库(Teradata) OLTP数据库(Oracle)数据来源典型业务数据量响应速度用户数量本身不产生数据,来源于生产系统数据在系统中产生中的操作数据基于查询的分析系统基于交易的处理系统
复杂查询,经常使用多表连结、全每次交易涉及的数据量小表扫描等,涉及的数据量庞大响应时间与具体查询有很大关系对响应时间要求非常高
操作特性
用户数量相对较小,其用户主要是用户数量非常庞大,主要是操业务人员与管理人员作人员由于业务问题的不固定,数据库的数据库的各种操作主要基于索各种操作不能完全基于索引进行引进行内部资料请勿外传
| 15
Teradata基础知识和使用过程中应该注意的问题
多节点的单一数据库系统可运行于单个或多个节点多个节点组成一个整体的数据库系统,每个结点有单独的IP地址,都连入系统网络各结点之间自动进行负载平衡并提供结点互为备份的高可靠性
客
户端可以从不同渠道以不同方式连接,连接时可自动实现负载均衡客户端访问的不是某个具体结点,而是整个数据库数据库资源无法从物理上实现完全的分割
| 16
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
不同代设备的线性扩展设备型号 5500H 30÷ AMP数量 22 5555H 50÷ 30 42 5600H 80÷
单节点TPerf性能
每AMP性能
1.4
1.6
1.9
TPerf值是衡量Teradata设备性能的指标,以第一代型号设备5100性能为基准1,后续型号Tperf是与5100的性能比值 AMP数量可以根据要求进行增减,但受到磁盘数、背板带宽、接口数量、CPU、内存等限制多代混存会产生资源浪费,一般最多4-5代共存| 17
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
自动数据分配机制 通过对PI的哈希运算将数据记录均匀分布到各AMP; 记录RowID由行哈希值和一个 32位的UV组成; AMP根据数据记录的RowID确
定物理存储位置; 最新TD R13提供了Non-PI表 解决了传统数据库的“数据重组”问题| 18
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
Teradata的多维并行技术查询并行 多个VPROC并行
最终结果最终结果
查询并行各AMP处理自己的数据
步内并行 每个VPROC中多进程
求和求和
多步并行 SQL语句的并行任务分解
JOIN JOIN
JOIN JOIN
join表C表C表D步内并行 1. Select C 2. Select D 3. C join D
表A表A多步并行| 19
表B表B
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
内嵌的数据分析功能提供多种OLAP函数 累计和
CSUM、移动平均 MAVG、移动和 MSUM、移动差分 MDIFF、采样 SAMPLE、限定 QUALIFY等
所有函数在Teradata内部以并行方式来工作
可以自定义函数UDF可嵌入外部厂商的产品功能 SAS、MicroStrategy等BI功能 SilkRoute
、SAP等企业管理功能
| 20
内部资料请勿外传
Teradata基础知识和使用过程中应该注意的问题
SPOOL技术SPOOL是未使用的且连续的数据库空间(类似虚拟内存),与Perm、 Temp空间一起以AMP为单位分配,且使用不同Cylinder适合大数据量、并行处理的特点(与传统数据库在内存中处理相比)在工作量适中、无Fallback的系统中,SPOOL最少占总数据库空间的25%—30%好的调优策略可减少对SPOOL空间的占用每个用户的SPOOL的在建立时设置 SPOOL的类型 Volatile
Spool
Intermediate Output
Spool
Spool内部资料请勿外传
| 21