大数据可视化(七)复杂数据可视化
第七章 复杂数据可视化
复杂的数据包括视频影像数据,传感器网络数据,社交网络数据,三维时空数据等。
对高维多元数据进行分析的困难如下:
(1) 数据复杂度大大增加
(2) 数据的量级已经超过了单机,甚至小型计算集群处理能力的上限
(3) 在数据获取和处理过程中特别需要关注的是数据的不确定性。
(4) 数据快速动态变化,常以流式数据形成存在
面对以上挑战,对二维和三维数据可以采用一种常规的可视化方法表示,将各属性的值映射到不同的坐标轴,并确定数据点在坐标系中的位置,这样的可视化设计通常被称为散点图,当维度超过三维后,还可以增加视觉编码进行表示,如颜色,大小,形状等,但对更复杂的高维多元数据进行可视化处理时,这种方法仍存在很大的局限。
7.1 高维多元数据在大数据中的应用
指每个数据对象有两个或两个以上独立或相关属性的数据
高维指数据具有多个独立属性多元指数据具有多个相关属性 7.1.1 空间映射法 散点图就是一种空间映射法。散点图的本质是将抽象的数据对象映射到二维坐标表示的空间。散点图及散点图矩阵散点图矩阵是散点图的扩展。对于N维数据,采用N的平方个散点图逐一表示N个属性之间的两两关系,这些散点图根据它们所表示的属性,沿横轴和纵轴按一定顺序排列,进而组成一个N乘N的矩阵。表格透镜
表格透镜是对使用表格呈现多元数据方法的扩展,该方法并不直接列出数据在每个维度上的值,而是将这些数据用水平横条或者点来表示。
表格透镜允许用户对行和列进行排序,用户也可以选择某一个数据对象的实际数值。平行坐标
平行坐标能够在二维空间中显示更高维度的数据,它以平行坐标替代垂直坐标,平行坐标不仅能揭示数据在每个属性上的分布,还可描述相邻两个属性之间的关系。
平行坐标很难同时表现多个维度间的关系,因为其坐标轴是顺序排列的,不适合于表现非相邻属性之间的关系。降维
当数据维度非常高时(如超过50维),可通过线性/非线性变换和多维尺度分析将多元数据投影或嵌入低维空间(通常为二维或三维)中,并保持数据在多元空间中的特征
降维后得到的数据即可用常规的可视化方法进行信息呈现。 7.1.2 图标法
图标法的典型代表是星形图,也称雷达图.
星形区域,其大小形状则反映了数据对象的属性。
像素图、像素柱状图和马赛克图
7.2 非结构化数据可视化
7.2.1 基于并行的大尺度数据高分辨率可视化异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。
存在多个不同种类节点和连接的网络被称为异构网络。异构数据通常可采用网络结构进行表达。
产生数据的异构性的主要原因是数据源的获取方式的不同。
全方位显示大尺度数据的所有细节是一个计算密集型的过程,处理大尺度数据的基本技术路线就是构建大规模计算集群。
大尺度数据可视化一般有两种方法:
使用多窗口的高效多视图来对数据库进行可祖化从理的主要步骤如下:
(1)根据不同的需求将大尺度复杂数据划分为数据子集;
(2)对每个数据子集进行分析,得出符合用户感知的可视化结果;
(3)可视化视图采取数据库的架构方式进行存储与管理;
(4)针对不同的可视化视图,为用户提供敏捷的交互工具,并且实现多视图同步无缝更新。
一部分变量被选为条件变量,并且被分配到每个子集里。BSV( Between Subset-Variables)在不同子集中的取值各异,且一个子集在同一时间只能有一个BSV变量; WSV(Within-Subset Variables)则在同一个子集里取值。通过分析WSV伴随BSV的变化以及 WSV之间的关系来确保分割的准确性。重复分割法
重合算法包括统计重合法、分析重合法以及可视化重合法。
统计重合,也就是合成各个子集的统计值;
分析重合法主要是观察、分析和评估计算结果。数据挖掘层的分而治之
1、输入数据或者文本信息,将输入数据等份成n份或者按规则划分;
2、对每份数据使用最合适的分类器进行分类,并将分类结果融合;
3、通过一个强分类器计算获取最终结果。数据可视化的分而治之
使用统一的分而治之的框架可以处理科学计算的空间型数据和非结构化数据。
7.3 数据不确定性可视化
目前存在的问题:
如何清晰地表示不确定性如何降低或避免因不确定性可视化所带来的视觉混淆如何降低不确定性可视化所引起的对确定性数据可视化结果的负面影响不确定性表达的可视隐喻7.3.1 不确定性的来源 数据的收集、处理和可视化的过程都会产生不确定性。如测量仪器的优劣和测量者知识水平的高低
不同的仿真或数值计算模型也将引入一定的不确定性
7.3.2 不确定性的可视化方法比较:
可视化方法优势不足图标法简单、方便理解容易产生视觉混乱的问题几何体表达法形象、直观,可编码高纬度的不确定性易污染原有的确定性数据的可视结果视觉元素编码法可帮助用户迅速地定位可视化结果中的造成不确定性因素所在的区域和大小需要精心选择视觉元素才能有效的表达不确定性动画表达法可帮助用户更加生动、形象的理解不确定性,提供了更高的自由度来调节可视化结果理解曲线较长易引起疲劳图表法:比较适合稀疏不确定性数据的可视化
图标法比较常见的方法有误差条、盒须图以及流场雷达图等。盒须图又称箱线图。五数统计图是一种最基本的盒须图,它包括上下边缘值(即最大值和最小值)、上四分位数、中位数和下四分位数。几何体表示法:常用的基本几何物体有点、线、面、网格、体等
在某种程度上与图标法有着一定的相似性,其可视化结果比较形象直观且易于理解,相比较于图标法还能表达高维度的不确定性。
首先,将原始数据转换为一个概率场
然后,设计传输函数或颜色映射对概率场进行颜色和透明度编码
最后,通过体绘制或者混合多个等值面的方式实现不确定性可视化。
视觉元素编码法
以视觉元素作为不确定性编码的基本载体是众多不确定性可视化方法的基本思想。
基本的视觉标量包括位置、形状、亮度、颜色、方向和纹理等。
动画表达法
在人类视觉系统的处理过程中,运动具有极高的处理优先级。
众多动画相关参数都可用于编码不确定性,如速度、时间单位、关键帧、闪烁、运动范围等。
动画表达法的基本思想是将不确定性隐式地编码于一个与时间有关的函数中。其中,可用不确定性函数u(t)来表示t时刻的动画关键帧的可视化结果。
相关知识
大数据可视化(七)复杂数据可视化
Python数据分析数据可视化
数据可视化:让数据 “说话”
什么是大数据可视化?
大数据领域数据可视化的交互式设计
什么是数据可视化
大屏设计系列之四:大数据可视化设计,故事+数据+设计 =可视化
数据可视化仪表盘
学术数据可视化技术
数据可视化是什么
网址: 大数据可视化(七)复杂数据可视化 https://www.huajiangbk.com/newsview2500221.html
| 上一篇: 如何用可视化库高效实现复杂的流程 |
下一篇: 连发3篇hiPSC文章,单细胞可 |
推荐分享
- 1君子兰什么品种最名贵 十大名 4012
- 2世界上最名贵的10种兰花图片 3364
- 3花圈挽联怎么写? 3286
- 4迷信说家里不能放假花 家里摆 1878
- 5香山红叶什么时候红 1493
- 6花的意思,花的解释,花的拼音 1210
- 7教师节送什么花最合适 1167
- 8勿忘我花图片 1103
- 9橄榄枝的象征意义 1093
- 10洛阳的市花 1039
