题名高维数据可视化技术研究与实现
作者魏世超1,2
答辩日期2020-05-26
授予单位中国科学院沈阳自动化研究所
授予地点沈阳
导师李歆
关键词高维数据 混合属性数据 降维可视化 可视化推荐 工业应用
学位名称专业学位硕士
其他题名Research and implementation of high dimensional data visualization technology
学位专业控制工程
英文摘要大数据时代中,数据就像一个巨大的矿藏需要人们去开发挖掘,但这些数据不仅数据量庞大,而且每条数据拥有多个维度,数据之间的关系也十分复杂,不利于人们发现数据中的隐藏价值。数据可视化技术作为数据分析领域的新生儿,通过将数据映射为人类感知较为敏感的颜色和图表,为数据理解、数据挖掘和辅助决策提供了一种有效的途径。研究者们开发了一些针对高维数据的可视化算法和可视化系统帮助人们理解分析数据,但他们都有一定的局限性。比如常见的降维可视化方法基本都是采用距离度量的方式将高维空间中的数据映射到低维空间,这些算法对数据的类型要求较高,对日渐形成的复杂类型数据处理能力大大降低;其次,现有的一些可视化辅助系统智能性较低,对数据的整体分析不到位,造成数据理解片面,生成可视化图形不准确的问题。本文主要围绕高维数据可视化所面临的一些问题展开研究探讨。主要分为三个方面:(1) 降维可视化是针对高维数据分析的有效手段。针对传统的t分布随机近邻嵌入(t-SNE)算法只能处理单一属型数据,对混合属性数据效果欠缺的问题,提出一种扩展的t-SNE降维可视化算法E-t-SNE,用于处理混合属性数据。首先,该方法引入信息熵概念来构建分类属性数据的距离矩阵,其次采用分类属性数据距离与数值属性数据欧式距离相结合的方式构建混合属性数据距离矩阵,最后将新的距离矩阵输入t-SNE算法对数据进行降维并在二维空间可视化展示。此外,为验证算法有效性,采用K近邻(KNN)算法对混合数据降维后的效果进行评价。通过在UCI数据集上的实验表明,该方法在处理混合属性数据方面,不仅具有较好的可视化能力,而且能有效地对不同类别的数据进行降维分簇,提升后续分类器的分类准确率。(2) 对于大多数没有可视化技术专长的人来说,高维数据可视化存在一定的困难。可视化推荐的目标是通过一定的技术手段自动生成供分析者探索和选择的结果以降低可视化障碍。本文提出了一种基于机器学习的可视化推荐方法,该方法从众多可视化实践数据集中学习到最有意义的可视化结果并将其标记。首先从30个真实的可视化数据集中提取22个数据特征以及对应的有意义的可视化类型;然后分别使用二分类器训练分类模型,从中学习到“有意义”的可视化,并使用众包测试集进行准确率测试。最后融合多个分类器结果,投票选出适合数据集的多个“有意的”可视化图表。实验表明,我们的方法能有效地学习到数据集中有意义的可视化类型并将其标记和推荐给用户,大大降低数据探索难度。(3) 根据实际工业生产数据可视化分析要求,介绍工业生产数据可视化的技术基础和设计原则,结合研究内容设计了多个工业生产过程可视化展示界面,设计实现的可视化界面依托数据基础,立足数据分析,结合人类对颜色和图表的直观感觉,帮助企业以及决策者实现了生产过程监测和管理决策,体现了数据可视化在实际生产中的重要性。
语种中文
产权排序1
页码74页
内容类型学位论文
源URL[http://ir.sia.cn/handle/173321/27141]  
专题沈阳自动化研究所_数字工厂研究室
作者单位1.中国科学院大学
2.中国科学院沈阳自动化研究所;
推荐引用方式
GB/T 7714
魏世超. 高维数据可视化技术研究与实现[D]. 沈阳. 中国科学院沈阳自动化研究所. 2020.
个性服务
查看访问统计
相关权益政策
暂无数据
收藏/分享
所有评论 (0)
暂无评论
 

除非特别说明,本系统中所有内容都受版权保护,并保留所有权利。


©版权所有 ©2017 CSpace - Powered by CSpace