智能制造的核心技术之数据获取与处理

0
2022-03-23 来源: 智造苑

 「 1. 数据的来源、特点与类型 」


 
数据是制造业提高核心能力、整合产业链的核心手段,也是实现从要素驱动向创新驱动转型的有力手段。数据所带来的核心价值在于可以真实地反映和描述生产制造过程,这也就为制造过程的分析和优化提供了全新的手段与方法。因此,数据驱动也可以说是实现智能制造的关键步骤。
 
传统的分析和优化过程基于模型,而数据分析可以弥补模型精度不足。
   
制造业数据泛指在工业领域中,围绕典型智能制造模式,从客户需求到销售、订单、计划、研发、设计、工艺、制造、采购、供应、库存、发货和交付、售后服务、运维、报废或回收再制造等整个产品全生命周期各个环节所产生的各类数据及相关技术和应用的总称。
 
制造业数据的来源主要包括了3个方面:企业内部信息系统,物联网信息以及企业外部信息。企业内部信息系统是指企业运营管理相关的业务数据,包括企业资源计划(ERP)、产品生命周期管理(PLM)、供应链管理(SCM)、客户关系管理(CRM)和能耗管理系统(EMS)等。这些系统中包含了企业生产、研发、物流、客户服务等数据,存在于企业或者产业链内部。物联网信息包含了制造过程中的数据,主要是指工业生产过程中,装备、物料及产品加工过程的工况状态参数、环境参数等生产情况数据,通过制造执行系统(MES)实时传递。企业外部信息则是指产品售出之后的使用、运营情况的数据,同时还包括大量客户名单、供应商名单、外部的互联网等数据。其中产品运营数据亦可来自物联网系统。
 
随着传感器的普及,以及数据采集、存储技术的飞速发展,制造业数据同样呈现出了大数据的基本特性,如图1所示,已经具备了典型的“4V”特征,即规模性(volume)、多样性(variety)、高速性(velocity)和价值密度低(value)。
 
 
图1 制造业数据特性
 
规模性是指制造业数据体量比较大,大量机器设备的高频数据和互联网数据持续涌入,大型工业企业的数据集将达到PB级甚至EB级别。以半导体制造为例,单片晶圆质量检测时,每个站点能生成几MB数据。一台快速自动检测设备每年就可以收集到将近2TB的数据;多样性是指数据类型多样和来源广泛。制造业数据分布广泛,数据来源于机器设备、工业产品、管理系统、互联网等各个环节,并且结构复杂,既有结构化和半结构化的传感数据,也有非结构化数据。
 
制造业数据除了具备传统的大数据“4V”共性特点以外,还兼具了体现制造业特点的“3M”特性,即多来源(multi-source)、多维度(multi-dimension)、多噪声(much noise)。
 
多来源是指制造业数据来源广泛。数据覆盖了整个产品全生命周期各个环节。同样以晶圆生产为例,晶圆制造车间的产品订单信息、产品工艺信息、制造过程信息、制造设备信息分别来源于排产与派工系统、产品数据管理系统、制造执行系统和制造数据采集系统、数据采集与监控系统和良率管理系统等;多维度是指同一个体具有多个维度的特征属性,不同属性直接存在复杂的关联或者耦合关系,并共同影响当前个体状态。
 
制造业数据类型繁多,根据不同的分类标准,数据的类型也不尽相同。
 
从数据来源来看,制造业数据可以分为研发数据域(研发设计数据、开发测试数据等)、生产数据域(控制信息、工况状态、工艺参数、系统日志等)、运维数据域(物流数据、产品运行状态数据、产品售后服务数据等)、管理数据域(系统设备资产信息、客户与产品信息、产品供应链数据、业务统计数据等)、外部数据域(与其他主体共享的数据等)。
 
从数据形式来看,制造业数据可以分为结构化数据、半结构化数据和非结构化数据。结构化数据由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理,企业的ERP、财务系统都属于典型的结构化数据;半结构化数据并不符合关系型数据库或其他数据表的形式关联起来的数据模型结构,但包含相关标记,用来分隔语义元素以及对记录和字段进行分层。例如,不同工人的个人信息就是典型的半结构化数据;非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML、HTML、各类报表、图像和音频、视频信息等。
 
从数据处理的角度来看,制造业数据可以分为原始数据与衍生数据。原始数据是指来自上游系统的,没有做过任何加工的数据;衍生数据是指通过对原始数据进行加工处理后产生的数据。衍生数据包括各种数据集市、汇总层、数据分析和挖掘结果等等。虽然会从原始数据中产生大量衍生数据,但还是会保留一份未作任何修改的原始数据,一旦衍生数据发生问题,可以随时从原始数据重新计算。
 
 
「 2. 数据获取技术 」

 
数据的采集是获得有效数据的重要途径,同时也是工业大数据分析和应用的基础。数据采集与治理的目标是从企业内部和外部等数据源获取各种类型的数据,并围绕数据的使用,建立数据标准规范和管理机制流程,保证数据质量,提高数据管控水平。在智能制造中,数据分析往往需要更精细化的数据,因此对数据采集能力有着较高的要求。例如,高速旋转设备的故障诊断需要分析高达每秒千次采样的数据,要求无损全时采集数据。通过故障容错和高可用架构,即使在部分网络、机器故障的情况下,仍保证数据的完整性,杜绝数据丢失。同时还需要在数据采集过程中自动进行数据实时处理,例如校验数据类型和格式,异常数据分类隔离、提取和告警等。
 
常用的数据获取技术以传感器为主,结合RFID、条码扫描器、生产和监测设备、PDA、人机交互、智能终端等手段实现生产过程中的信息获取。并通过互联网或现场总线等技术实现原始数据的实时准确传输。
 
传感器属于一种被动检测装置,可以将检测到的信息按照一定规律变化成电信号或者其他形式的信息输出,从而满足信息传输、处理、存储和控制等需求,主要包括了光电、热敏、气敏、力敏、磁敏、声敏、湿敏等不同类别的传感器。
射频识别技术(RFID)是一种自动识别技术,通过无线射频方式进行非接触双向数据通信,利用无线射频方式对记录媒体(电子标签或射频卡)进行读写,从而达到识别目标和数据交换的目的。RFID具有适用性广、稳定性强、安全性高、使用成本低等特点,在产品的生产和流通过程中有着广泛的应用。物流仓储是RFID最有潜力的应用领域之一。
 
条形扫描器也被称为条码扫描枪/阅读器,是用于读取条码所包含信息的设备。由光源发出的光线经过光学系统照射到条码符号上面,并反射到扫码枪等光学仪器上,通过光电转换,经译码器解释为计算机可以直接接受的数字信号。条码技术具有准确性高、速度快、标识制作成本低等优点,因此在智能制造中有着广泛的应用前景。
 
 
「 3. 数据处理技术 」

 
数据处理是智能制造的关键技术之一,其目的是从大量的、杂乱无章、难以理解的数据中抽取并推导出对于某些特定的人们来说是有价值、有意义的数据。常见的数据处理流程主要包括数据清洗、数据融合、数据分析以及数据存储,如图2所示。
 
 
图2数据处理流程
 
数据处理是为了更好地利用数据。
   
 
1)数据清洗
 
数据清洗也称为数据预处理,是指对所收集数据进行分析前所做的审核、筛选等必要的处理,并对存在问题的数据进行处理。从而将原始的低质量数据转化为方便分析的高质量数据,确保数据的完整性、一致性、唯一性和合理性。考虑到制造业数据具有的高噪声特性,原始数据往往难以直接用于分析,无法为智能制造提供决策依据。因此,数据清洗是实现智能制造、智能分析的重要环节之一。
 
数据清洗主要包含3部分内容:数据清理、数据变换以及数据归约。
 
(1)数据清理是指通过人工或者某些特定的规则对数据中存在的缺失值、噪声、异常值等影响数据质量的因素进行筛选,并通过一系列方法对数据进行修补,从而提高数据质量。缺失值是指在数据采集过程中,因为人为失误、传感器异常等原因造成的某一段数据丢失或不完整。常用的处理缺失值方法包括人工填补、均值填补、回归填补、热平台填补、期望最大化填补、聚类填补以及回归填补等方法。近年来随着人工智能方法的兴起,基于人工智能算法的缺失值处理方法逐渐受到关注,例如利用人工神经网络、贝叶斯网络对缺失的部分进行预测等。噪声是指数据在收集、传输过程中受到环境、设备等因素的干扰,产生了某种波动。常用的去噪方法包括了平滑去噪、回归去噪、滤波去噪等。异常值是指样本中的个别值,其数据明显偏离其余的观测值。然而,在数据预处理时,异常值是否需要处理需要视情况而定,因为有一些异常值真的是因为生产过程中出现了异常导致,这些数据往往包含了更多有用的信息。常用的异常值检测方法包括了人工界定、3σ原则、箱型图分析、格拉布斯检验法等。
 
(2)数据变换是指通过平滑聚集、数据概化、规范化等方式将数据转换成适用于数据挖掘的形式。制造业数据种类繁多,来源多样,来自不同系统,不同类别的数据往往具备不同的表达形式,通过数据变换将所有的数据统一成标准化、规范化、适合数据挖掘的表达形式。
 
(3)数据规约是指在尽可能保持数据原貌的前提下,最大限度地精简数据量。制造业数据具有海量特性,大大增加了数据分析和存储的成本。通过数据规约可以有效地降低数据体量、减少运算和存储成本,同时提高数据分析效率。常见的数据规约方法包括特征归约(特征重组或者删除不相关特征)、样本归约(从样本中筛选出具有代表性的样本子集)、特征值归约(通过特征值离散化简化数据描述)等。
 
2)数据融合
 
数据融合是指将各种传感器在空间和时间上的互补与冗余信息依据某种优化准则或算法组合来,产生对观测对象的一致性解释和描述。其目标是基于各传感器检测信息分解人工观测信息。通过对信息的优化组合来导出更多的有效信息。制造业数据存在多源特性,同一观测对象在不同传感器、不同系统下,存在着多种观测数据。通过数据融合可以有效地形成各个维度之间的互补,从而获得更有价值的信息。常用的数据融合方法可以分为数据层融合、特征层融合以及决策层融合。这里需要明确,数据归约是针对单一维度进行的数据约减,而数据融合则是针对于不同维度之间的数据进行。
 
3)数据分析
 
数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。数据分析是智能制造中的重要环节之一,与其他领域的数据分析不同,制造业数据分析需要融合生产过程中的机理模型,以“数据驱动+机理驱动”的双驱动模式来进行数据分析,从而建立高精度、高可靠性的模型来真正解决实际的工业问题。
 
现有的数据分析技术依据分析目的可以分为探索性数据分析和定性数据分析,根据实时性可以划分为离线数据分析和在线数据分析。
 
探索性数据分析是指通过作图、造表、用各种形式的方程拟合,计算某些特征量等手段探索规律性的可能形式,从而寻找和揭示隐含在数据中的规律。定性数据分析则是在探索性分析的基础上提出一类或几类可能的模型,然后通过进一步的分析从中挑选一定的模型。
 
离线数据分析用于计算复杂度较高,时效性要求较低的应用场景,分析结果具有一定的滞后性。而在线数据分析则是直接对数据进行在线处理,实时性相对较高,并且能够随时根据数据变化修改分析结果。
 
常见的数据分析方法包括了列表法、作图法、时间序列分析、聚类分析、回归分析等。
 
(1)列表法将数据按一定规律用列表方式表达出来,是记录和处理最常用的方法。表格的设计要求对应关系清楚,简单明了,有利于发现相关量之间的相关关系;此外还要求在标题栏中注明各个量的名称、符号、数量级和单位等。根据需要还可以列出除原始数据以外的计算栏目和统计栏目等。
 
(2)作图法可以醒目地表达各个数据之间的变化关系。从图线上可以简便求出需要的某些结果,还可以把某些复杂的函数关系,通过一定的变换用图形表示出来。
 
(3)时间序列分析方法可以用来描述某一对象随着时间发展而变化的规律,并根据有限长度的观察数据,建立能够比较精确地反映序列中所包含的动态依存关系的数学模型,并借以对系统的未来进行预报。例如,通过对数控机床电压的时间序列数据进行分析,可以实现机床的运行状态预测,从而实现预防性维护。常用的时间序列分析方法包括平滑法、趋势拟合法、AR模型、MA模型、ARMA模型以及ARIMA模型等。
 
(4)聚类分析是指将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程,其目标是在相似的基础上收集数据来分类。聚类分析在产品的全生命周期有着广泛的应用,例如通过聚类分析可以提高各个零部件之间的一致性,从而提高产品的稳定性。常见的聚类分析方法包括基于划分的聚类方法(K-means,K-medoids)、基于层次的聚类方法(DIANA)以及基于密度的聚类方法(谱聚类、DBSAN)等。
 
(5)回归分析是指通过定量分析确定两种或两种以上变量之间的相互依赖关系。回归分析按照涉及的变量的多少,分为一元回归和多元回归分析;按照因变量的多少,可分为简单回归分析和多重回归分析;按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析。常用的回归分析方法主要包括线性回归、逻辑回归、多项式回归、逐步回归、岭回归以及Lasso回归等。近年来,随着人工智能的飞速发展,除了上述方法外,以深度学习为代表的神经网络,以及以支持向量机为代表的统计学习开始逐渐受到关注。
 
在制造业中,数据处理通常基于常用的数据分析和机器学习技术。
   
工业大数据平台是制造业数据处理的主要载体,也是未来推动制造业大数据深度应用,提升产业发展的重要基石。以GE、IBM为首的国际知名企业都已在工业大数据平台上取得了不错的应用效果,目前我国部分企业已经具备自主研制的工业大数据平台,在工业大数据平台的工业大数据采集、工业大数据存存储管理、工业大数据分析关键支撑技术上也已经有所突破。
 
 
「 4. 数据获取与处理在智能制造中的应用 」

 
1)海尔空调噪声大数据智能分析
 
海尔胶州空调互联工厂部署有国内唯一的分贝检测设备,当空调测试分贝大于标准分贝时,系统判断为不合格。但此设备无法识别空调运行中的异音,如摩擦音、共振音、口哨音等。此外,每天快节拍、高强度的空调装配流水线工作导致检测工人听取噪声时间过长,易产生疲劳和误判,偶尔有不合格品流到下线,影响产线整体检验的可靠性。因此,急需找到新式噪声识别方法,解决企业当前痛点。
 
针对该问题,海尔通过整合平台上的软件及硬件资源,与美林数据共同开发了空调噪声智能检测系统,有效地解决了无法准确、可靠识别异音的痛点。解决方案包括非结构化音频数据实时采集与存储、分析建模与智能识别、结果输出与可视化展现三大部分。通过对生产线大量的历史检测音频采集,并结合先进的人工智能算法,实现空调噪声的智能检测,并将检验结果实时反馈至企业的工业互联网平台,支持产线质量问题在线统计与分析。该技术有效地提高了检测准确率和可靠性,降低了检测成本,促进了生产的智能化程度。
 
2)Hirotec利用数据预防意外停机
 
Hirotec是一家市值超过16亿美元,公司遍布全球23个地方的汽车部件和工具制造商。非计划停机维修一直是Hirotec公司面临的重大难题,每秒钟的非计划停机维修都可以造成高达361美元的经济损失。因此,Hirotec公司迫切地希望减少停机时间,以避免不必要的损失。
 
为了实现这一目标,Hirotec在其工厂车间使用了基于物联网和云的技术通过传感器的部署与数据的采集,实现了设备运行状态的实时监控。并利用机器学习方法帮助预测和预防系统故障。在运行其物联网平台的3个试点并审查数据后,Hirotec能够将系统的人工检查时间缩短100%。
 
 
「 5. 数据获取与处理未来发展趋势 」

 
1)数据来自数字孪生
 
在智能制造中,数据起到了至关重要的作用。数据的对于整个生产全生命周期的覆盖程度、数据的质量以及分析结果的好坏将会直接影响最终的生产效率以及产品价值。目前现有的数据获取与处理都是基于现实中的真实数据进行的。随着数字孪生技术的发展,通过构建虚拟生产环境,进而获取虚拟数据可以为数据的分析与利用提供更加广阔的思路和途径。通过虚构环境的模拟可以有效地提高数据的覆盖程度,并对数据的分析结果进行有效验证,从而更好地反馈实际生产。
 
2)5G技术加速实时通信
 
5G,即第五代移动通信技术,也就是用于无线的、可移动设备上的第五代通信技术。根据国际电信联盟(ITU)发布的5G标准草案,5G链接密度将达到每平方公里100万台设备,这也就意味着在5G时代,大量的物品可以通过5G网络接入,从而构建真的万物互联。与此同时,5G技术具有超高的传输速率以及超低的传输延迟。在实际使用环境下,5G技术能够达到1.8Gbps的下载速率,理论延迟最大不超过4ms。
 
作为新一代移动通信技术,5G技术切合了传统制造企业智能制造转型对无线网络的应用需求,能满足工业环境下设备互联和远程交互应用需求。在物联网、工业自动化控制、物流追踪、工业AR、机器人等工业应用领域,5G技术起着支撑作用。同时给数据的传输、存储、以及在线分析提供了全新的途径。让以前受限于通讯速度和带宽的大规模数据分析技术有了用武之地。
 
3)数据安全愈发重要
 
数据在给制造业带来巨大利益同时,其自身的安全也让企业面临着巨大的风险。数据中所包含的敏感信息和关键参数,如果遭到泄露,将会直接对企业造成巨大的损失。同时,通过恶意篡改数据,影响正常生产从而造成重大损失,甚至危及人员生命安全的案例也时有发生。数据的安全漏洞主要是由于工业控制系统的协议多采用明文形式、工业环境多采用通用操作系统且不及时更新、从业人员的网络安全意识不高,再加上工业数据的来源多样,具有不同的格式和标准所导致。所以,在工业应用环境中,应对数据安全有着更高的要求,任何信息安全事件的发生都有可能威胁工业生产运行安全、人员生命安全甚至国家安全等。因此,研究制造业数据的安全管理,加强对数据的安全保护变得尤为重要。
 
改编自:《智能制造概论》(作者:李培根,高亮)
 
 

相关新闻

版权声明

1、凡本网注明“来源:中国轻工业网” 的作品,版权均属于中国轻工业网,未经本网授权,任何单位及个人不得转载、摘编或以其它方式使用。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:中国轻工业网”。违反上述声明者,本网将追究其相关法律责任。
2、凡本网注明 “来源:XXX(非中国轻工业网)” 的作品,均转载自其它媒体,转载目的在于信息之传播,并不代表本网赞同其观点和对其真实性负责。
3、如因作品内容、版权和其它问题需要同本网联系的,请于转载之日起30日内进行。
4、免责声明:本站信息及数据均为非营利用途,转载文章版权归信息来源网站或原作者所有。

返回顶部
Baidu
map