微软突破跨领域应用局限,提出时序生成模型TimeDP
论文标题:ChatTime: A Multimodal Time Series Foundation Model
论文链接:.11376
代码链接:
时间序列生成模型在数据增强、隐私保护等方面至关重要,但现有模型多针对单一领域。虽利用多领域数据提升泛化性在其他领域有效,却因不同时间序列模式差异大,在时间序列建模中面临挑战。为此,南大和微软团队提出它借助时间序列语义原型模块定义原型表征时间序列基础,用原型分配模块提取领域特定原型权重学习领域提示,采样时从目标领域少量样本获取提示来生成时间序列。实验显示,TimeDP优于基线模型,具备顶尖的领域内生成质量和强大的未见领域生成能力。
研究背景:时间序列生成的意义与挑战
先来总结一下研究意义:在医疗领域,它助力医疗记录合成,为医学研究、临床诊断等提供更多数据支持 ;在金融方面,可用于金融场景模拟,帮助投资者和金融机构更好地理解市场变化、制定策略;在数据处理中,能扩充历史记录有限或不完整的数据集,提升数据的完整性和可用性,为后续分析和建模奠定基础。
当前研究的不足:尽管目前在时间序列生成领域已开展了部分研究,然而大部分研究工作都集中在单域数据生成模型的开发上。与之形成对比的是,多域时间序列生成的现有方法存在局限:一是在训练中用预定义域标签,它依赖标签可用性,难以推广到大量或未见领域,且标签不可用时挑战更大;二是用自然语言描述领域进行条件生成,存在难以精准表达领域细微差别、提示信息有缺陷,以及对新领域描述不切实际等问题,急需更优方式来处理领域信息。
本文模型:跨领域时间序列生成
为应对上述挑战,本文提出一种无需标签、不依赖文本的方法——TimeDP。该方法把时间序列原型作为基础要素进行学习,借助扩散模型构建用于生成时间序列的领域提示。在训练过程中,这些原型会学习表征时间序列的基本特征,如同具有时间序列语义的 “词汇”。针对每个训练样本,运用原型分配模块构建特定 “提示”,以生成相应样本。在采样时,从目标领域选取少量样本提取 “提示”,构建领域提示集,并以这些提示作为条件生成时间序列样本。
TimeDP包括以下三个核心模块:
01 语义原型模块
这里要理解“基”概念,每个基代表了时间序列数据样本中可能存在的某些基本时间序列特征,如趋势和季节性。不同的单个时间序列样本被假定共享相同的基集合,但反映出该集合中不同的子集。时序的基可以类比自然语言中的词汇。
02 原型分配模块(PAM)
假设每个时间序列样本对应于所有基的独特分配,那么就需要建立从时间序列样本到这些分配的映射,以便明确识别每个时间序列实例的重要原型,并区分不同的域。该模块为每个数据样本分配一个原型,这些原型分配随后将作为生成模型的条件。
03 跨领域生成与领域提示
传统的生成模型通常需要明确的领域标签来指导生成过程。而 TimeDP 则可以从目标领域中提取的少量样本来自动生成领域提示,这些提示将帮助模型在生成时明确目标领域的特征。无需显式的领域标签,TimeDP 就能够灵活地通过少量数据实现跨领域生成,从而适应多领域的应用需求。
04 训练算法
采用域统一训练,使用条件去噪目标和重采样方法,训练时从多个数据集同时训练一个模型,以捕捉更多样的时间序列数据分布。在域统一训练后,从选定域的训练样本中提取特定域的原型分配构建域提示,以此为条件生成时间序列样本。对于未见域,也可通过提取少量样本构建域提示来生成新样本。
本文实验:跨领域序列生成效果
实验使用12个数据集,覆盖能源、交通、自然、经济4大时间序列领域,数据集源于GluonTS包与莫纳什时间序列预测库。将数据集预处理成长度为{24, 96, 168, 336}的非重叠单变量序列片段 。TimeDP 在大多数域内数据集上生成质量最佳,在未见域合成实验中也表现出色,具有强大的零样本时间序列合成能力。消融实验表明 PAM 和域提示对捕捉序列时间序列分布至关重要。
本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。原始发表:2025-03-30,如有侵权请联系 cloudcommunity@tencent 删除集合模型数据原型基础
发布评论