18 May 2023

  • Momiao Xiong, Ph. D, Professor in Department of Biostatistics snd Data Science , University of Texas, School of Public Health. Dr. Xiong graduated from the Department of Statistics at the University of Georgia in 1993. From 1993 to 1995, Dr. Xiong was postdoctoral fellow at the University of Southern California working with Michael Waterman.

  • Research Interest: Causal Inference, Artificial Intelligence , Manifold Learning, Statistic Genetics and Bioinformatics .

Background

Causal Knowledge Graph in LM

Identify Causal Tokens for Prediction

Construct Causal Information Flows in Transformer

Causal Tracing in Protein Language Modles

GAN for Causal Inference

Genetic Causation Studies

Causal Inference in AI

Causal Knowledge Graph in LM: This refers to the use of a knowledge graph within a language model to represent causal relationships between entities or concepts. It involves encoding causal information in the form of a graph to enable the model to understand and reason about cause-and-effect relationships.

Identify Causal Tokens for Prediction: In the context of natural language processing, this involves identifying specific tokens or words within a text that indicate causality. By identifying these causal tokens, models can better predict or understand causal relationships in the given context.

Construct Causal Information Flows in Transformer: This refers to modifying the Transformer architecture, a popular neural network model, to incorporate explicit causal information flows. By constraining the attention mechanism to only allow information flow from past to present, these models can better capture temporal dependencies and causality.

Causal Tracing in Protein Language Models: This involves analyzing and tracing causal relationships within language models specifically designed for understanding protein structures and interactions. By identifying causal links, these models can provide insights into how specific protein interactions lead to certain outcomes or functions.

GAN for Causal Inference: This involves using Generative Adversarial Networks (GANs) to perform causal inference tasks. GANs, which consist of a generator and discriminator, can be leveraged to learn causal relationships and generate samples that conform to a desired causal structure.

Genetic Causation Studies: These refer to studies conducted in genetics and genomics to investigate the causal relationships between genetic variations and phenotypic traits or diseases. These studies aim to identify genetic variants that have a causal effect on a particular trait or disease, often using methods such as genome-wide association studies (GWAS) or Mendelian randomization.

Causal Inference in AI: Causal inference in AI involves developing methods and algorithms to uncover causal relationships from observational or experimental data. It aims to understand cause-and-effect relationships rather than mere correlations, enabling AI systems to make more informed decisions and interventions. Causal inference techniques can be applied in various domains, including healthcare, economics, and social sciences, to gain insights and make causal claims from data.

经过大数据训练后的语言模型包含了极大的信息。这些信息都隐藏在有向图的变换器中,隐含在embedding中。利用已经训练好的语言模型追踪因果信息在语言推理中的运动,构建大型描述外部世界的因果网络,利用蛋白质语言模型和DNA语言模型开辟一条实现全基因组和多组合数据因果分析对于生物的基础研究,疾病的诊冶和药物的开发具有十分重要的理论和实际意义。

在语言模型中的因果知识图:这指的是在语言模型中使用知识图来表示实体或概念之间的因果关系。它通过将因果信息编码成图形的形式,使模型能够理解和推理出因果关系。

识别预测中的因果标记:在自然语言处理的背景下,这涉及识别文本中特定的标记或词语,这些标记指示因果关系。通过识别这些因果标记,模型能够更好地预测或理解给定语境中的因果关系。

在Transformer中构建因果信息流:这指的是修改Transformer架构(一种常用的神经网络模型),以包含显式的因果信息流。通过限制注意机制只允许从过去到现在的信息流,这些模型能够更好地捕捉时间依赖性和因果关系。

蛋白质语言模型中的因果追踪:这涉及分析和追踪专门设计用于理解蛋白质结构和相互作用的语言模型中的因果关系。通过识别因果联系,这些模型可以揭示特定蛋白质相互作用如何导致特定结果或功能。

用于因果推断的GAN:这涉及使用生成对抗网络(GAN)进行因果推断任务。GAN由生成器和判别器组成,可以用于学习因果关系并生成符合所需因果结构的样本。

遗传因果研究:这些研究是在遗传学和基因组学领域进行的,旨在调查基因变异与表型特征或疾病之间的因果关系。这些研究旨在确定对特定特征或疾病具有因果效应的基因变异,通常使用基因组关联研究(GWAS)或Mendelian随机化等方法。

人工智能中的因果推断:人工智能中的因果推断涉及开发从观察数据或实验数据中揭示因果关系的方法和算法。它旨在理解因果关系而不仅仅是相关性,使人工智能系统能够做出更明智的决策和干预。因果推断技术可以应用于医疗保健、经济学和社会科学等各个领域,以从数据中获得洞察力和提出因果假设。

基础模型的因果分析是一个有潜力的研究领域,它可以帮助我们理解和解释数据中的因果关系。要在这个领域取得更大突破,以下是一些建议:

  1. 数据收集和标注:为了进行准确的因果分析,需要收集具有相关因果信息的高质量数据。这可能需要采用专门的研究设计和数据收集方法,并进行仔细的标注。

  2. 因果推断算法:开发新的因果推断算法是关键。这些算法应该能够处理复杂的数据结构和变量关系,并准确地估计因果效应。基于因果理论和统计学原理的方法可以提供强大的工具。

  3. 因果发现与因果解释:除了推断因果效应,还应探索因果关系的发现和解释。这可以通过模型的解释性增强、因果路径的识别以及因果图谱的构建来实现。这有助于深入理解数据背后的机制和关系。

  4. 领域知识的整合:将领域知识与因果分析相结合,有助于提高研究的准确性和实用性。通过结合专家知识、领域专业人员和实际问题的理解,可以制定更具有现实意义的因果假设和解释。

  5. 多领域合作:因果分析需要跨学科的合作。与统计学家、领域专家、数据科学家和机器学习研究者等不同领域的专家合作,可以促进知识的交流、方法的改进和跨领域的创新。

  6. 数据隐私和伦理问题:在进行因果分析时,应重视数据隐私和伦理问题。确保数据的安全性和保密性,并遵守适用的法律和伦理准则。

  7. 开放共享和复现性:为了推动领域的进展,研究者应该积极开放共享他们的数据、代码和方法。这有助于促进合作、验证研究结果和进一步的探索。

通过这些努力,基础模型的因果分析领域有望在未来10年取得更大的突破,并为我们提供更深入的数据洞察和因果推断能力。

我在本课的参考文献里收录了朱宏图教授发至群里的 "参数高效微调方法《Parameter-Efficient Fine-Tuning,PEFT)》一文。这篇文章的方法也可用于事实相关分析和因果分析(factor association and causal analysis)。它是一𠆤很大的课题,涉及面很广,研究方法也如雨后春笋般出现,我不能都讲。在课上仅选取大语言模型的因果追踪,这篇中等难度的文章来讲,目的是说明这个课题很热门,用途很广,起一个穿针引线的作用。 大语言模型(实质上包括多模态如图象,音频,视频,蛋白质语言,DNA 和基因型语言模型,多组学语言模型等)的参数估计,参数微调和控制,大语言模型的统计推断和因果推断具有极其丰富的研究内容。大语言模型构成了一个巨大的网络,网络的结构变化,参数变化,如何受输入信息的影响,如何用提示和短文来控制输出,来控制参数的变化是一个涉及面广而极其挑战的研究课题。不管是近似也好,无关也罢,这些理论是我们描述人的智能过程的基础。人工智能(如大语言模型)的数学理论研究,就是当代的微积分。作用是一样的,只是它所包括的内含不一样。微积分研究长达一、两个世纪,而人工智能的数学理论研究才刚刚开始。 我的讲稿里所包含的参考文献没有一篇是发表在高影响因子的杂志里。Open AI 和Google 的文章首先登在他们公司的网页上。朱宏图教授推荐的文章也是一篇博客和引用的几篇予印本的文章。我记得十几年前一位国际上著名的进化科学家在纪念我们中心主任诞生九十周年的时候说过,影响因子是阻碍科学发展的。我来美国读书的时候是没有影响因子的。由计算机学界所发起的予印本,博克正在改变出版界。它们冲破了出版界的封锁,极大地推动了人工智能的研究和发展。



blog comments powered by Disqus