Skip to content

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

License

Notifications You must be signed in to change notification settings

ajiang17/StarrySky--

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 

Repository files navigation

StarrySky

GitHub issues GitHub stars GitHub forks GitHub license GitHub Visitors

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

让更多优秀的项目被人发现,让更多的人感受开源的魅力。

持续更新!欢迎star!😀😀😀

目录

机器学习与深度学习

  • Coursera-ML-AndrewNg-Notes stars [教程/笔记]吴恩达老师的机器学习课程个人笔记

  • d2l-ai/d2l-zh stars [教程/笔记]《动手学深度学习》:面向中文读者、能运行、可讨论。中英文版被60多个国家的400多所大学用于教学。

  • apachecn/AiLearning stars [教程/笔记]AiLearning: 机器学习 - MachineLearning - ML、深度学习 - DeepLearning - DL、自然语言处理 NLP

  • microsoft/ai-edu [教程/笔记]微软人工智能教育与学习共建社区。由基础教程实践案例实践项目三大模块构成,通过系统化的理论教程和丰富多样的实践案例,帮助学习者学习并掌握人工智能的知识,并锻炼在实际项目中的开发能力。

  • microsoft/Data-Science-For-Beginners [教程/笔记]10 周20 节课,全民数据科学!

  • mli/paper-reading 深度学习经典、新论文逐段精读。包括视频讲解。

  • dair-ai/ML-YouTube-Courses 在 YouTube 上发现最新的机器学习/人工智能课程。

  • visenger/awesome-mlops 机器学习操作 (MLOps),可自动执行并加速机器学习生命周期。精选的参考文献列表。

  • ShusenTang/Dive-into-DL-PyTorch 本项目将《动手学深度学习》(Dive into Deep Learning)原书中的MXNet实现改为PyTorch实现。

  • fengdu78/deeplearning_ai_books deeplearning.ai(吴恩达老师的深度学习课程笔记及资源)

  • nndl/nndl.github.io 《神经网络与深度学习》 邱锡鹏著

  • ashishpatel26/500-AI-Machine-learning-Deep-learning-Computer-vision-NLP-Projects-with-code 500 个 AI 机器学习 深度学习 计算机视觉 NLP 代码项目

  • NirantK/awesome-project-ideas 机器学习、NLP、视觉、推荐系统项目创意的精选列表

  • Mikoto10032/DeepLearning 深度学习入门教程, 优秀文章

  • chefyuan/algorithm-base 用动画将算法说的通俗易懂

  • MorvanZhou/tutorials 机器学习相关教程

  • bangoc123/learn-machine-learning-in-two-months 在 2 个月内学习好机器学习所需的知识。

  • ukas/ml-class 专为工程师设计的机器学习课程和教学项目

  • Mohitkr95/Best-Data-Science-Resources 该存储库包含最好的数据科学免费精选资源,可为您提供所有行业驱动的技能和面试准备工具包。

  • PKUFlyingPig/cs-self-learning 计算机自学指南

  • abmlai/annotated_deep_learning_paper_implementations 神经网络和相关算法的简单 PyTorch 实现的集合。将这些呈现为并排格式化的笔记。我们相信这些将帮助您更好地理解这些算法。

  • yunjey/pytorch-tutorial 深度学习研究人员的 PyTorch 教程

  • PyTorchLightning/PyTorch-lightning 基于Pytorch的轻量高级计算框架,相当于Keras框架。

  • ELS-RD/kernl 第一个使用 OpenAI Triton 编写的 OSS 推理引擎,这是一种由 OpenAI 设计的新语言,可以更轻松地编写 GPU 内核。每个内核不到200行代码,易于理解和修改。

  • BoltzmannEntropy/interviews.ai 深度学习面试书:数百个完全解决的工作面试问题,来自 AI 的广泛关键主题。

  • ChristosChristofidis/awesome-deep-learning 精选深度学习教程、项目和社区列表。

  • floodsung/Deep-Learning-Papers-Reading-Roadmap 深度学习论文阅读路线图,适合任何渴望学习这项惊人技术的人!

  • scutan90/DeepLearning-500-questions 深度学习500问,以问答形式对常用的概率知识、线性代数、机器学习、深度学习、计算机视觉等热点问题进行阐述,以帮助自己及有需要的读者。 分为18个章节,50余万字。

  • mrdbourke/pytorch-deep-learning 学习用于深度学习的 PyTorch:从零到精通课程的材料。

  • ageron/handson-ml3 一系列Jupyter笔记本,引导您使用Scikit-Learn,Keras和TensorFlow 2了解Python中的机器学习和深度学习的基础知识。

  • girls-in-ai/Girls-In-AI 免费学代码系列:小白python入门、数据分析data analyst、机器学习machine learning、深度学习deep learning、kaggle实战

  • cbamls/AI_Tutorial 精选机器学习,NLP,图像识别, 深度学习等人工智能领域学习资料,搜索,推荐,广告系统架构及算法技术资料整理。

  • apachecn/pytorch-doc-zh Pytorch 中文文档,PyTorch 是一个针对深度学习, 并且使用 GPU 和 CPU 来优化的 tensor library (张量库)

  • alibaba/MNN 轻量级的深度神经网络推理引擎

  • Tencent/TNN 移动端高性能、轻量级推理框架,同时拥有跨平台、高性能、模型压缩、代码裁剪等众多突出优势

  • microsoft/nnfusion 灵活高效的深度神经网络(DNN)编译器,可从DNN模型描述生成高性能的可执行文件。

  • apache/incubator-tvm 用于深度学习系统的编译器堆栈。它旨在缩小以生产力为中心的深度学习框架与以性能和效率为重点的硬件后端之间的差距。TVM与深度学习框架一起使用,以提供对不同后端的端到端编译

  • geohot/tinygrad 不到1000行的深度学习框架,麻雀虽小,但五脏俱全,这个深度学习框架使用起来和PyTorch类似

  • karpathy/micrograd 微型标量自动求导引擎,类似PyTorch API的神经网络库

  • Jittor/jittor 基于 JIT 编译和元运算符的高性能深度学习框架。整个框架和元运算符是及时编译的。它使我们能够生成专门针对您的模型的高性能代码。Jittor 还包含丰富的高性能模型库,包括:图像识别、检测、分割、生成、可微渲染、几何学习、强化学习等。

  • wandb/client Weights and Biases 组织和分析机器学习实验 它与框架无关,并且比TensorBoard轻巧。每次您运行带有的脚本时wandb,都会保存您的超参数和输出指标。在训练过程中可视化模型,并轻松比较模型的版本。我们还将自动跟踪您的代码状态,系统指标和配置参数。

  • NUAA-AL/ALiPy 基于Python实现的主动学习工具包

  • facebookresearch/nevergrad 无梯度优化平台

  • yzhao062/combo 用于机器学习模型组合的 Python 工具箱。模型组合可以被认为是整体学习的子任务,并且已被广泛用于诸如Kaggle [3]之类的现实任务和数据科学竞赛中。

  • google/trax 代码更清晰的神经网络代码库

  • Oneflow-Inc/oneflow OneFlow是一个以性能为中心的开源深度学习框架。

  • jonasrauber/eagerpy 编写与PyTorch,TensorFlow,JAX和NumPy本地兼容的代码

  • tensorlayer/TensorLayerX 跨平台开发框架,支持TensorFlow, Pytorch, MindSpore, PaddlePaddle, OneFlow和Jittor,用户不需要修改任何代码即可以运行在各类操作系统和AI硬件上(如Nvidia-GPU 和 Huawei-Ascend),并支持混合框架的开发。

  • borgwang/tinynn 用 Python3 编写的轻量级深度学习框架(用于学习目的)。

  • rushter/MLAlgorithms 机器学习算法

  • MLEveryday/100-Days-Of-ML-Code 100-Days-Of-ML-Code中文版

  • csuldw/MachineLearning csuldw/MachineLearning

  • luwill/machine-learning-code-writing luwill/machine-learning-code-writing

  • geekinglcq/CDCS CDCS 中国数据竞赛优胜解集锦

  • mlpack/mlpack C++ 快速、灵活的机器学习库

  • apple/coremltools 包含用于 Core ML模型转换、编辑和验证的支持工具。

  • tensorflow/ranking TensorFlow中的排名学习

  • scikit-survival 生存分析

  • ShichenXie/scorecardpy Scorecard Development in python, 评分卡

  • lavender28/Credit-Card-Score 申请信用评分卡模型

  • modin-project/modin 通过更改一行代码来扩展加速pandas

  • vaexio/vaex 适用于Python的核外DataFrame,以每秒十亿行的速度可视化和探索大型表格数据

  • cupy/cupy 使用 CUDA 加速类似 NumPy 的 API

  • serge-sans-paille/pythran 将 Python 代码转成 C++ 代码执行 一个 AOT (Ahead-Of-Time - 预先编译) 编译器,大幅度提升性能。

  • RAPIDS Open GPU Data Science RAPIDS 开放 GPU 数据科学库

    • cudf cuDF - GPU DataFrame Library GPU数据表库
    • cuml cuML - RAPIDS Machine Learning Library RAPIDS 机器学习库
    • cugraph cuGraph - RAPIDS Graph Analytics Library RAPIDS 图分析库
    • cusignal cuSignal - RAPIDS Signal Processing Library RAPIDS信号处理库
  • AtsushiSakai/PythonRobotics 包括了机器人设计中常用的定位算法、测绘算法、路径规划算法、SLAM 、路径跟踪算法。

  • sql-machine-learning/sqlflow 连接 SQL 引擎的桥接,与机器学习工具包连接

  • esa/pagmo2 大规模并行优化的科学库 生物启发式算法和进化算法

  • geatpy-dev/geatpy 高性能遗传进化算法工具箱

  • guofei9987/scikit-opt 强大的启发式算法Python模块 遗传算法 粒子群优化 模拟退火 蚁群算法 免疫算法 人工鱼群算法

  • interpretml/interpret 训练可解释的机器学习模型和解释黑匣子系统

  • alexmojaki/heartrate 调试 Python程序执行的简单实时可视化

  • bojone/keras_recompute 通过重计算来节省显存,参考论文《Training Deep Nets with Sublinear Memory Cost》。

  • yuanming-hu/taichi_mpm 带有切割和耦合(CPIC)的高性能MLS-MPM(基于移动最小二乘法的物质点法)求解器

  • pytorch/opacus Opacus是一个库,可以使用不同的隐私训练PyTorch模型。

  • pycaret/pycaret Python中的开源,低代码机器学习库

  • thuml/Transfer-Learning-Library 用于迁移学习的开源且文档齐全的库。它基于具有高性能和友好API的纯PyTorch。当前支持的算法包括:领域对抗神经网络(DANN)深度适应网络(DAN)联合适应网络(JAN)条件域对抗网络(CDAN)最大分类器差异(MCD)Margin Disparity Discrepancy 保证金差异(MDD)

  • jxhe/unify-parameter-efficient-tuning 参数高效迁移学习 (PETL) 方法仅调整少量(额外)参数以使大型预训练模型适应下游任务。

  • FedML-AI/FedML 面向研究的联邦学习库。支持分布式计算,移动/IoT设备训练和模拟

  • bytedance/fedlearner 字节开源联邦机器学习平台,采用的是一套云原生的部署方案。数据存放在HDFS,用MySQL存储系统数据。通过Kubernetes管理和拉起任务。每个Fedlearner的训练任务需要参与双方同时拉起K8S任务,通过Master节点统一管理,Worker建实现通信。以推荐广告业务为例,联邦机器学习平台的广告主和平台方应该各自管理一套模型展示服务和模型训练服务。

  • mit-han-lab/mcunet IoT硬件上精简的深度学习库 Tiny Deep Learning on IoT Devices

  • Aimhubio/Aim 一个超级简单的记录、查找、比较AI实验的库。

  • microsoft/onnxruntime 跨平台深度学习训练和推理机加速器,与深度学习框架,可以兼容TensorFlow、Keras和PyTorch等多种深度学习框架。Open Neural Network Exchange 是用于表示深度学习模型的开放格式,定义了通用运算符、机器学习和深度学习模型的构建块以及通用文件格式,可与各种框架工具和编译器一起使用。

  • microsoft/hummingbird 将训练有素的机器学习模型编译为张量计算,以加快推理速度。 用于将经过训练的传统ML模型编译为张量计算的库。

  • microsoft/EdgeML Microsoft Research India开发的边缘设备提供了机器学习算法。

  • ml-tooling/best-of-ml-python 很棒的机器学习Python库的排名列表。

  • terryyz/PyArmadillo Python 语言的线性代数库,强调易用性。该库旨在提供类似于 Matlab 或者 Octave 的高级语法和功能,使得用户以熟悉且自然的方式表达数学运算。提供了用于矩阵和多维数据集(cube)的对象,以及 200 多个用于处理对象中存储数据的相关函数。所有功能都可以在一个平面结构中访问,并且支持整数、浮点数和复数。通过集成 LAPACK 或者 Intel MKL、OpenBLAS 等高性能替代产品,该库可以提供各种矩阵分解。

  • raminmh/liquid_time_constant_networks 一种能适应实时世界系统的变化的神经网络。神经网络的设计灵感来自生物大脑,设计灵感直接来自秀丽隐杆线虫(C. elegans)。他说:「它的神经系统仅有 302 个神经元,但却可以产生超出预期的复杂动态。」 Liquid 网络的流动性使其能更弹性地应对意料之外的数据或噪声数据。

  • mlech26l/keras-ncp 设计灵感直接来自秀丽隐杆线虫 由感官神经元接收环境信息、而后经过中间神经元,传递给指令神经元进而形成决策信息,最后由动作神经元完成决策的执行并完成动作。

  • skorch-dev/skorch 综合scikit-learn和PyTorch的机器学习库,可以实现sklearn和PyTorch高效兼容。

  • OpenMined/PySyft 用于安全和私有深度学习的Python库。PySyft使用联合学习,差分隐私和加密计算(例如PyTorch和TF中的多方计算 (MPC) 和同态加密 (HE) 将模型训练中的私人数据进行解耦。

  • pyro-ppl/pyro 基于PyTorch作为后端的通用概率编程语言 (PPL)。

  • PytorchLightning/metrics PyTorch原生的函数和度量模块的集合,用于简单的性能评估。可以使用常见的指标,如准确性,召回率,精度,AUROC, RMSE, R²等,或者创建你自己的指标。支持超过25个指标,并不断增加更多通用任务和特定领域的标准(目标检测,NLP等)。

  • teddykoker/torchsort 快速可微分排序算法PyTorch包,配有自定义C ++和CUDA

  • man-group/dtale pandas数据结构的可视化工具

  • google/model_search 为了帮助研究者自动、高效地开发最佳机器学习模型,谷歌开源了一个不针对特定领域的 AutoML 平台。该平台基于 TensorFlow 构建,非常灵活,既可以找出最适合给定数据集和问题的架构,也能够最小化编程时间和计算资源。

  • neuronika/neuronika 纯Rust的张量和动态神经网络库。

  • matazure/mtensor 一个tensor计算库, 支持cuda的延迟计算

  • e-tony/best-of-ml-rust 一个令人赞叹的Rust机器学习排名表。

  • awslabs/autogluon 为文本、图像、表格数据开发的自动机器学习库(AutoML)。

  • luwill/Machine_Learning_Code_Implementation 机器学习算法的数学推导和纯Python代码实现。

  • ml-tooling/best-of-ml-python 一个令人赞叹的python机器学习排名表,每周更新。

  • thuwyh/InferLight 提高模型的线上推理吞吐量近2.5倍。

  • ContrastiveSR/Contrastive_Learning_Papers 对比学习的相关论文列表。内容包括:计算机视觉、NLP、推荐系统、图模型等方面的应用。

  • Tencent/WeChat-TFCC C++深入学习推理框架。提供以下工具包,便于您开发和部署训练有素的 DL 模型:TFCC深度学习推理库的核心、TFCC 代码生成器、TFCC 运行时。

  • idrl-lab/idrlnet 基于内嵌物理知识神经网络的开源求解框架

  • KaiyuYue/torchshard 马里兰大学帕克分校计算机科学系的研究者开源了一个轻量级的引擎,用于将 PyTorch 张量切片成并行的 shard。当模型拥有大量的线性层(例如 BERT、GPT)或者很多类(数百万)时,TorchShard 可以减少 GPU 内存并扩展训练规模,它具有与 PyTorch 相同的 API 设计。

  • marcotcr/lime LIMELocal Interpretable Model-agnostic Explanations被用作解释机器学习模型。

  • MAIF/shapash 非常炫酷的模型解释性工具包。

  • microsoft/ML-For-Beginners 微软给初学者开源了一份机器学习课程。

  • sfu-db/dataprep 开源 Python 库,有助于自动化探索性数据分析过程。它在创建数据分析报告时很有用,它还具有 3 个用于绘制图形、绘制缺失数字和数据相关性的功能。

  • scikit-learn-contrib/hdbscan 使用无监督学习来查找数据集的集群聚类或密集区域的工具。主要算法是HDBSCAN。该算法的高性能实现,以及用于分析结果聚类的工具。

  • nvidia/TensorRT 一个C++库,用于对 NVIDIA GPU 和深度学习加速器进行高性能推论。

  • dropreg/R-Drop 填补Dropout缺陷,简单又有效的正则方法。在每个 mini-batch 中,每个数据样本过两次带有 Dropout 的同一个模型,R-Drop 再使用 KL-divergence 约束两次的输出一致。

  • ucbrise/actnn 基于PyTorch的激活压缩训练框架。在同样内存限制下,通过使用 2 bit 激活压缩,可以将 batch size 扩大 6-14 倍,将模型尺寸或者输入图片扩大 6-10 倍。

  • softsys4ai/FlexiBO 基于成本感知的多目标优化深度神经网络

  • XuezheMax/apollo Apollo:用于非凸随机优化的自适应参数对角拟牛顿法

  • statsmodels/statsmodels Statsmodels:Python 中的统计建模和计量经济学库。

  • evidentlyai/evidently 在验证或生产监控期间分析机器学习模型的交互式报告。

  • louisfb01/best_AI_papers_2021 按发布日期列出的人工智能最新突破(2021 年)的精选列表,附有清晰的视频说明、更深入文章的链接和代码。

  • DataCanvasIO/DeepTables DeepTables:表格数据的深度学习工具包

  • arogozhnikov/Einops 深度学习操作被彻底改造(用于 pytorch、tensorflow、jax 等). einops(爱因斯坦标记法),让代码可读性更强.

https://github.com/haifengl/smile## 特征工程

  • FeatureLabs/featuretools 特征工程工具箱

  • ScienceKot/kydavra 特征筛选工具

  • aerdem4/lofo-importance LOFO(Leave One Feature Out)重要性基于选择的度量计算一组特征的重要性,对于选择的模型,通过迭代地从集合中删除每个特征,并评估模型的性能,使用验证方案 的选择,基于所选的指标。

  • imbalanced-learn 解决机器学习中不平衡数据集

  • ResidentMario/missingno 灵活且易于使用的缺失数据可视化和实用程序,可让您快速直观地了解数据集的完整性(或缺乏完整性)。

  • RUCAIBox/Negative-Sampling-Paper 该知识库收录了与负采样方法相关的 100 篇论文,涵盖推荐系统(RS)、计算机视觉(CV)、自然语言处理(NLP)和对比学习(CL)等多个研究领域。

  • haifengl/smile Smile(统计机器智能和学习引擎)是Java和Scala中的快速而全面的机器学习,NLP,线性代数,图形,插值和可视化系统。凭借先进的数据结构和算法,Smile 可提供最先进的性能。

异常检测

参数优化

梯度提升和树模型

  • dmlc/xgboost 可扩展、可移植和分布式梯度提升(GBDT、GBRT 或 GBM)库,适用于 Python、R、Java、Scala、C++ 等。 在单机、Hadoop、Spark、Dask、Flink 和 DataFlow 上运行。

  • microsoft/LightGBM 基于决策树算法的快速、分布式、高性能梯度提升(GBT、GBDT、GBRT、GBM 或 MART)框架,用于排名、分类和许多其他机器学习任务。

  • motefly/DeepGBM 为在线预测任务提炼的深度学习GBDT框架

  • catboost/catboost 一个快速、可扩展、高性能的决策树梯度提升库,用于 Python、R、Java、C++ 的排名、分类、回归和其他机器学习任务。 支持在 CPU 和 GPU 上进行计算。

  • Xtra-Computing/thundergbm ThunderGBM:GPU 上的快速 GBDT 和随机森林

  • GBDT-PL/GBDT-PL 使用分段线性树进行梯度提升

  • mesalock-linux/gbdt-rs MesaTEE GBDT-RS:一个快速且安全的 GBDT 库,支持 Intel SGX 和 ARM TrustZone 等 TEE

  • tensorflow/decision-forests 一组最先进的算法,用于训练、服务和解释 Keras 决策森林模型。

  • kingfengji/gcForest 这是论文“深度森林:走向深度神经网络的替代方案”的官方实现

  • LAMDA-NJU/Deep-Forest Deep Forest 2021.2.1的实现

  • hlamotte/decision-tree 在C++的决策树

  • augboost-anon/augboost 逐步特征增强的梯度提升。

  • DataCanvasIO/HyperGBM 用于表格数据的完整管道 AutoML 工具, 涉及多个梯度提升树模型(GBM),即XGBoost、LightGBM和Catboost。

  • Microstrong0305/WeChat-zhihu-csdnblog-code Regression Tree 回归树 深入理解提升树(Boosting tree)算法 深入理解GBDT回归 GBDT二分类算法 GBDT多分类算法 XGBoost LightGBM CatBoost 深入浅出Word2Vec原理解析 Doc2vec原理解析及代码实践

  • antmachineintelligence/mtgbmcode 提出了多任务梯度提升机 (MT-GBM),这是一种基于 GBDT 的多任务学习方法。MT-GBM 可以根据多任务损失找到共享树结构和拆分分支。

神经网络结构搜索 Neural Architecture Search

分布式机器学习

  • horovod/horovod Uber开源的分布式训练框架。它的发展吸取了Facebook "Training ImageNet In 1 Hour" 与百度 "Ring Allreduce" 的优点,可为用户实现分布式训练提供帮助。

  • dask/dask 用Python编写的,是一个灵活的、开源的并行计算库,提供大规模性能 高级并行性。

  • hpcaitech/ColossalAI 用于大规模并行训练的统一深度学习系统,具有高效并行化技术的集成大规模模型训练系统。可以让您在几行代码内快速开始分布式训练,通过并行化策略、异构内存管理为深度学习任务加速或者节省显存。

  • microsoft/DeepSpeed 深度学习优化库,它使分布式训练变得容易,高效和有效。

  • FMInference/FlexGen 高吞吐量的生成引擎,用于在GPU内存有限的情况下运行大型语言模型。FlexGen允许通过IO高效分载、压缩和大有效批处理大小生成高吞吐量。

  • Oneflow-Inc/libai 基于OneFlow的大规模模型训练开源工具箱。支持丰富的并行训练配置,包括但不限于分布式训练、混合精度训练、后向重计算、ZeRO,多样化的训练技巧,同时支持视觉与自然语言处理任务、简单易用,便于上手。

  • Qihoo360/XLearning 支持多种机器学习、深度学习框架调度系统。基于Hadoop Yarn完成了对TensorFlow、MXNet、Caffe、Theano、PyTorch、Keras、XGBoost等常用框架的集成,同时具备良好的扩展性和兼容性。

  • sql-machine-learning/elasticdl Kubernetes原生的深度学习框架,支持容错和弹性调度,支持TensorFlow和PyTorch。

  • kubeflow/kubeflow 用于机器学习操作的云原生平台 - 管道、训练和部署。

  • alibaba/euler 大规模分布式的图学习框架,配合TensorFlow或者阿里内部的XDL等深度学习工具,可以支持数十亿点数百亿边的复杂异构图上进行模型训练。

  • Angel-ML/angel 用于大规模机器学习的灵活而强大的参数服务器。基于参数服务器理念的高性能分布式机器学习和图计算平台。

  • ray-project/ray 提供用于构建分布式应用程序的简单通用API的开源框架。Ray与RLlib(可扩展的强化学习库和Tune(可扩展的超参数调优库)打包在一起。

  • alibaba/Alink Alink是基于Flink的机器学习算法平台,由阿里巴巴计算平台的PAI团队开发。

  • kakaobrain/torchgpipe pytorch的可扩展管道并行性库,可有效地训练大型的,消耗内存的模型。

  • tensorflow/mesh 简化模型并行化 Mesh TensorFlow: Model Parallelism Made Easier

  • uber/fiber 简化AI的分布式计算 该项目是实验性的,API不稳定。

  • petuum/adaptdl 资源自适应深度学习(DL)训练和调度框架。AdaptDL的目标是使分布式DL在动态资源环境(如共享集群和云)中变得轻松高效。

  • learning-at-home/hivemind 一个用于在互联网上训练大型神经网络的库

  • petuum/adaptdl 一个能动态调整并行度的深度神经网络训练框架。它支持多租户集群管理,可以平衡模型训练等待及完成时间,能够提高资源利用率。

  • huggingface/accelerate 一个简单的API,将与多GPUTPU、fp16相关的样板代码抽离了出来,保持其余代码不变。PyTorch 用户无须使用不便控制和调整的抽象类或编写、维护样板代码,就可以直接上手多 GPU 或 TPU。Accelerate 支持的集成包括:CPU 单 GPU 单一节点多 GPU 多节点多 GPU TPU 带有本地 AMP 的 FP16.

  • BaguaSys/bagua 八卦是由快手科技和DS3 Lab共同开发的PyTorch深度学习训练加速框架。目前支持:高级分布式训练算法:用户只需添加几行代码(可选择弹性模式)即可将单个 GPU 上的训练扩展到多 GPU(可能跨多台机器)。

  • facebookresearch/fairscale 用于高性能和大规模训练的 PyTorch 扩展。

  • PKU-DAIR/Hetu 针对大规模和自动化分布式训练的高性能分布式深度学习系统。

  • alibaba/FederatedScope 综合性的联邦学习平台,为学术界和工业界的各种联邦学习任务提供方便的使用和灵活的定制。FederatedScope基于事件驱动的架构,集成了丰富的功能集合,以满足联邦学习日益增长的需求,旨在构建一个易于使用的平台,以安全有效地促进学习。

  • Xtra-Computing/FedTree 基于树的模型的联合学习系统。它的设计目的是高效、有效和安全。目前具有以下特点:梯度提升决策树的联合训练。多核 CPU 和 GPU 上的并行计算。支持同态加密、安全聚合和差分隐私。支持分类和回归。

  • youngfish42/Awesome-Federated-Learning-on-Graph-and-Tabular-Data 图形和表格数据相关论文、框架和数据集的联邦学习。

  • microsoft/PersonalizedFL 面向研究的个性化联邦学习代码库

其他_机器学习与深度学习

  • JuliaLang/julia 用于科学计算的高级、高性能动态语言。

  • vikasverma1077/manifold_mixup 数据增强⽅法,目标是通过插入示例的隐藏状态来学习鲁棒的特征。 我们的方法学习到的表征更具判别性和紧凑性。

  • pytorch/serve 在生产环境中提供、优化和扩展 PyTorch 模型。特色:模型管理 API:通过优化从角色到模型的分配进行多模型管理、推理 API:对批量推理的 REST 和 gRPC 支持、TorchServe 工作流:使用多个相互依赖的模型部署复杂的 DAG、导出模型以进行优化推理:开箱即用的Torchscript,ORT和ONNX,IPEX,TensorRT,FasterTransformer、性能指南:内置支持优化、基准测试和分析 PyTorch 和 TorchServe 性能、富有表现力的处理程序:一种富有表现力的处理程序体系结构,通过开箱即用的支持,支持对用例的推理变得微不足道、指标 API:通过 Prometheus 导出、自定义指标和 PyTorch 分析器支持对系统级指标的开箱即用支持

  • streamlit/streamlit  用 Python 构建数据应用程序的最快方法

  • huggingface/optimum 性能优化工具,AI 生态发展迅速,越来越多的专用硬件及其优化每天都在涌现,可实现在目标硬件上训练和运行模型的最高效率。

  • mosaicml/composer 将神经网络训练速度提高 7 倍 更低的成本和更高的准确度更快地训练神经网络。我们已经实现了两打以上的加速方法,只需几行代码即可应用于您的训练循环,或与我们的内置 Trainer 一起使用。

  • China-UK-ZSL/Resources_for_KZSL KZSL:对知识驱动的零样本学习进行基准测试.用于零样本图像分类 ( ZS-IMGC)、零样本关系提取 ( ZS-RE) 和零样本知识图 (KG) 完成 ( ZS-KGC )

  • alibaba/Elastic-Federated-Learning-Solution 经过百亿规模工业级场景实战验证的跨互联网企业信息合作的联邦学习框架。EFLS有以下核心特性:云原生支持自定义特征工程——大规模高可用;首开水平聚合,层次聚合双模型——更强大更便捷。

  • wuba/dl_inference 通用深度学习推理工具,可在生产环境中快速上线由TensorFlow、PyTorch、Caffe框架训练出的深度学习模型。

  • activeloopai/Hub AI的数据集格式。为深度学习构建、管理和可视化数据集。将数据实时流式传输到PyTorch/TensorFlow并对其进行版本控制。

  • gradio-app/gradio 在 3 分钟内使用 Python 为您的机器学习模型创建 UI

  • PKU-DAIR/mindware 一个高效的开源 AutoML 系统,用于自动化机器学习生命周期,包括特征工程、神经架构搜索和超参数调整。

  • DataCanvasIO/Hypernets 通用自动化机器学习框架,用于简化特定领域中端到端 AutoML 工具包的开发。包括 tensorflow、keras、pytorch 等深度学习框架,以及 sklearn、lightgbm、xgboost 等机器学习库。引入了抽象的搜索空间表示,同时兼顾了超参数优化和神经架构搜索(NAS)的要求,使 Hypernets 成为能够适应各种自动化机器学习需求的通用框架。

  • RadeonOpenCompute/ROCm ROCm - 用于 HPC 和超大规模 GPU 计算的开源平台

  • PaddlePaddle/Paddle-Lite 飞桨多端多平台高性能深度学习推理引擎.支持多平台:涵盖 Android、iOS、嵌入式 Linux 设备、Windows、macOS 和 Linux 主机。支持多种语言:包括 Java、Python、C++。轻量化和高性能:针对移动端设备的机器学习进行优化,压缩模型和二进制文件体积,高效推理,降低内存消耗

  • nvdla/hw NVIDIA 深度学习加速器 (NVDLA) 是一种免费的开放式架构,它促进了设计深度学习推理加速器的标准方法。凭借其模块化架构,NVDLA 具有可扩展性、高度可配置性,并且旨在简化集成和可移植性。

  • lowRISC/opentitan OpenTitan是一个开源硅信任根 (RoT) 项目。使企业、平台提供商和芯片制造商的硅 RoT 设计和实现更加透明、可信和安全,以生产高质量的开放 IP 以作为全功能产品的实例化。制造商越来越多地开始关注防篡改处理器(或其中一部分),通常被称为“安全区域(Secure Enclave)”,以阻止各种攻击。芯片中使用“信任根(Root of Trust)”,在系统每次启动时进行加密检查,确保没有任何内容被恶意篡改。如果发现问题,安全区域会阻止计算机启动。

  • scikit-hep/awkward-1.0 使用类似 NumPy 的习语来处理类似 JSON 的数据。

  • alibaba/Curvature-Learning-Framework 基于Tensorflow的非欧深度学习框架。实现了多种非欧流形、非欧算子和黎曼优化器,基于与Tensorflow相似的底层接口,可以便捷的迁移模型空间而不改变模型细节。背景:欧氏空间不可能无损表征树、环结构,然而双曲(负曲率)、球面(正曲率)空间无损表征。由于对结构性强的如无尺度网络、层次数据、环状数据等的优良表征能力,非欧深度学习逐渐应用到各个领域并展示出优越性,包括链接预测、推荐系统等。

  • facebookresearch/bitsandbytes 用于 8 位优化器和量化例程的库。

  • openai/triton OpenAI的Triton是一种类 Python 的开源编程语言。能够高效编写 GPU 代码。它可以用不到 25 行代码写出与 cuBLAS 性能相匹配的 FP16 矩阵乘法内核。此外,使用 Triton 成功生成比同类实现效率高 2 倍的内核。

  • nebuly-ai/nebullvm 易于使用的库,可利用最先进的优化技术促进 AI 推理。利用多种优化技术(深度学习编译器、量化、稀疏性、蒸馏等),以确定在特定硬件上执行 AI 模型的最佳方式。可以在不损失性能的情况下将您的模型加速 2 到 10 倍,如果为超低延迟和更轻的模型牺牲准确度/精度,则可加速至 30 倍.

  • baifanxxx/awesome-active-learning 很棒的主动学习精选列表。主动学习是机器学习的特殊情况,它可以与专家进行交互(或其他信息源),再使用输出的新样本进行学习。

  • 4paradigm/OpenMLDB 一个开源机器学习数据库,它提供了一个计算一致特征的特征平台,用于训练和推理。

  • scikit-learn-contrib/MAPIE 用于估计预测间隔的 scikit-learn 兼容模块。

  • 4paradigm/AutoX 高效的 automl 工具,针对具有表格数据的数据挖掘任务。

  • dair-ai/ml-visuals 包含图形和模板,重复使用和自定义以改进您的科学写作。

  • mindsdb/mindsdb 使用 SQL语法,在数据库和数据仓库启用机器学习工作流。

  • kaidic/LDAM-DRW 使用标签分布感知边际损失学习不平衡数据集

  • Jianf-Wang/RSG 可以在训练过程中生成稀有类样本,并且可以与任何骨干网络相结合。RSG 仅用于训练阶段,因此在测试阶段不会给骨干网带来额外的负担。

  • ZhiningLiu1998/mesa 设计元知识驱动的采样器解决类别不平衡问题

  • YyzHarry/imbalanced-regression 深度不平衡回归(DIR)旨在从具有连续目标的不平衡数据中学习,解决某些区域的潜在缺失数据,并推广到整个目标范围。

  • dataease/dataease 开源的数据可视化分析工具,帮助用户快速分析数据并洞察业务趋势,从而实现业务的改进与优化。DataEase 支持丰富的数据源连接,能够通过拖拉拽方式快速制作图表,并可以方便的与他人分享。

  • google/tensorstore 用于读取和写入大型多维数组的库。

  • ahkarami/Deep-Learning-in-Production 有关在生产中部署基于深度学习的模型的有用说明和参考。

  • bentoml/BentoML ML模型服务框架.创建部署和扩展机器学习服务变得容易。

  • iterative/dvc Data 版本控制、用于数据和模型的 Git、机器学习实验管理

  • bokeh/bokeh 浏览器中的交互式数据可视化,来自 Python

  • nterpretml/interpret 适合可解释的模型。 解释黑盒机器学习。

  • Guang000/Awesome-Dataset-Distillation 数据集蒸馏是合成一个小数据集的任务,使得在其上训练的模型在原始大数据集上实现高性能。 数据集蒸馏算法将要蒸馏的大型真实数据集(训练集)作为输入,并输出一个小的合成蒸馏数据集,该数据集通过在单独的真实数据集(验证/测试集)上在该蒸馏数据集上训练的测试模型进行评估。 一个好的小型蒸馏数据集不仅对数据集理解有用,而且具有各种应用(例如,持续学习、隐私、神经架构搜索等)。

  • TimDettmers/bitsandbytes PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;LLM.int8() 推理;8 位优化器:Adam、AdamW、RMSProp、LARS、LAMB(节省 75% 的内存);稳定嵌入层:通过更好的初始化和规范化;提高稳定性 8 位量化:分位数、线性和动态量化;快速分位数估计:比其他算法快 100 倍

  • ydataai/ydata-profiling 从 pandas DataFrame 对象创建 HTML 分析报告

  • fbdesignpro/sweetviz 用一行代码可视化和比较数据集、目标值和关联。

  • AutoViML/AutoViz 使用一行代码自动可视化任何大小的任何数据集。

  • pola-rs/polars 速度极快的 DataFrames 库,使用 Apache Arrow Columnar Format 作为内存模型在 Rust 中实现。

  • facebookincubator/AITemplate Python 框架,可将神经网络渲染为高性能 CUDA/HIP C++ 代码。 专门用于 FP16 TensorCore(NVIDIA GPU)和 MatrixCore(AMD GPU)推理。

  • salesforce/OmniXAI 用于可解释 AI (XAI) 的 Python 机器学习库,提供全向可解释 AI 和可解释机器学习功能,以解决实践中解释模型做出的决策时的许多痛点。

  • MegEngine/MegCC 一个运行时超轻量,高效,移植简单的深度学习模型编译器

  • microsoft/Semi-supervised-learning 统一的半监督学习基准,可应用于人脸识别、语音识别和音频分类

  • polyaxon/traceml 用于机器学习/数据跟踪、可视化、可解释性、漂移检测和仪表板的引擎。

  • dabl/dabl 数据分析基线库,当前主要侧重于探索性可视化和预处理。

  • Speedml/speedml 一个Python包,用于加速启动机器学习项目。

  • TimDettmers/bitsandbytes 用于 PyTorch 的 8 位 CUDA 函数。具有混合精度分解的 8 位矩阵乘法;8位优化器:Adam,AdamW,RMSProp,LARS,LAMB,Lion(节省75%的内存);稳定嵌入层:通过更好的初始化和规范化提高稳定性;8 位量化:分位数、线性和动态量化、快速分位数估计:比其他算法快 100 倍。

  • yassouali/awesome-semi-supervised-learning 最新和精选的令人敬畏的半监督学习论文,方法和资源列表。未标记的数据可能相对容易收集,但很少有方法可以使用它们。半监督学习通过使用大量未标记的数据以及标记的数据来构建更好的分类器来解决此问题。由于半监督学习需要更少的人力并且具有更高的准确性,因此它在理论和实践中都非常有趣。

  • vespa-engine/vespa 开放的大数据服务引擎。开放的大数据服务引擎 - 在服务时存储、搜索、组织和对大数据进行机器学习推理。

NLP自然语言处理

Transformer库与优化

  • huggingface/transformers 支持Pytorch、TensorFlow和JAX的最先进的机器学习Transformers库。提供了数以千计的预训练模型,支持100多种语言的文本分类、信息抽取、问答、摘要、翻译、文本生成。它的宗旨让最先进的 NLP 技术人人易用。

  • adapter-hub/adapter-transformers HuggingFace 的 Transformers 的友好分支,将适配器添加到 PyTorch 语言模型。可用作 HuggingFace 的直接替代品,并定期同步新的上游更改。

  • microsoft/DeBERTa 注意力分散的增强解码的BERT,使用了BERT和RoBERTa模型,显着提高了预训练的效率和下游任务的性能。

  • pytorch/fairseq Python的Facebook AI Research Sequence-to-Sequence包。

  • ml-jku/hopfield-layers NLP 领域里大热的 Transformer,其网络更新规则其实是和 Hopfield 网络在连续状态下是相同的。Transformer 中的这种注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。作者来自奥地利林茨大学、挪威奥斯陆大学,与 Jürgen Schmidhuber 合著 LSTM 的 Sepp Hochreiter 也是作者之一。

  • laiguokun/Funnel-Transformer Transformer优化,一种新的自我注意模型,可以将隐藏状态的序列逐渐压缩为较短的状态,从而降低了计算成本。

  • mit-han-lab/hardware-aware-transformers 用于高效自然语言处理的硬件感知型Transformers.实现高达3倍的加速和3.7倍的较小模型尺寸,不会降低性能。

  • mit-han-lab/lite-transformer 具有长距离短距离注意的Lite transformer

  • allenai/longformer 用于长文档的类似BERT的模型

  • Tencent/TurboTransformers 在 CPU 和 GPU 上进行Transformer推断的快速且用户友好的运行库。

  • idiap/fast-transformers Pytorch实现的快速Transformer库

  • bytedance/lightseq 高效的序列处理与生成库,提供 Bert, GPT, Transformer,beam search, diverse beam search, topp/topk sampling

  • google-research/bigbird 基于稀疏注意力(随机注意力机制+局部注意力机制+全局注意力机制)的transformer,它将基于transformer的模型(例如 BERT)扩展到更长的序列。 由于能够处理更长的上下文,BigBird 极大地提高了各种 NLP 任务(例如问答和摘要)的性能。

  • lucidrains/performer-pytorch 一个高效的线性广义注意力框架(generalized attention framework),允许基于不同相似性度量(核)的一类广泛的注意力机制。该框架通过谷歌的新算法 FAVOR+(Fast Attention Via Positive Orthogonal Random Features)来实现,后者能够提供注意力机制的可扩展低方差、无偏估计,这可以通过随机特征图分解(常规 softmax-attention)来表达。该方法在保持线性空间和时间复杂度的同时准确率也很有保证,也可以应用到独立的softmax运算。此外,还可以和可逆层等其他技术进行互操作。

  • microsoft/fastformers 实现Transformers在CPU上223倍的推理加速 它能对基于Transformer的模型在各种NLU任务上实现高效的推理时间性能。论文FastFormers的作者表明,利用知识蒸馏、结构化剪枝和数值优化可以大幅提高推理效率。我们表明,这种改进可以达到200倍的加速,并在22倍的能耗下节省超过200倍的推理成本。

  • mit-han-lab/lite-transformer 轻量级Transformer,注意力长短搭配 长依赖和短依赖的剥离,并引入卷积来捕捉短依赖,总体思想和Transformer之自适应宽度注意力有点类似。文章中发现低层次上的注意力都比较短,层次越高,注意力的所关注的依赖越长。

  • ThilinaRajapakse/simpletransformers 用于分类、NER、QA、语言建模、语言生成、T5、多模态和会话AI的transformer

  • cloneofsimo/RealFormer-pytorch 通过在Transformer架构上进行改造来提升BERT训练效果,具体为:使用attention残差机制改造Transformer。1、realformer在标签数量较少的分类任务上有一定的提升效果,提升的幅度与数据集和任务难度有关,一般越难的任务提升的幅度越大。2、realformer在标签数量达到一定的数值时,其效果便会大打折扣,在某些数据集上甚至会无法学习。

  • openai/sparse_attention 稀疏Attention

  • sacmehta/delight 提出了一个更深更轻的Transformer,DeLighT,它的性能与Transformer相似,甚至更好,平均少了2到3倍的参数。

  • BSlience/transformer-all-in-one 记录了学习Transformer过程中的一些疑问和解答,并且实现Transformer的全过程。

  • mlpen/Nystromformer 利用了 Nyström 方法来近似标准的Attention。

  • xuanqing94/FLOATER 基于连续动态系统学习更加灵活的位置编码

  • ELS-RD/transformer-deploy Hugging Face Transformer 亚毫秒推理和部署到生产环境

  • lucidrains/x-transformers 一个简单但完整的全注意力转换器,具有来自各种论文的一组有希望的实验特征 Full encoder / decoder 、Decoder-only (GPT-like) 、Encoder-only (BERT-like) 、Image -> caption 。

  • lucidrains/FLASH-pytorch 线性时间的Transformer变体

  • NVIDIA/FasterTransformer Transformer相关优化,包括BERT、GPT 。提供了一个脚本和配方来运行高度优化的基于转换器的编码器和解码器组件,它由 NVIDIA 测试和维护。可以带来性能加速。

  • HazyResearch/flash-attention 快速且节省内存的精确注意力

  • NetEase-FuXi/EET 针对Transformer-based大模型和长序列场景的高性能pytorch推理插件。高性能:设计高度优化的CUDA内核。灵活:提供包括op api、model api和pipelines应对不同需求。 使用: 几行代码即可完成。适配主流ai框架,包括fairseq和transformers。bert模型整体性能加速1.2x到7.x倍,gpt模型整体性能加速2.x到7.x倍。

  • NVIDIA/transformer-ls 将原始 Transformer 的全部自注意力替换为考虑长期和短期相关性的有效注意力。每个查询都关注分段滑动窗口中的标记以捕获短期相关性,以及动态投影特征以捕获长期相关性。为了对齐原始特征、投影特征向量的范数并提高聚合的效率,使用两组层归一化对原始特征向量和投影特征向量进行归一化。

  • thuml/Flowformer 任务通用的线性复杂度Transformer 。在图论中的经典网络流(Flow network)模型中,“守恒”(Conservation)是一个重要现象,即每个节点的流入量等于流出量。受到“固定资源情况下,必定引起竞争”的启发,通过网络流视角重新分析经典注意力机制中的信息流动,并通过守恒性质将竞争引入注意力机制设计,以避免平凡注意力问题。

  • alipay/Pyraformer 用于长期时间序列建模和预测的低复杂度金字塔注意。

  • NVIDIA/Megatron-LM 由 NVIDIA 的应用DL研究团队开发的大型、强大的transformer。开发了高效、模型并行(张量、序列和流水线)和多节点预训练,基于 Transformer 的模型(例如 GPT、BERT 和 T5)使用混合精度。

  • facebookresearch/bit 鲁棒二值化多次蒸馏Transformer

BERT优化

  • google-research/bert Bidirectional Encoder Representations from Transformers 来自Transformers的双向编码器表示法

  • google-research/ALBERT 用于语言表达自我监督学习的Lite BERT

  • bojone/bert-of-theseus BERT 模型压缩方法 ,theseus(忒修斯之船 如果忒修斯的船上的木头被 逐渐替换,直到所有的木头都不是原来的木头,那这艘船还是原来的那艘船吗?),将原始大模型切分为多个大模块,固定大模型权重,训练时随机替换为小模块,充分训练后,将小模型继续微调。

  • brightmart/albert_zh 使用TensorFlow 进行自我监督学习语言表示的Lite Bert的实现预训练的汉语模型

  • bojone/bert4keras 更清晰、更轻量级的keras版bert,提供丰富的应用例子。

  • huawei-noah/Pretrained-Language-Model 华为诺亚方舟实验室开发的预训练语言模型及其相关优化技术NEZHA是一种经过预训练的中文语言模型,可以在多项中文NLP任务上实现最先进的性能TinyBERT是一种压缩的BERT模型,推理时可缩小7.5倍,加快9.4倍

  • ymcui/MacBERT MacBERT是一种改进的BERT,具有新颖的M LM校正预训练任务,它减轻了预训练和微调的差异。我们建议使用类似的词来进行掩蔽,而不是使用在微调阶段从未出现过的 [MASK] 令牌进行掩蔽。通过使用基于 word2vec (Mikolov et al., 2013) 相似度计算的Synonyms 工具包 (Wang and Hu, 2017)获得相似词。如果选择 N-gram 进行掩码,我们将单独找到相似的单词。在极少数情况下,当没有相似词时,我们会降级为使用随机词替换。

  • Lisennlp/TinyBert 基于华为的TinyBert进行修改的,简化了数据读取的过程,方便我们利用自己的数据进行读取操作。

  • epfml/collaborative-attention 整合多头注意力,任何经过预训练的注意力层重新配置为协作注意力层。

  • ZhuiyiTechnology/WoBERT 以词为基本单位的中文BERT(Word-based BERT)

  • autoliuweijie/FastBERT 具有自适应推断时间的自蒸馏BERT pip install fastbert

  • alexa/bort 论文 Optimal Subarchitecture Extraction for BERT. “ BERT的最佳子体系结构提取”的代码。Bort是用于BERT架构的最佳子集,它是通过对神经架构搜索应用完全多项式时间近似方案(FPTAS)提取的。 Bort的有效(即不计算嵌入层)大小是原始BERT大型体系结构的5.5%,是净大小的16%。它在CPU上也比基于BERT的速度快7.9倍,并且比体系结构的其他压缩变体和某些非压缩变体性能更好。与多个公共自然语言理解(NLU)基准上的BERT-large相比,它的平均性能提高了0.3%至31%。

  • valuesimplex/FinBERT 基于 BERT 架构的金融领域预训练语言模型

  • yitu-opensource/ConvBert ConvBERT,通过全新的注意力模块,仅用 1/10 的训练时间和 1/6 的参数就获得了跟 BERT 模型一样的精度。依图研发团队从模型结构本身的冗余出发,提出了一种基于跨度的动态卷积操作,并基于此提出了 ConvBERT 模型。

  • wtma/CharBERT 字符敏感的预训练语言模型 通过结合字符级别和词级别的信息实现了更为全面的输入编码,同时,结合 RNN 和 CNN 的优势,基本上 CNN,RNN,Transformer 都使用上了,体现了新老研究成果的结合在一定程度上能进一步提升方法的性能。

  • Sleepychord/CogLTX 将BERT应用于长文本CogLTX遵循一种特别简单直观的范式,即抽取关键的句子=>通过BERT得到答案的两步流程。

  • ShannonAI/service-streamer 服务流媒体BERT服务,每秒处理1400个句子的BERT服务.

  • Sleepychord/CogLTX 可将当前类似BERT的预训练语言模型应用于长文本。使用动态规划算法将长文本划分为文本块集合;使用MemRecall对原长句中的子句进行打分:从而选择出分数最高的子句组成 再进行训练,这样一来的话,COGLTX相当于使用了了两个bert,MemRecall中bert就是负责打分,另一个bert执行原本的NLP任务。

  • bojone/BERT-whitening 简单的线性变换(白化)操作,就可以达到BERT-flow的效果。

  • thunlp/ERNIE 用知识图谱增强 BERT 的预训练效果

      1. 对于抽取并编码的知识信息,研究者首先识别文本中的命名实体,然后将这些提到的实体与知识图谱中的实体进行匹配。研究者并不直接使用 KG 中基于图的事实,相反他们通过知识嵌入算法(例如 TransE)编码 KG 的图结构,并将多信息实体嵌入作为 ERNIE 的输入。基于文本和知识图谱的对齐,ERNIE 将知识模块的实体表征整合到语义模块的隐藏层中。
      1. 与BERT类似,采用了带Mask的语言模型,以及预测下一句文本作为预训练目标。除此之外,为了更好地融合文本和知识特征,研究者设计了一种新型预训练目标,即随机 Mask 掉一些对
  • ShannonAI/ChineseBert 融合字形与拼音信息的中文Bert预训练模型

  • alibaba/AliceMind/LatticeBERT Leveraging Multi-Granularity Representations in Chinese Pre-trained Language Models 利用多粒度的词格信息(word lattice),相对字级别的模型取得了性能提升。

  • Langboat/Mengzi 孟子预训练模型 轻量级但更强大,对部署和工业落地更友好的模型。

  • huawei-noah/DynaBERT dynamic BERT 可以通过选择自适应宽度和深度来灵活地调整网络大小,从而得到一个尺寸可变的网络。首先通过知识蒸馏的方法将teacher BERT的知识迁移到有自适应宽度的子网络student  DynaBERTw中,然后再对DynaBERTw进行知识蒸馏得到同时支持深度自适应和宽度自适应的子网络DynaBERT。

  • microsoft/LoRA 大型语言模型的低秩适应。 冻结原始权重的同时学习成对的秩分解矩阵来减少可训练参数的数量。降低了适用于特定任务的大型语言模型的存储需求,并在部署期间实现了高效的任务切换,所有这些都不会引入推理延迟。在 GLUE 基准上获得与完全微调相当或更好的结果,同时只训练和存储一小部分参数。

  • guillaume-be/rust-bert Rust-native 最先进的自然语言处理模型和管道。 Hugging Face 的 Transformers 库的端口,使用 tch-rs crate 和 rust-tokenizers 预处理。 支持多线程标记化和GPU推理。 公开了模型基础架构、特定于任务的头和随时可用的管道。

  • volcengine/veGiantModel 字节跳动应用ML团队的基于torch的高效训练库。 使巨型模型(例如GPT、BERT和T5)训练变得简单高效。 建立在 Megatron 和 DeepSpeed 之上,通过集成高效通信库BytePs并提供定制的管道分区来提高通信效率。

  • extreme-bert/extreme-bert 可加速 BERT 在自定义数据集上的预训练和微调。

预训练模型

  • dbiir/UER-py 一个用于对通用语料进行预训练并对下游任务进行微调的工具包。提供了非常丰富的模型库。包括:中文RoBERTa、基于词的中文RoBERTa、中文GPT-2预训练模型(通用、古诗词、对联、歌词、文言文)、中文T5预训练模型、中文RoBERTa下游任务微调模型(JD full 情感分类 、JD binary 情感分类 、Dianping 情感分类、Ifeng 新闻主题分类、Chinanews 新闻主题分类 、CLUENER2020 NER 、抽取式问答)等。

  • OpenBMB/BMInf BMInf (Big Model Inference) 是一个用于大规模预训练语言模型(PLM)推理阶段的低资源工具包。最低支持在NVIDIA GTX 1060单卡运行百亿大模型。在此基础上,使用更好的gpu运行会有更好的性能。模型能力覆盖文本补全、文本生成与对话场景。文本生成能力大幅提高。目前支持下列模型:

    • CPM2.1. CPM2.1是CPM2 [1] 的升级版本。拥有110亿参数的通用中文预训练语言模型。基于CPM2,CPM2.1新增了一个生成式的预训练任务并基于持续学习范式进行训练。CPM2.1比CPM2具有更好的生成能力。
    • CPM1. CPM1 [2] 是拥有26亿参数的生成式中文预训练语言模型。CPM1的模型架构与GPT [4] 类似,它能够被应用于广泛的自然语言处理任务,如对话、文章生成、完形填空和语言理解。
    • EVA. EVA [3] 是有着28亿参数的中文预训练对话模型。EVA在很多对话任务上表现优异,尤其是在多轮人机交互对话任务上。
  • CyberZHG/keras-xlnet XLNet的非官方实现。

  • hwchase17/langchain 通过可组合性使用大型语言模型构建应用程序 基于 OPENAI 的 GPT3 等大语言模型设计一系列便于集成到实际应用中的接口,降低了在实际场景中部署大语言模型的难度

  • IDEA-CCNL/Fengshenbang-LM Fengshenbang-LM(封神榜大模型)是IDEA研究院认知计算与自然语言研究中心主导的大模型开源体系,成为中文认知智能的基础设施。包括了自然语言理解(NLU),自然语言生成(NLG)和自然语言转换(NLT)任务。CHID(成语填空)、TNEWS(新闻分类)超过人类,CHID(成语填空)、CSLDCP(学科文献分类)、OCNLI(自然语言推理)单任务第一,刷新小样本学习记录。

  • ymcui/Chinese-XLNet 面向中文的XLNet预训练模型

  • microsoft/unilm UniLM-NLP及更高版本的统一语言模型预训练

    • layoutlm 多模态文档理解预训练模型LayoutLM 2.0,模型首先将文本、图像、布局三种模态的输入转换成向量表示,然后再交给编码器网络,最终输出的表示向量可以供下游任务使用。下游任务:表单理解、票据理解、复杂布局长文档理解、文档图像分类、视觉问答。
  • YunwenTechnology/Unilm UniLM模型既可以应用于自然语言理解(NLU)任务,又可以应用于自然语言生成(NLG)任务。论文来自微软研究院。模型虽然强大,但微软并没有开源中文的预训练模型。因此云问本着开源之前,将我们预训练好的中文unilm_base模型进行开源。

  • ymcui/Chinese-ELECTRA 中文ELECTRA预训练模型 其中ELECTRA-small模型可与BERT-base甚至其他同等规模的模型相媲美,而参数量仅为BERT-base的1/10

  • THUDM/GLM-130B 开放的双语(英汉)双向密集模型,1300亿参数,使用通用语言模型(GLM)进行预训练。 支持单台A100(40G * 8)或V100(32G * 8)服务器上具有130B参数的推理任务。 通过 INT4 量化,降低到 4 * RTX 3090(24G),而性能几乎没有下降。 截至 2022 -7-3 ,已接受了超过 4000 亿个文本标记(中文和英文各 200B)的训练。

  • alibaba/EasyTransfer 自然语言处理的迁移学习工具。主要特性:预训练语言模型工具,丰富且高质量的预训练模型库 BERT, ALBERT, RoBERTa, T5, etc,丰富且易用的NLP应用 如文本匹配、分本分类、机器阅读理解MRC,自动化的知识蒸馏,易用且高效的分布式训练。

  • microsoft/unilm/layoutlm 多模态预训练模型 LayoutLM 2.0,不仅考虑了文本和页面布局信息,还将图像信息融合到了多模态框架内。下游任务微调:表单理解 票据理解 复杂布局长文档理解 文档图像分类 视觉问答

  • google-research/byt5 ByT5:通过预先训练的字节到字节模型迈向无令牌的未来.ByT5 是 mT5 模型的无标记器扩展。 我们的 ByT5 模型不像大多数其他预训练语言模型(BERT、XLM-R、T5、GPT-3)那样使用子词词汇表,而是直接在 UTF-8 字节上运行,无需任何文本预处理。 除了降低系统复杂性之外,我们发现参数匹配的 ByT5 模型在一系列任务中与 mT5 具有竞争力,并且在涉及嘈杂文本或对拼写和发音敏感的任务上优于 mT5。 此 repo 可用于重现 ByT5 论文中的实验。

  • sunyilgdx/NSP-BERT 利用句子级别(sentence-level) 的预训练任务 NSP (下一句预测,Next Sentence Prediction) 来实现不同的NLP下游任务, 例如 单句分类(single sentence classification), 双句分类(sentence pair classification), 指代消解(coreference resolution), 完形填空(cloze-style task), 实体链接(entity linking), 实体类型识别(entity typing).

  • thunlp/OpenPrompt Prompt-learning 是将预训练语言模型应用于下游NLP任务的最新范式,它使用文本模板修改输入文本并直接使用 PLM 执行预训练任务。 该库提供了一个标准、灵活和可扩展的框架来部署即时学习管道。 OpenPrompt支持直接从Huggingface Transformer加载PLM。将来,我们还将支持其他库实现的 PLM。

  • google-research/flan 微调语言模型是零样本学习器

  • PaddlePaddle/ERNIE ERNIE 家族各种预训练模型的官方实现,涵盖语言理解与生成、多模态理解与生成等主题。

  • airaria/TextPruner 用于预训练语言模型的基于 PyTorch 的模型修剪工具包.它提供了低成本免训练的方法,通过去除冗余神经元来减小模型大小并加快模型推理速度。在 TextPruner 中,共有三种剪枝模式:词汇剪枝变压器剪枝管道剪枝

  • Tencent/PatrickStar 提供更大、更快、更环保的预训练模型,并为所有人普及人工智能。PatrickStar 的内存管理支持将模型的当前计算部分以外的所有内容卸载到 CPU 以节省 GPU。此外,在扩展到多个 GPU 时,基于块的内存管理对于集体通信非常有效。通过异构训练(DeepSpeed Zero Stage 3 也使用它),PatrickStar 可以充分利用 CPU 和 GPU 内存,这样您就可以使用更少的 GPU 来训练更大的模型。

  • ymcui/PERT 提出了一种基于乱序语言模型的预训练模型,在不引入掩码标记[MASK]的情况下自监督地学习文本语义信息。PERT在部分中英文NLU任务上获得性能提升,但也在部分任务上效果较差,请酌情使用。

  • THUDM/P-tuning-v2 P-tuning v2 对预训练变压器的每一层输入应用连续提示。深度提示调整增加了连续提示的容量,并缩小了跨各种设置微调的差距,特别是对于小型模型和艰巨的任务。将文本生成的prefix-tuning技术适配到NLU任务。Prompting技术火爆NLP社区,其将预训练模型从Fine-tuning范式带入Prompt-Engineering时代。Promp最初由人工设计,自然语言提示本身十分脆弱,而且从优化角度无法达到最优。为了解决问题发展出了可学习的Prompt,而P-tuning v2在实际上就是Prefix-tuning,在Prefix部分,每一层transformer的embedding输入需要被tuned。在不同规模大小的LM模型上,P-tuning v2能与精调(Fine-tuning)方法的表现比肩,有时甚至更好。

  • EleutherAI/gpt-neox 基于 DeepSpeed 库的 GPU 上模型并行自回归转换器(autoregressive transformers)的实现。目前基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。希望在此过程中训练和开源 175B 参数 GPT-3 复制。

  • OpenBMB/BMTrain 高效的大型模型训练工具包,可用于训练具有数百亿参数的大型模型。 它可以以分布式方式训练模型,同时保持代码像单机训练一样简单。

  • microsoft/CodeBERT 针对编程语言的预训练模型,在Py、Java、JS、PHP、Ruby、Go的 NL-PL 对上进行预训练的多编程语言模型。

  • clue-ai/PromptCLUE 大规模多任务Prompt预训练中文开源模型。千亿中文token上大规模预训练,累计学习1.5万亿中文token,亿级中文任务数据上完成训练,训练任务超过150+。比base版平均任务提升7个点+;具有更好的理解、生成和抽取能力,并且支持文本改写、纠错、知识图谱问答。

  • BlinkDL/RWKV-LM 具有 Transformer 级 LLM 性能的 RNN。它可以像 GPT(可并行化)一样直接训练。因此,它结合了 RNN 和 Transformer 的优点——出色的性能、快速推理、节省 VRAM、快速训练、“无限”ctx_len 和自由句子嵌入。

文本分类

  • kk7nc/Text_Classification 一项文本分类算法的调查

  • cnn_multilabel_classification 基于TextCNN和Attention的多标签分类

  • ilivans/tf-rnn-attention Tensorflow实现文本分类任务的关注机制。

  • skdjfla/toutiao-text-classfication-dataset 中文文本分类数据集 共38.2万条,分布于15类中。

  • xiaoqian19940510/text-classification-surveys 文本分类资源汇总,包括深度学习文本分类模型,如SpanBERT、ALBERT、RoBerta、Xlnet、MT-DNN、BERT、TextGCN、MGAN、TextCapsule、SGNN、SGM、LEAM、ULMFiT、DGCNN、ELMo、RAM、DeepMoji、IAN、DPCNN、TopicRNN、LSTMN 、Multi-Task、HAN、CharCNN、Tree-LSTM、DAN、TextRCNN、Paragraph-Vec、TextCNN、DCNN、RNTN、MV-RNN、RAE等,浅层学习模型,如LightGBM 、SVM、XGboost、Random Forest、C4.5、CART、KNN、NB、HMM等。介绍文本分类数据集,如MR、SST、MPQA、IMDB、Ye…

  • 649453932/Chinese-Text-Classification-Pytorch 中文文本分类,TextCNN,TextRNN,FastText,TextRCNN,BiLSTM_Attention,DPCNN,Transformer,基于pytorch,开箱即用。

  • 649453932/Bert-Chinese-Text-Classification-Pytorch 使用Bert,ERNIE,进行中文文本分类

  • SanghunYun/UDA_pytorch Unsupervised Data Augmentation with BERT 一种半监督学习方法,可在多种语言和视觉任务上实现SOTA结果。仅用20个标记的示例,UDA的性能就优于之前在25,000个标记的示例上训练的IMDb上的SOTA。

  • TextCNN与ALBERT分类效果的实践 详解小样本短文本多分类-对比TextCNN与ALBERT分类效果的实践(附Pytorch代码)

  • GT-SALT/MixText 文本半监督方法MixText 提出一种全新文本增强方式——TMix,在隐式空间插值,生成全新样本。对未标注样本进行低熵预测,并与标注样本混合进行TMix。MixText可以挖掘句子之间的隐式关系,并在学习标注样本的同时利用无标注样本的信息。超越预训练模型和其他半监督方法

  • beyondguo/label_confusion_learning 利用标签之间的混淆关系,提升文本分类效果。利用标签信息时能够充分考虑标签之间的重叠或者依赖关系。

  • AIRobotZhang/STCKA 基于知识图谱的文本分类.将每个短文本与其在KB中的相关概念相关联,将概念信息作为先验知识整合到深度神经网络中。

  • ShannonAI/Neural-Semi-Supervised-Learning-for-Text-Classification 在大规模通用领域预训练的前提下,更好地利用大规模领域内无标注语料与标注语料,从而最大限度地提升模型效果.足量的领域内语料U使模型不需要再在通用领域语料上预训练;无论是采用预训练还是自训练的方式,都可以显著提升模型效果,二者结合可以得到最佳结果;当领域内标注数据D较小的时候,在伪平行数据D'上训练、再在D上微调可以提升更多的效果;当D更大的时候,在D和D'上联合训练取得的效果更好。

  • xmu-xiaoma666/External-Attention-pytorch 17篇注意力机制 PyTorch 实现

  • DunZhang/LM-MLC 基于完型填空(模板)的多标签分类算法.

  • bojone/r-drop 使用r-drop机制实验了中文文本分类、文本生成任务,有提升。

  • BUPT-GAMMA/CompareNet_FakeNewsDetection 与知识比较:使用外部知识进行图神经假新闻检测 (ACL 2021)

  • pangwong/pytorch-multi-label-classifier pytorch 实现的多标签分类分类器

  • xuyige/BERT4doc-Classification 如何微调 BERT 进行文本分类

  • timoschick/pet 该存储库包含“利用小样本文本分类和自然语言推理的完形填空题”的代码.介绍了模式利用训练 (PET),这是一种半监督训练程序,可将输入示例重新表述为完形填空式短语。在低资源环境中,PET 和 iPET 显着优于常规监督训练、各种半监督基线甚至 GPT-3,尽管需要的参数减少 99.9%。PET 的迭代变体 (iPET) 训练多代模型,甚至可以在没有任何训练数据的情况下使用。

  • YerevaNN/warp ACL'2021 论文 WARP Cyclone Word-level Adversarial ReProgramming 的代码。 在 SuperGLUE 少样本文本分类上优于“GPT-3”。提出了一种基于对抗性重编程的替代方法,它是自动扩展提示模板生成的早期工作。而且参数量少了好多个数量级。

  • whatissimondoing/CoG-BART 对比度和生成使BART成为很好的对话情感识别器

  • hiyouga/Dual-Contrastive-Learning 双重对比学习。 通过在同一空间内同时学习输入样本的特征和分类器的参数,为监督分类任务提出了一种新颖的对比学习框架。

  • thunlp/KnowledgeablePromptTuning 将知识整合到 Prompt Verbalizer 中进行文本分类

  • zhouj8553/FlipDA 提供了一种基于 T5 和翻转标签自训练的自动数据增强方法。 我们在 FewGLUE 上对其进行评估,并提高其性能。

文本摘要

  • xcfcode/Summarization-Papers 文本摘要论文总结

  • abisee/pointer-generator 使用指针生成器网络进行汇总

  • AIKevin/Pointer_Generator_Summarizer 指针生成器网络:具有关注,指向和覆盖机制的Seq2Seq,用于抽象性摘要。 tensorflow 2.0

  • kjc6723/seq2seq_Pointer_Generator_Summarizer 中文会话中生成摘要总结的项目 tensorflow 2.0

  • steph1793/Pointer_Transformer_Generator 指针生成器网络 tensorflow 2.0

  • magic282/NeuSum 通过共同学习评分和选择句子进行神经文本摘要

  • dmmiller612/bert-extractive-summarizer BERT易于使用的提取文本摘要

  • nju-websoft/NEST 输入知识图谱的基于联合编码的弱监督神经实体摘要方法

  • bojone/SPACES 端到端的长本文摘要模型(法研杯2020司法摘要赛道)

  • xcfcode/Summarization-Papers 文本摘要论文列表,包括各种主题。

  • yym6472/ms_pointer_network 用多来源Pointer Network的产品标题摘要方法.从两个信息来源:原始商品标题和知识信息knowledge中抽取信息,然后将二者进行综合得到最后的结果。

  • FeiSun/ProductTitleSummarizationCorpus Dataset for CIKM 2018 paper "Multi-Source Pointer Network for Product Title Summarization" 用于产品标题摘要的多源指针网络

  • jiacheng-ye/kg_one2set 解决关键词生成任务,给一篇源文档(比如论文的摘要),关键词预测任务就是预测出一些表达文档重点信息的关键词,或者更准确的说是关键短语。提出了模型SetTrans,其特点是能够预测更多、更准确而且重复率更低的关键词集合。并行预测,在 inference 效率上是Transfomer的6.44倍。

  • MaartenGr/keyBERT 一种最小且易于使用的关键字提取技术,它利用BERT嵌入来创建与文档最相似的关键字和关键字短语。

  • xcfcode/PLM_annotator 探索对话总结的 DialoGPT

  • RowitZou/topic-dialog-summ 具有显着性感知主题建模的客户服务的面向主题的口语对话摘要。数据集是从阿里巴巴客户服务中心收集的。所有对话都是在客户和服务代理之间进行的普通话来电。脱敏数据可在 Google Drive百度盘(提取码:t6nx)上获得。

  • maszhongming/MatchSum 背景: 传统抽取式摘要模型都是基于句子级提取的,即未考虑句子间关系,对所有句子逐个打分,取topN的句子为摘要。主要贡献:考虑句子间的关系,通过候选句间的组合句来抽取摘要;基于摘要与原文档在语义上应该有较大匹配度的考量,本文提出了基于候选句间的组合句与原文档的相似度来判断文档摘要的模型.对六个摘要提取数据集进行分析,验证了句子级得分高的摘要并不是摘要级得分最高的。如果仅以句子级,容易产生pearl-summary, 即虽然句子得分较低,但其实是较好的摘要,作者称为沧海遗珠。

  • nlpyang/PreSumm 基于BERT的文档级编码器,该编码器能够表达文档的语义,并获得文档的句子表示。并分别提出了抽取式和生成式的摘要模型。

  • nlpyang/BertSum BERT的简单变体 用于抽取式文本摘要,主要是选择性抽取文本中的句子作为最后的摘要。这个任务最大的问题是如何获得每个句子向量,然后把向量用于二分类,判断去留。而 BERT 原模型只能生成单句的句子向量,或者句子对的。(1)将文档中每句话前加 [CLS]后加[SEP],然后输入 BERT,而每个[CLS]对应的位置就是每句的句向量。(2)为了进一步增加句之间的互动,在 BERT 之上加了一层 Transformer 的 Summarization Layer,只输入每个[CLS]的向量,最后输出预测当前句是否保留,finetune。

  • OpenSUM/CPSUM 半监督抽取式摘要的噪声注入一致性训练和熵约束伪标签

  • krystalan/ClidSum 一个跨语言对话摘要的基准数据集

文本生成、文本对话

类ChatGPT大语言对话模型及数据

  • Significant-Gravitas/Auto-GPT 使用GPT4来自动完成目标任务。一个实验性开源应用程序,展示了 GPT-4 语言模型的功能。该程序由 GPT-4 驱动,将 LLM 的“思想”链接在一起,以自主实现您设定的任何目标。作为 GPT-4 完全自主运行的首批示例之一,Auto-GPT 突破了 AI 的可能性界限。

  • AntonOsika/gpt-engineer GPT 工程师易于调整、扩展,它根据提示生成整个代码库。指定您希望它构建的内容,AI 要求澄清,然后构建它。

  • THUDM/ChatGLM-6B 开源的、支持中英双语的对话语言模型,基于 General Language Model (GLM) 架构,具有 62 亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4 量化级别下最低只需 6GB 显存)。 ChatGLM-6B 使用了和 ChatGPT 相似的技术,针对中文问答和对话进行了优化。经过约 1T 标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62 亿参数的 ChatGLM-6B 已经能生成相当符合人类偏好的回答。

  • lonePatient/awesome-pretrained-chinese-nlp-models 高质量中文预训练模型集合。包括:基础大模型、对话大模型、多模态对话大模型、大模型评估基准、开源模型库平台、开源数据集库、中文指令数据集。

  • Vision-CAIR/MiniGPT-4 MiniGPT-4:使用高级大型语言模型增强视觉语言理解 提供与 Vicuna-7B 对齐的预训练 MiniGPT-4!演示 GPU 内存消耗现在可以低至 12GB。

  • ggerganov/llama.cpp 纯C/C++中LLaMA模型的CPU推理。2023年FacebookResearch 开源了大规模语言模型 LLaMA,包含从 7B 到 65B 的参数范围,训练使用多达 1.4万亿 tokens 语料。LLaMA-13B 在大部分基准测评上超过了 GPT3(175B),LLaMA 可能是目前公开模型权重中效果最好的语言模型。

  • juncongmoo/pyllama LLaMA - 在单个 4GB GPU 中运行 LLM

  • tatsu-lab/stanford_alpaca 斯坦福大学的LLaMA羊驼模型。用2K数据微调模型,构建和共享一个遵循指令的LLaMA模型。

  • LC1332/Chinese-alpaca-lora 在LLaMA、斯坦福大学Alpaca、Alpaca LoRA、Cabrita、Japanese-Alpaca-LoRA的基础上,调试了一个中国LLaMA模型。同时使用ChatGPT API将alpaca_data. json翻译为中文,再进行微调。

  • tloen/alpaca-lora 在消费者硬件上使用指令来微调LLaMA模型。使用低秩自适应(LoRA)重现斯坦福大学Alpaca结果的代码。我们提供了一个与 text-davinci-003质量相似的Instruct模型,可以在Raspberry Pi上运行(用于研究),并且代码很容易扩展到 13b , 30b 和 65b模型。

  • mymusise/ChatGLM-Tuning 平价的chatgpt实现方案, 基于ChatGLM-6B + LoRA

  • OpenLMLab/MOSS 支持中英双语和多种插件的开源对话语言模型,moss-moon系列模型具有160亿参数。开源数据: moss-002-sft-data: 多轮对话数据,覆盖有用性、忠实性、无害性三个层面,包含由text-davinci-003生成的约57万条英文对话和59万条中文对话。moss-003-sft-data: 多轮对话数据,基于MOSS-002内测阶段采集的约10万用户输入数据和gpt-3.5-turbo构造而成,更加符合真实用户意图分布,包含更细粒度的有用性类别标记、更广泛的无害性数据和更长对话轮数,约含110万条对话数据。moss-003-sft-plugin-data: 插件增强的多轮对话数据,包含支持搜索引擎、文生图、计算器、解方程等四个插件在内的约30万条多轮对话数据。moss-003-pm-data: 偏好数据,包含在约18万额外对话上下文数据及使用moss-moon-003-sft所产生的回复数据上构造得到的偏好对比数据。

  • clue-ai/ChatYuan 用于问答、结合上下文做对话、做各种生成任务,包括创意性写作,也能回答一些像法律、新冠等领域问题。它基于PromptCLUE-large结合数亿条功能对话多轮对话数据进一步训练得到。

  • lm-sys/FastChat 令人印象深刻的 GPT-4 开放式聊天机器人 Vicuna:一个以 90% ChatGPT 质量的开源聊天机器人。

  • EleutherAI/gpt-neox 在GPU上训练大规模语言模型。基于 NVIDIA 的威震天语言模型,并已通过 DeepSpeed 的技术以及一些新颖的优化进行了增强。目标是使这个存储库成为一个集中且可访问的地方,以收集用于训练大规模自回归语言模型的技术,并加速对大规模训练的研究。

  • visual-openllm/visual-openllm 文心一言的开源版,基于 ChatGLM + Visual ChatGPT + Stable Diffusion

  • hikariming/alpaca_chinese_dataset 人工精调的中文对话数据集和一段chatglm的微调代码

  • ymcui/Chinese-LLaMA-Alpaca 中文LLaMA模型和经过指令精调的Alpaca大模型。这些模型在原版LLaMA的基础上扩充了中文词表并使用了中文数据进行二次预训练,进一步提升了中文基础语义理解能力。同时,在中文LLaMA的基础上,本项目使用了中文指令数据进行指令精调,显著提升了模型对指令的理解和执行能力。

  • Facico/Chinese-Vicuna 一个中文低资源的llama+lora方案,结构参考alpaca

  • lucidrains/PaLM-rlhf-pytorch 在PaLM架构上实现RLHF(人工反馈强化学习),类似ChatGPT

  • togethercomputer/OpenChatKit 一个强大的开源基础,可以为各种应用程序创建专用和通用聊天机器人。该工具包包括一个指令调优的语言模型,一个审核模型,和一个可扩展的检索系统,用于包括来自自定义存储库的最新响应。

  • LianjiaTech/BELLE 开源中文对话大模型,现阶段基于开源预训练大语言模型(如BLOOM),针对中文做了优化,模型调优仅使用由ChatGPT生产的数据(不包含任何其他数据)。开放了数据集:Stanford Alpaca 生成的中文数据集1M + 0.5M;0.25M数学指令数据集和0.8M多轮任务对话数据集。

  • carbonz0/alpaca-chinese-dataset alpaca中文指令微调数据集

  • cryscan/multilingual-share 为了推进中文AI的发展,促进AI技术公开化、国际化,我们成立了 ShareGPT-90k 项目,希望借助大家的力量推进数据清洗与对齐工作。可能与各位想象的有所不同,GPT模型主要通过预训练数据集赋能,语料的质量对模型最终性能至关重要。然而,百度知道、CSDN、知乎等平台软文过多;小木虫等高质量平台语料过少;个人博客内容质量参差不齐。OpenAI完成数据集的收集花费了巨大成本,以至于需要从微软集资。我们无力承担如此巨大的开销,于是需要各位有志于筹建开放获取语料,并有一定外语基础的网友们献上自己的力量。RWKV-Wiki/MultilingualShareGPT

  • TigerResearch/TigerBot 多语言多任务LLM,在 BLOOM 基础上的模型:TigerBot-7B, TigerBot-7B-base,TigerBot-180B。数据:预训练 100G,从 2TB 过滤后的数据中经过去噪去重清洗而得;监督微调 1G 或 100 万条数据,按比例涵盖用户指令常见的 10 大类 120 小类任务。

  • masa3141/japanese-alpaca-lora 日文指令来微调LLaMA模型

  • 22-hours/cabrita 葡萄牙语微调指令LLaMA

  • Stability-AI/StableLM 稳定性AI语言模型。使用 Stanford Alpaca 的程序对模型进行了微调,结合了五个最近的对话代理数据集:Stanford 的 Alpaca 、Nomic-AI 的 gpt4all 、RyokoAI 的 ShareGPT52K 数据集、Databricks的 Dolly 和 HH 。以 StableLM-Tuned-Alpha 的形式发布这些模型。

  • LC1332/Luotuo-Chinese-LLM 中文大语言模型开源项目,包含了一系列语言模型。Luotuo-Vanilla是骆驼项目的第一个github仓库, 它是在LLaMA-7B上进行微调的。骆驼项目的初始目标,是研究使用跨语言数据在进行微调时,大语言模型发生的相关现象。

  • FreedomIntelligence/LLMZoo 一个为大型语言模型提供数据,模型和评估基准的项目。发布基于BLOOMZ的凤凰Phoenix7B模型、Chimera奇美拉模型。Phoenix-inst-chat-7b 达到85.2% 的ChatGPT效果。

  • openai/evals 一个评估LLM和LLM系统的框架,也是一个开源的基准测试表。

  • pengxiao-song/LaWGPT 基于中文法律知识的大语言模型

  • MediaBrain-SJTU/MedicalGPT-zh 基于ChatGLM的在高质量指令数据集微调的中文医疗对话语言模型

  • mlfoundations/open_flamingo 用于训练大型多模态模型的开源框架。DeepMind Flamingo 模型的开源版本。提供了用于训练和评估模型的 PyTorch 实现。还提供了在新的多模式 C4 数据集上训练的初始 OpenFlamingo 9B 模型。

  • dandelionsllm/pandallm 海外中文开源大语言模型,基于 Llama-7B, -13B, -33B, -65B 进行中文领域上的持续预训练。

  • OptimalScale/LMFlow 一个可扩展、方便和高效的工具箱,用于微调大型机器学习模型。我们的目标是开发一套用户友好、快速可靠,并对整个社区开放的全流程微调代码库。

  • yangjianxin1/Firefly Firefly(流萤): 中文对话式大语言模型,包括高质量的包含1.1M中文多任务指令微调数据集,包含23种常见的中文NLP任务的指令数据。对于每个任务,由人工书写若干指令模板,保证数据的高质量与丰富度。权重分享:在bloom-1b4-zh 和bloom-2b6-zh 的基础上,进行指令微调,获得如下中文模型:firefly-1b4 、firefly-2b6 、firefly-2b6-v2。开源QLoRA训练流程和模型权重

  • PlexPt/awesome-chatgpt-prompts-zh ChatGPT 中文调教指南。各种场景使用指南。学习怎么让它听你的话。

  • dalinvip/Awesome-ChatGPT ChatGPT资料汇总学习

  • rockbenben/ChatGPT-Shortcut 让生产力加倍的 ChatGPT 快捷指令,按照领域和功能分区,可对提示词进行标签筛选、关键词搜索和一键复制。

  • PhoebusSi/Alpaca-CoT 将CoT数据扩展到Alpaca以提高其推理能力,同时我们将不断收集更多的instruction-tuning数据集,并在我们框架下集成进更多的LLM,打造一个通用的LLM-IFT平台。Alpaca-CoT · Datasets

  • sahil280114/codealpaca 在代码生成指令上训练的 Instruction-following LLaMA Model。包括用于微调模型的 20K 数据。

  • unit-mesh/unit-minions 《AI 研发提效研究:自己动手训练 LoRA》,包含 Llama (Alpaca LoRA)模型、ChatGLM (ChatGLM Tuning)相关 Lora 的训练。训练内容:用户故事生成、测试代码生成、代码辅助生成、文本转 SQL、文本生成

  • microsoft/JARVIS 一个将LLM与ML社区联系起来的系统。该系统由LLM作为控制器和众多专家模型作为协作执行者(来自HuggingFace Hub)组成。我们系统的工作流程包括四个阶段:任务规划:使用ChatGPT分析用户的请求以了解他们的意图,并将其分解成可能解决的任务。模型选择:为了解决计划的任务,ChatGPT 根据他们的描述选择托管在拥抱脸上的专家模型。任务执行:调用并执行每个选定的模型,并将结果返回给 ChatGPT。响应生成:最后,使用 ChatGPT 集成所有模型的预测,并生成响应。

  • mlc-ai/mlc-llm 使每个人都能在每个人的设备上本地开发、优化和部署 AI 模型。解决方案的基石是机器学习编译(MLC),我们利用它来有效地部署AI模型。我们建立在开源生态系统的肩膀上,包括来自Hugging Face和Google的令牌化器,以及Llama,Vicuna,Dolly,MOSS,RWKV等开源LLM。我们的主要工作流程基于 Apache TVM Unity。

  • mlc-ai/web-llm 将大语言模型和聊天引入 Web 浏览器。一切都在浏览器中运行,没有服务器支持。WebLLM是MLC LLM的姊妹项目。它重用了模型工件并构建了MLC LLM的流程。

  • wangzhaode/ChatGLM-MNN 纯C++,易于部署的ChatGLM-6B。

  • adams549659584/go-proxy-bingai用 Vue3 和 Go 搭建的微软 New Bing 演示站点,拥有一致的 UI 体验,支持 ChatGPT 提示词,国内可用。

  • f/awesome-chatgpt-prompts 包含 ChatGPT 提示,以更好地使用 ChatGPT

  • humanloop/awesome-chatgpt ChatGPT和GPT-3的惊人工具、演示和文档

  • encx/ChatGPT ChatGPT 桌面应用程序(Mac、Windows 和 Linux)

  • xtekky/chatgpt-clone 具有更好用户界面的聊天GPT界面

  • wong2/chatgpt-google-extension 浏览器扩展,用ChatGPT增强搜索引擎效果

  • acheong08/ChatGPT 逆向工程 ChatGPT 的API

  • ddiu8081/chatgpt-demo 基于 OpenAI GPT-3.5 Turbo API 的 demo。

  • LAION-AI/Open-Assistant 基于聊天的助理,它理解任务,可以与第三方系统互动,并能动态地检索信息。将提供基于RLHF的大型语言模型,并公开训练数据。

  • acheong08/EdgeGPT 微软必应聊天的逆向工程API

  • yoheinakajima/babyagi 使用GPT3/4来自动完成任务。一个 AI 支持的任务管理系统示例. 该系统使用 OpenAI 和 Pinecone API 创建, 优先级排序和执行任务. 该系统背后的主要思想是基于先前任务的结果和预定义的目标创建任务. 脚本然后使用 OpenAI 的自然语言处理(NLP)能力根据目标创建新任务, 并使用 Pinecone 存储和检索任务结果以获得上下文. 这是原始的任务驱动的自驱代理的简化版本.

  • TransformerOptimus/SuperAGI SuperAGI - 开发优先的开源自主 AI 代理框架。使开发人员能够快速可靠地构建、管理和运行有用的自主代理。

  • StanGirard/quivr 将所有文件和想法转储到您的生成式AI(如chatgpt)的第二大脑中并与之聊天。旨在轻松存储和检索非结构化信息。

  • transitive-bullshit/chatgpt-api OpenAI提供的ChatGPT的Node.js包装器。

  • zhayujie/chatgpt-on-wechat 用ChatGPT搭建微信聊天机器人

  • openai/openai-python OpenAI Python库提供了从用Python语言编写的应用程序对OpenAI API的方便访问。

  • chenking2020/FindTheChatGPTer ChatGPT/GPT4开源“平替”汇总,持续更新

  • madawei2699/myGPTReader 由chatGPT提供支持,Slack上的一个机器人,可以阅读和总结任何网页,包括电子书在内的文档,甚至是YouTube上的视频。它可以通过语音和你交流。

  • JosephusCheung/GuanacoDataset Guanaco 模型的数据集旨在增强多语言能力并解决各种语言任务。以 Alpaca 模型的 175个任务为基础,提供了用不同语言重写的种子任务,并添加了专门为英语语法分析、自然语言理解、跨语言自我意识和显式内容识别设计的新任务。数据集总共包含53万个条目,以6k美元的低成本生成。英语\中文\日语。

  • thunlp/UltraChat 大规模、信息丰富、多样化的多轮聊天数据(和模型)

  • ziliwangnlp/RefGPT 包含5万对中文多轮对话数据。用如下方法自动生成数据。采集优质的事实型文档,reference,来源是电子书、维基百科、优质垂类网站。文档需要涵盖尽量多的主题。利用已有LLM生成多轮对话。输入是一篇reference,prompt类似“请根据这篇文章生成多轮问答”。API输出一段多轮对话(dialogue)。这种方法将原本只适合预训练的文档转化成可供微调的多轮对话。收集到大量的reference-dialogue二元组。将reference和prompt作为输入,dialogue作为目标,微调一个GPT模型。称作Reference-to-Dialogue GPT,缩写RefGPT。有了RefGPT,即可基于reference生成多轮对话,获得海量的数据。需要关注2个要点。Reference的质量、广度。Reference内容质量必须高,比如医疗等优质垂类网站的页面、维基百科上非生僻的词条,且需要对网页做清洗。Reference的广度应当大,不能限制在单个垂类或网站。调用已有LLM时需要写prompt,需要仔细尝试各种prompt,使得LLM生成的多轮对话符合预期。

  • gururise/AlpacaDataCleaned 经过清理和整理的斯坦福的羊驼数据集

  • wangrui6/Zhihu-KOL 知乎对话数据,parquet格式400多MB的大小

  • BAAI/COIG 中文开放教学通才 (COIG) 项目,以维护一套无害、有用且多样化的中文对话语料库。具体包括:人工验证的翻译指令 (67798) 、考试指令 (63532) 、人类价值对齐指令 (34471) 、反事实修正多轮聊天(13653)、Leetcode 指令 (11737)

  • nomic-ai/pyllamacpp 支持 llama.cpp + gpt4all 的 Python 绑定

  • abetlen/llama-cpp-python llama.cpp 的 Python 绑定

  • BlinkDL/ChatRWKV 使用RWKV语言模型(100%RNN)的类ChatGPT开源聊天模型。

  • rawandahmad698/PyChatGPT 非官方 ChatGPT API 的 Python 客户端,具有自动令牌重新生成、对话跟踪、代理支持等功能。

  • qunash/chatgpt-advanced 一种浏览器扩展,可通过网络结果增强您的 ChatGPT 提示。

  • mpociot/chatgpt-vscode 允许您使用 ChatGPT 的 VSCode 扩展

  • liady/ChatGPT-pdf 用于将 ChatGPT 历史下载为 PNG、PDF 或创建可共享链接的 Chrome 扩展

  • imartinez/privateGPT 使用 LLM 的强大功能,无需互联网连接就可以对您的文档提出问题。 100% 私有,任何时候都没有数据离开您的执行环境。您可以在没有互联网连接的情况下提取文档和提问!

  • xtekky/gpt4free 免费使用GPT4模型 typescript版本

  • saharmor/awesome-chatgpt 精选的 ChatGPT 演示、工具、文章等

  • binary-husky/chatgpt_academic 科研工作专用ChatGPT/GLM拓展,特别优化学术Paper润色体验,模块化设计支持自定义快捷按钮&函数插件,支持代码块表格显示,Tex公式双显示,新增Python和C++项目剖析&自译解功能,PDF/LaTex论文翻译&总结功能,支持并行问询多种LLM模型,支持gpt-3.5/gpt-4/chatglm

  • AetherCortex/Llama-X 关于将LLaMA提高到SOTA LLM的开放学术研究

  • WangRongsheng/ChatGenTitle 使用百万arXiv论文信息在LLaMA模型上进行微调的论文题目生成模型

  • nishiwen1214/ChatReviewer 使用ChatGPT分析论文优缺点,提出改进建议

  • bhaskatripathi/pdfGPT 允许您使用 GPT 功能与 PDF 文件的内容聊天。在聊天机器人中转换您的 pdf 文件的唯一开源解决方案

  • kaixindelele/ChatPaper 全流程加速科研,利用chatgpt进行论文总结+润色+审稿+审稿回复

  • eimenhmdt/autoresearcher 使用 GPT 自动化科学工作流程

  • gragland/chatgpt-chrome-extension ChatGPT Chrome 扩展。将 ChatGPT 集成到互联网上的每个文本框中。

  • vincelwt/chatgpt-mac Mac 版 ChatGPT,就在您的菜单栏中。

  • GaiZhenbiao/ChuanhuChatGPT 为ChatGPT ChatGLM LLaMA StableLM MOSS等多种LLM提供了一个轻快好用的Web图形界面

  • SCIR-HI/Med-ChatGLM 基于中文医学知识的ChatGLM指令微调

  • xionghonglin/DoctorGLM 基于ChatGLM-6B的中文问诊模型

  • WangRongsheng/MedQA-ChatGLM 基于真实医疗对话数据在ChatGLM上进行LoRA、P-Tuning V2、Freeze、RLHF等微调

  • Toyhom/Chinese-medical-dialogue-data 中文医疗对话数据集,:<Andriatria_男科> 94596个问答对 <IM_内科> 220606个问答对 <OAGD_妇产科> 183751个问答对 <Oncology_肿瘤科> 75553个问答对 <Pediatric_儿科> 101602个问答对 <Surgical_外科> 115991个问答对 总计 792099个问答对

  • sonnylazuardi/chat-ai-desktop 使用 Tauri 和 Rust 的 Mac 和 Windows 菜单栏的非官方 ChatGPT 桌面应用程序

  • xx025/carrot 准备了众多免费好用的ChatGPT镜像站点,当前100+站点

  • LiLittleCat/awesome-free-chatgpt 免费的 ChatGPT 镜像网站列表,持续更新。

  • yzfly/awesome-chatgpt-zh ChatGPT 中文指南,ChatGPT 中文调教指南,指令指南,精选资源清单,更好的使用 chatGPT 让你的生产力

  • terry3041/pyChatGPT OpenAI的ChatGPT API的非官方Python包装器

  • platelminto/chatgpt-conversation 用你的声音与 ChatGPT 对话,让它回话。

  • 202252197/ChatGPT_JCM OpenAI管理界面,聚合OpenAI的所有接口进行界面操作(所有模型、图片、音频、微调、文件)等,支持Markdown格式(公式、图表,表格)等

  • memochou1993/gpt-ai-assistant 使用 OpenAI API 和 LINE 消息传递 API 实现的应用程序。通过安装过程,您可以使用LINE移动应用程序开始与自己的AI助手聊天。

  • cesarhuret/docGPT ChatGPT 直接在 Google Docs 中作为编辑器的插件

  • ConnectAI-E/Feishu-OpenAI 飞书 ×(GPT-3.5 + DALL·E + Whisper)= 飞一般的工作体验 rocket 语音对话、角色扮演、多话题讨论、图片创作、表格分析、文档导出

  • terror/chatgpt.nvim 在 Neovim 中查询 ChatGPT

  • clmnin/summarize.site 浏览器扩展使用ChatGPT总结网页内容

  • shobrook/stackexplain 用 ChatGPT 解释您编程中的错误消息

  • Zero6992/chatGPT-discord-bot 将 ChatGPT 集成到您自己的discord机器人中

  • m1guelpf/chatgpt-telegram 运行您自己的 GPTChat 电报机器人,只需一个命令

  • transitive-bullshit/chatgpt-twitter-bot OpenAI的ChatGPT API支持的Twitter机器人

  • kxxt/chatgpt-action 让 ChatGPT 为您审查 PR 拉取请求

  • RomanHotsiy/commitgpt 使用 ChatGPT 自动生成git提交消息

  • oceanlvr/ChatGPT-ProBot 基于 ChatGPT 的 GitHub APP,键入 /chatgpt 与机器人 robot 聊天。

  • kazuki-sf/ChatGPT_Extension 非常简单的Chrome扩展(v3),您可以从网络上的任何地方访问OpenAI的ChatGPT。

  • abielzulio/chatgpt-raycast ChatGPT raycast(Mac的快捷启动器) 扩展

  • bupticybee/ChineseAiDungeonChatGPT 中文版的ai地牢,直接使用的openai的ChatGPT api作为讲故事的模型。

  • domeccleston/sharegpt 轻松与您的朋友分享 ChatGPT 对话的永久链接

  • Yidadaa/ChatGPT-Next-Web 一键拥有你自己的 ChatGPT 网页服务。

  • pengzhile/pandora 实现了网页版 ChatGPT 的主要操作。后端优化,绕过 Cloudflare,速度喜人。

  • Chanzhaoyu/chatgpt-web 用Express和Vue3搭建的 ChatGPT 演示网页

  • elyase/awesome-gpt3 关于 OpenAI GPT-3 API 的演示和文章的集合。

  • dair-ai/Prompt-Engineering-Guide 提示工程是一门相对较新的学科,用于开发和优化提示以有效地将语言模型 (LM) 用于各种应用程序和研究主题。即时的工程技能有助于更好地理解大型语言模型 (LLM) 的功能和局限性。研究人员使用提示工程来提高 LLM 在广泛的常见和复杂任务(例如问题回答和算术推理)上的能力。开发人员使用提示工程来设计与 LLM 和其他工具交互的强大且有效的提示技术。

  • reworkd/AgentGPT 在浏览器中组装、配置和部署自治 AI 代理。为您自己的自定义 AI 命名,让它开始任何可以想象的目标。它将尝试通过思考要完成的任务、执行它们并从结果中学习来达到目标。

  • openai/chatgpt-retrieval-plugin ChatGPT 检索插件可让您通过自然语言提问来轻松查找个人或工作文档。

  • Bin-Huang/chatbox 开源的 ChatGPT API (OpenAI API) 桌面客户端,Prompt 的调试与管理工具,支持 Windows、Mac 和 Linux

  • openai/openai-cookbook 使用 OpenAI API 的示例和指南

  • smol-ai/developer 随着Anthropic Claude的100k 上下文窗口的出现,现在每个开发人员都可以拥有自己的辅助开发助手

  • e2b-dev/e2b 允​​许您创建和部署虚拟软件开发人员。这些虚拟开发人员由专门的 AI 代理提供支持,这些代理可以根据您的指令构建软件并可以使用工具。

  • csunny/DB-GPT 使用本地 GPT 与您的数据和环境交互,无数据泄漏,100% 私密,100% 安全 目前支持Vicuna(7b, 13b), ChatGLM-6b(int4, int8)

  • acheong08/Bard Google 的 Bard 聊天机器人 API 的逆向工程

  • jtsang4/claude-to-chatgpt 将 Anthropic 的 Claude 模型的 API 转换为 OpenAI Chat API 格式。

  • databrickslabs/dolly dolly-v2-12b是由Databricks创建的120亿参数因果语言模型,该模型源自EleutherAI的Pythia-12b,并在Databricks员工生成的~15K记录指令语料库上进行微调,并在宽松许可证(CC-BY-SA)下发布

  • openlm-research/open_llama 一个在RedPajama数据集上训练的Meta AI的LLaMA 7B的许可开源复制品。

  • mbzuai-nlp/LaMini-LM 来自大规模指令的多样化蒸馏模型群。从ChatGPT提炼出来的小型高效语言模型的集合,并在2.58M指令的大规模数据集上进行训练。我们通过执行句子/离线提炼从大型语言模型中提取知识。我们基于几个现有的提示资源,使用 gpt-3.5-turbo 生成总共 2.58M 对指令和响应。

  • microsoft/TaskMatrix 连接了ChatGPT和一系列Visual Foundation模型,以便在聊天期间发送和接收图像。

  • huggingface/peft 最先进的参数高效微调 (PEFT) 方法,LoRA、Prefix Tuning、P-Tuning、Prompt Tuning、AdaLoRA。参数高效微调 (PEFT) 方法能够将预训练的语言模型 (PLM) 有效地适应各种下游应用程序,而无需微调模型的所有参数。微调大型 PLM 的成本通常高得令人望而却步。在这方面,PEFT方法仅微调少量(额外)模型参数,从而大大降低了计算和存储成本。最近最先进的PEFT技术实现了与完全微调相当的性能。

  • artidoro/qlora 量化LLM的有效微调。QLoRA使用bitsandbytes进行量化。QLoRA是一种高效的微调方法,可减少内存使用量,足以在单个 48GB GPU 上微调 65B 模型,同时保留完整的 16 位微调任务性能。QLoRA 通过冻结的 4 位量化预训练LM将梯度反向传播到低秩适配器 (LoRA) 中。我们最好的模型 Guanaco,在 Vicuna 基准测试中优于之前所有公开的模型,达到了 ChatGPT 性能水平的 99.3%,而只需在单个 GPU 上进行 24 小时的微调。QLoRA 引入了许多创新,以在不牺牲性能的情况下节省内存:(a) 4 位 NormalFloat (NF4),一种理论上最适合正态分布权重的新数据类型 (b) 双重量化,通过量化常量来减少平均内存占用,以及 (c) 分页优化器来管理内存峰值。我们使用QLoRA对1k个模型进行微调,对 8 个指令数据集、多种模型(LLaMA、T5)和模型规模(如33B和65B参数)的指令遵循和聊天机器人性能进行详细分析。结果表明,QLoRA在小型高质量数据集上进行微调可以产生最先进的结果,即使用比以前的SoTA更小的模型也是如此。GPT4评估是人类评估的廉价且合理的替代方案。当前的聊天机器人基准测试不值得信赖,无法准确评估聊天机器人的性能水平。我们发布了所有模型和代码,包括用于 4 位训练的 CUDA 内核。

  • hiyouga/ChatGLM-Efficient-Tuning 基于 PEFT 的高效 ChatGLM 微调

  • ZrrSkywalker/LLaMA-Adapter 在1小时内遵循指令微调LLaMA , 1.2M参数

  • Instruction-Tuning-with-GPT-4/GPT-4-LLM 共享 GPT-4 生成的数据,用于构建具有监督学习和强化学习的指令遵循 LLM。存储库包含:

    • 英语教学 - 遵循数据由 GPT-4 使用 Alpaca 提示进行微调 LLM。
    • 由 GPT-4 使用由 ChatGPT 从羊驼翻译的中文提示生成的中文指令跟踪数据。
    • 按 GPT-4 排名以训练奖励模型的比较数据。
    • 关于非自然指令的答案 来自 GPT-4 的数据,用于大规模量化 GPT-4 和指令调整模型之间的差距。
  • lxe/simple-llm-finetuner 初学者友好的界面,旨在通过商用NVIDIA GPU上的PEFT库,使用LoRA方法微调各种语言模型。使用较小的数据集和 256 的样本长度,您甚至可以在常规的 Colab Tesla T4 实例上运行它。

  • Jittor/JittorLLMs 计图大模型推理库,具有高性能、配置要求低、中文支持好、可移植等特点。成本低:相比同类框架,本库可大幅降低硬件配置要求(减少80%),没有显卡,2G内存就能跑大模型;支持广:目前支持了4种大模型:ChatGLM大模型、鹏程盘古大模型、BlinkDL的ChatRWKV、国外Meta的LLaMA大模型等;可移植:用户不需要修改任何代码,只需要安装Jittor版torch(JTorch);速度快:大模型加载速度慢,Jittor框架通过零拷贝技术,大模型加载开销降低40%,同时,通过元算子自动编译优化,计算性能相比同类框架提升20%以上。

  • RUCAIBox/LLMSurvey 与大型语言模型相关的论文和资源集合。

  • Lunabot 在任何网页为你服务的AI助理,通过快捷指令释放AI工作潜力,无需KEY和ChatGPT账号

  • jerryjliu/llama_index 您的 LLM 应用程序的数据框架。高级 API 允许初学者使用 LlamaIndex 在 5 行代码中摄取和查询他们的数据。我们的低级 API 允许高级用户自定义和扩展任何模块(数据连接器、索引、检索器、查询引擎、重新排名模块)以满足他们的需求。

  • amazon-science/mm-cot 语言模型中的多模式思维链推理。包括两个训练阶段:(i) 基本原理生成和 (ii) 答案推理。这两个阶段共享相同的模型架构,但输入和输出不同。

  • haotian-liu/LLaVA 面向多模态 GPT-4 级别功能构建的大型语言和视觉助手。

  • BradyFU/Awesome-Multimodal-Large-Language-Models 多模态大型语言模型的最新论文和数据集

  • THUDM/VisualGLM-6B 多模态中英双语对话语言模型

  • LC1332/Luotuo-Silk-Road 中文大语言模型的数据。对话与指令数据集:Luotuo-Chinese-Alpaca 骆驼-中国-羊驼、Chinese-Dolly 中国多莉、Chinese-WizardLM 中国巫师LM、阅读理解数据 Chinese-CoQA 、Luotuo-QA-B、图文跨模态数据 Chinese-MMC4-130k 中文-MMC4-130k、Chinese-Coco-Captioning 中文-可可-字幕、Embedding蒸馏数据 CNewSum-Embedding

  • logspace-ai/langflow LangChain(大语言模型链式开发工具,强大的框架,可以简化构建高级语言模型应用程序的过程。) 的 UI,采用反应流设计,提供一种轻松的方式来实验和原型流。

  • YeungNLP/firefly-train-1.1M 收集了23个常见的中文数据集,对于每个任务,由人工书写若干种指令模板,保证数据的高质量与丰富度,数据量为115万 。

  • togethercomputer/RedPajama-Data 包含用于准备大型数据集以训练大型语言模型的代码。重现LLaMA训练数据集的开源配方。Commoncrawl、C4、GitHub、Books、ArXiv、Wikipedia、StackExchange。合计1.2万亿令牌

  • Voine/ChatWaifu_Mobile 移动版二次元 AI 老婆聊天器 语言大模型来自 GhatGPT\语音推理为客户端本地 VITS - ncnn\图形渲染基于 Native Live2D\语音输入识别为客户端本地 Sherpa - ncnn

  • yizhongw/self-instruct 将预训练的语言模型与自身生成的指令数据对齐。自我指导是一个框架,可帮助语言模型提高其遵循自然语言指令的能力。它通过使用模型自己的代数来创建大量教学数据来实现此目的。通过自导,可以提高语言模型的指令遵循功能,而无需依赖大量的手动注释。自指令过程是一种迭代引导算法,它从一组手动编写的指令种子开始,并使用它们来提示语言模型生成新指令和相应的输入输出实例。然后对这些世代进行过滤以删除低质量或类似的代数,并将生成的数据添加回任务池。此过程可以重复多次,从而产生大量教学数据,可用于微调语言模型以更有效地遵循说明。

  • Timothyxxx/Chain-of-ThoughtsPapers 大型语言模型中的思维链促使引出推理。思想链论文集合

  • zilliztech/GPTCache LLM 的语义缓存。 与 LangChain 和 llama_index 完全集成。

  • pashpashpash/vault-ai 使用 OP Stack(OpenAI + Pinecone Vector Database)为 ChatGPT 提供长期记忆。使用简单的 React 前端上传您自己的自定义知识库文件(PDF、txt、epub 等)。

文本生成、文本对话

  • Awesome-TOD-NLG-Survey 面向任务的对话系统 (TOD) 中自然语言生成的调查:最新进展和新前沿

  • openai/gpt-2 论文“语言模型是无监督的多任务学习者”中的代码和模型。

  • karpathy/minGPT OpenAI GPT(生成预训练转换器)训练的最小 PyTorch 重新实现

  • XiangLi1999/PrefixTuning 前缀微调:优化文本生成的连续提示模板。提出一种更好的微调方法,通过加入前缀实现统一模型在不同任务上的微调,实现小样本学习,极大地减少了参数量。目前对于前缀的构造,大致可以分为本文的连续前缀和离散前缀(自动生成或手动设计),对于在摘要任务上加入离散前缀,有点类似于从对话中提取特征或结构,但这种方法的优势就在于它不需要大量的样本,而传统的融入结构的方法仍然需要很多样本。

  • RUCAIBox/TextBox 基于Python和PyTorch开发的,用于在一个统一的、全面的、高效的框架中复现和开发文本生成算法,主要面向研究者使用。我们的库包括16种文本生成算法,涵盖了两个主要任务:无条件(无输入)生成、序列到序列(Seq2Seq)生成,包括机器翻译和摘要生成。模型 无条件:LSTMVAE (Bowman et al., 2016)、CNNVAE (Yang et al., 2017)、HybridVAE (Semeniuta et al., 2017)、SeqGAN (Yu et al., 2017)、TextGAN (Zhang et al., 2017)、RankGAN (Lin et al., 2017)、MaliGAN (Che et al., 2017)、LeakGAN (Guo et al., 2018)、MaskGAN (Fedus et al., 2018)。序列到序列 RNN (Sutskever et al., 2014)、Transformer (Vaswani et al., 2017b)、GPT-2 (Radford et al.)、XLNet (Yang et al., 2019)、BERT2BERT (Rothe et al., 2020)、BART(Lewis et al。,2020)

  • BART Bidirectional and Auto-Regressive Transformers 是以去噪为预训练目标训练的序列间模型, 一种符合生成任务的预训练方法。我们证明了这种预训练目标更为通用,并且证明了我们可以在SQuAD和GLUE上匹配RoBERTa的结果,并在摘要(XSum,CNN数据集)、长形式生成性问答(ELI5)和对话-反应生成(ConvAI2)上获得最新的结果。在生成任务上显著高于BERT, UniLM, XLNet, RoBERTa等模型

  • fastnlp/CPT 中文预训练非平衡转换器 (CPT) ,它是一种非平衡 Transformer 编码器-解码器,联合 MLM 和 DAE 进行预训练。用于汉语理解和生成的预训练.

  • songhaoyu/BoB BERTOverBERT用于从有限的个性化数据训练基于角色的对话模型。分解为了两个子任务,从有限的角色化对话数据中进行学习。

  • YunwenTechnology/QueryGeneration 智能扩充机器人的“标准问”库之Query生成

  • beyondguo/genius 强大的有条件文本生成模型,以草稿为输入,在给定的草稿(文本范围、短语或单词的关键信息)中填充缺失的上下文,在大规模文本语料库上进行预训练,用一种极端和选择性的掩蔽策略从草稿目标进行新的重建,使它能够生成给定素描的多样化和高质量的文本。

  • imcaspar/gpt2-ml GPT2 多语言支持, 15亿参数中文预训练模型

  • EleutherAI/gpt-neo 模型并行GPT2和类似GPT3的模型的实现,能够使用mesh-tensorflow库扩展到完整的GPT3尺寸(甚至可能更多!)。

  • rikdz/GraphWriter 基于图Transformer从知识图谱中生成文本

  • liucongg/GPT2-NewsTitle GPT2.带有超级详细注释的中文GPT2新闻标题生成项目。

  • ZhuiyiTechnology/t5-pegasus 中文生成式预训练模型,以mT5为基础架构和初始权重,通过类似PEGASUS的方式进行预训练。

  • google-research/text-to-text-transfer-transformer T5的理念就是“万事皆可 Seq2Seq”,它使用了标准的 Encoder-Decoder 模型,并且构建了无监督/有监督的文本生成预训练任务,最终将效果推向了一个新高度。

  • google-research/multilingual-t5 T5 的多国语言版

  • Morizeyao/GPT2-Chinese GPT2中文文生模型,包括散文、诗词、对联、通用中文、中文歌词、文言文

  • bojone/t5_in_bert4keras 在keras中使用T5模型 ,用mT5 small版本finetune出来的 CSL 标题生成模型,BLEU 指标能持平基于 WoBERT 的 UniLM 模型,并且解码速度快 130%;而用 mT5 base 版本 finetune 出来的 CSL 标题生成模型,指标能超过基于 WoBERT 的 UniLM 模型 1% 以上,并且解码速度也能快 60%。

  • PENS-Personalized-News-Headline-Generation 新闻头条生成数据集和通用框架

  • Aristotle609/Medium-Title-Generator 生成数据科学文章标题的模型

  • yangjianxin1/GPT2-chitchat 用于中文闲聊的GPT2文本对话模型

  • RUCAIBox/MVP 自然语言生成的多任务监督预训练。遵循标准的转换器编码器-解码器架构。使用标记数据集进行监督预训练。还具有特定于任务的软提示,以刺激模型执行特定任务的能力。专为自然语言生成而设计,可以适应各种生成任务。我们的模型也可以适应自然语言理解任务。收集了7种代表性生成任务的45个有标签数据集,共计3200千万条样本(23GB),来作为预训练语料。第一阶段,使用这些语料训练一个标准的Transformer,即MVP;第二阶段,冻结住MVP,利用每个任务的数据训练任务特定的连续型提示(即7组提示)。

  • RUCAIBox/Context-Tuning 上下文调优:学习上下文提示用于自然语言生成

  • samueldobbie/markup 基于Web的文档注释工具,由GPT-3  提供支持

文本匹配 文本相似度

  • princeton-nlp/SimCSE SimCSE:句子嵌入的简单对比学习 。提供无监督或有监督的对比学习。是目前文本相似度更好的方法。

  • UKPLab/sentence-transformers 句子转换器:使用BERT RoBERTa XLM-RoBERTa&Co.和PyTorch的多语言句子嵌入

  • bojone/CoSENT 比Sentence-BERT更有效的句向量方案.优化cos值的新方案CoSENT(Cosine Sentence)。实验显示,CoSENT在收敛速度和最终效果上普遍都比InferSent和Sentence-BERT要好。

  • shawroad/CoSENT 比Sentence-BERT更有效的句向量方案 Pytorch版

  • shuxinyin/SimCSE-Pytorch 中文SimCSE+ESimCSE的无监督 + 有监督实现

  • thunlp/OpenMatch 总体架构包括两大部分:一是相关文档检索,即根据用户检索词,从大规模文档集合中返回最相关的Top-K(K通常为100或1000)文档。二是文档重排序,即将各神经网络模型和非神经网络模型的排序特征整合,对Top-K文档重排序,进一步提升排序效果。OpenMatch提供了融合外部知识图谱信息的知识增强模型,和筛选大规模数据的数据增强模型。

  • NTMC-Community/MatchZoo-py 通用的文本匹配工具包,旨在方便大家快速的实现、比较、以及分享最新的深度文本匹配模型。MatchZoo 的 PyTorch 版本。

  • voidism/DiffCSE 用于学习句子嵌入的无监督对比学习框架。DiffCSE学习对原始句子和编辑句子之间的差异敏感的句子嵌入,其中编辑的句子是通过随机屏蔽原始句子,然后从屏蔽语言模型中采样来获得的。我们表明 DiffSCE 是等变对比学习的一个实例(Dangovski 等人,2021 年),它概括了对比学习并学习对某些类型的增强不敏感而对其他“有害”类型的增强敏感的表征。我们的实验表明,DiffCSE在无监督句子表示学习方法中取得了最先进的结果,在语义文本相似性任务上比SimCSE高出2.3个绝对点。

  • shibing624/text2vec 文本向量表征工具,把文本转化为向量矩阵,实现了Word2Vec、RankBM25、Sentence-BERT、CoSENT等文本表征、文本相似度计算模型,开箱即用。

  • terrifyzhao/text_matching 常用文本匹配模型tf版本,数据集为QA_corpus模型:DSSM ConvNet ESIM ABCNN BiMPM DIIN DRCN

  • Brokenwind/BertSimilarity 基于Google的BERT模型来进行语义相似度计算。

  • bohanli/BERT-flow 基于流式生成模型,将BERT的表示可逆地映射到一个均匀的空间,文本表示、语义文本相似性任务的SOTA。

  • DataTerminatorX/Keyword-BERT 带关键词的BERT语义匹配

  • bojone/BERT-whitening 简单的向量白化改善句向量质量,可以媲美甚至超过BERT-flow的效果。

  • autoliuweijie/BERT-whitening-pytorch Pytorch version of BERT-whitening

  • nilboy/gaic_track3_pair_sim 短文本语义匹配,2021年全球人工智能技术创新大赛-赛道三-冠军方案

  • yym6472/ConSERT 基于对比学习的句子语义表示迁移框架。包含三部分,数据增强,BERT 编码层,对比损失层。

  • amazon-research/sccl 利用对比学习促进更好地基于距离的短文本聚类实现。

  • ZhuiyiTechnology/roformer-sim 融合检索和生成的RoFormer-Sim模型.应用于相似句生成、相似句扩增、语义相似度问题。

  • allenai/macaw Macaw(Multi-angle c(q)uestion answering 多角度 c(q) 问题回答)是一种即用型模型,能够进行一般问题回答,在训练的领域之外表现出稳健性。 它以“多角度”方式进行了训练,这意味着它可以处理一组灵活的输入和输出“槽”(如问题、答案、解释)。Macaw 建立在 T5 之上,有不同的尺寸:macaw-11b、macaw-3b 和 macaw-large,以及各种排行榜上的以答案为重点的版本:macaw-answer-11b。

  • Decem-Y/sohu_text_matching_Rank2 2021搜狐校园文本匹配算法大赛Top2。使用了预训练模型(如NEZHA、MacBert、ROBERTA、ERNIE等),设计了选择了两种技术路线(通过[SEP]拼接source与target作为输入、类似SBERT的句子向量编码比较),并尝试多种上分策略(在给定语料上继续mlm预训练、focal loss损失函数、不同的pooling策略、加入TextCNN、fgm对抗训练、数据增强等)。选取多组差异较大的模型的输出,通过投票的方式进行集成,得到最好成绩。

  • shuxinyin/SimCSE-Pytorch 中文数据集下SimCSE+ESimCSE的实现

  • wakafengfan/simcse-pytorch pytorch版simcse无监督语义相似模型

  • bojone/SimCSE SimCSE在中文任务上的简单实验

  • yangjianxin1/SimCSE SimCSE有监督与无监督实验复现 一种简单但是很巧妙的NLP对比学习方法,创新性地引入Dropout的方式,对样本添加噪声,从而达到对正样本增强的目的。 该框架的训练目的为:对于batch中的每个样本,拉近其与正样本之间的距离,拉远其与负样本之间的距离,使得模型能够在大规模无监督语料(也可以使用有监督的语料)中学习到文本相似关系。

  • vdogmcgee/SimCSE-Chinese-Pytorch SimCSE在中文上的复现,有监督+无监督

  • GeekDream-x/SemEval2022-Task8-TonyX 在 Semeval-2022 Task8 —— Multilingual News Article Similarity 中提供了我们获胜系统的实现。这是一项关于评估多语言和跨语言新闻文章相似性的竞赛,涵盖 18 个语言对。

  • JohnGiorgi/DeCLUTR 无监督文本表示的深度对比学习

  • huggingface/setfit 使用 Sentence Transformers 进行高效的少样本学习. 高效且无提示的框架,用于对句子转换器进行少量微调。 它用很少的标记数据实现了高精度,特点:没有提示或语言表达器:当前的少量微调技术需要手工提示或语言表达器将示例转换为适合底层语言模型的格式。 SetFit 通过直接从文本示例生成丰富的嵌入来完全免除提示。训练速度快、多语言。

  • epidemic-sentence-pair 新冠疫情相似句对判定大赛 线上第一名方案。BERT模型融合、数据对称扩充、数据传递扩充、对抗训练、伪标签。

  • KKenny0/sohu2021 2021搜狐校园文本匹配算法大赛方案,基于BERT的交互模型,通过BERT来得到source-target pair的向量表示。任务:短短、短长和长长文本匹配。

机器阅读理解

  • imClumsyPanda/langchain-ChatGLM 利用 ChatGLM-6B + langchain 实现的基于本地知识的 ChatGLM 应用。建立了全部基于开源模型实现的本地知识问答应用。

  • l15y/wenda 闻达:一个LLM调用平台。目前支持chatGLM-6B、chatRWKV、chatYuan和chatGLM-6B模型下自建知识库查找。

  • GanymedeNil/document.ai 基于向量数据库与GPT3.5的通用本地知识库方案

  • basketballandlearn/MRC_Competition_Dureader 基于大规模MRC数据再训练的机器阅读理解预训练模型(包括roberta-wwm-large、macbert-large),可以使用transformers库

  • wptoux/albert-chinese-large-webqa 基于百度webqa与dureader数据集训练的Albert Large QA模型

  • bojone/dgcnn_for_reading_comprehension 基于膨胀门卷积的阅读理解式问答模型(Keras实现)

  • cooelf/AwesomeMRC 对MRC的研究摘要和参考资料

  • nlpdata/c3 中文机器阅读理解数据集 multiple-Choice Chinese machine reading Comprehension dataset.

  • qiufengyuyi/event_extraction 百度aistudio事件抽取比赛 使用机器阅读理解来尝试解决。

  • liuhuanyong/MiningZhiDaoQACorpus 百度知道问答语料库,包括超过580万的问题,938万的答案,5800个分类标签。基于该问答语料库,可支持多种应用,如闲聊问答,逻辑挖掘。

  • xv44586/ccf_2020_qa_match CCF2020问答匹配比赛 任务是:给定IM交流片段,片段包含一个客户问题以及随后的经纪人若干IM消息,从随后的经纪人消息中找出一个是对客户问题的回答。

  • lgw863/LogiQA-dataset 数据集包含8,678个QA实例

  • HIT-SCIR/Molweni 提出了构建于多人对话的英文机器阅读理解(MRC)数据集—Molweni,并覆盖了对话语篇结构。Molweni源自于Ubuntu聊天语料库,包括10,000个对话,共计88,303条话语(utterance)。我们共标注了30,066个问题,包括可回答和不可回答的问题。Molweni独特地为其多人对话提供了语篇结构信息,共标注了78,245个语篇关系实例,为多人对话语篇结构分析(Discourse parsing)贡献了大规模数据。

  • danqi/acl2020-openqa-tutorial 本教程对开放域问答 (QA) 的前沿研究进行了概述,QA 是使用大量不同主题的文档来回答问题的任务。首先简要介绍历史背景,讨论研究问题的基本设置和核心技术挑战,然后描述具有通用评估指标和基准的现代数据集。然后,是在开放域QA中提出的前沿模型,包括两阶段检索器-阅读器方法、密集检索器和端到端训练以及无检索器方法。最后,介绍使用文本和大型知识库的混合方法,并以重要的开放性问题结束本教程。

  • zhoujx4/DuReader-Checklist-BASELINE 百度2021年语言与智能技术竞赛机器阅读理解torch版baseline

  • google-research/tapas 端到端的神经表格文本理解模型。表格 QA 模型。

  • PaddlePaddle/RocketQA 信息检索和问答的密集检索,包括中英文最先进的模型。

知识图谱问答KBQA、多跳推理

  • RUCAIBox/KBQAPapers 知识图谱问答KBQA论文集

  • shijx12/TransferNet An Effective and Transparent Framework for Multi-hop Question Answering over Relation Graph 多跳问题解答关系图的有效透明框架,通过每一跳都预测当前关系得分,并更新实体得分,直到最大跳数。预测该问题的跳数,按跳数的概率加权每一跳得分作为实体的最终得分。

  • malllabiisc/EmbedKGQA 基于知识图谱嵌入的链路预测处理多跳问答。首先训练实体嵌入,随后利用实体嵌入学习问题嵌入,预测时对所有实体,构建(head entity, question)并评分,并选择评分最高的头实体作为答案。能很好地处理知识图谱中的不完整和稀疏的问题。

  • BDBC-KG-NLP/QA-Survey 北航大数据高精尖中心研究张日崇团队对问答系统的总结。包括基于知识图谱的问答(KBQA),基于文本的问答系统(TextQA),基于表格的问答系统(TabletQA)和基于视觉的问答系统(VisualQA),每类系统分别对学术界和工业界进行总结。

  • xianghuisun/Chinese_KGQA 实现基于知识图谱的中文问答系统

  • https://github.com/cdjhz/multigen Language Generation with Multi-hop Reasoning on Commonsense Knowledge Graph 基于常识知识图的多跳推理语言生成 本研究关注一类条件文本生成任务,即给定输入源文本X,目标是生成一段目标文本 Y。研究员们额外增加了一个知识图谱 G=(V,E) 的输入为模型在生成时提供常识知识的信息。

  • https://github.com/INK-USC/MHGRN 基于知识库的多跳关系推理 本篇文章提出了multi-hop relational reasoning module(多跳关系推理模型)叫做MHGRN多跳推理网络。该模型在额外的多跳知识图谱中抽取的子网络中进行推理。本文提出的方法将已有的基于路径的常识推理以及GCN融合在了一起,并在CommonsenseQA和OpenbookQA上取得了良好的效果。

  • https://github.com/lanyunshi/Multi-hopComplexKBQA 查询图生成,用于回答知识库中的多跳复杂问题.提出了一种改进的分阶段查询图生成方法,该方法具有更灵活的生成查询图的方式。在查询图生成的每一步,包含三种预定义的操作:扩展、连接、聚合。

  • https://github.com/nju-websoft/SPARQA 基于知识库的问题解答,提出了一种新颖的骨架语法来表示一个复杂问题的高级结构。骨架语法本质上是依赖语法的一个选定子集,用于专门表示复杂问题的高级结构。这种专用的粗粒度表示形式由于其简单性而可能具有准确的解析算法,有助于提高下游细粒度语义解析的准确性。

  • https://github.com/mori97/JKNet-dgl 跳跃知识网络的dgl实现

  • https://github.com/THUDM/CogQA 基于认知图谱实现多跳阅读.从人类的认知过程中受到启发。双过程理论认为,我们的大脑思考过程由两套系统构成: System1 和 System 2。System 1: 我们的大脑首先通过System 1隐式的、无意识的和凭借直觉的过程来检索相关信息。System 2: 在System 1过程的基础上,再进行一个显式的、有意识的、可控的推理过程,即System 2。作者使用BERT模型构建System 1,使用GNN模型构建System 2。

  • https://github.com/michiyasunaga/qagnn GNN 在融合 QA 上下文与 KG 的一个尝试,在问答任务上相比现有的预训练语言模型、以及预训练 +KG 模型,都有不小的提升。同时,使用 attention-base GNN,能够可视化知识图谱中节点之间的注意力关系,有助于提高 QA 可解释性和结构化推理的能力。

  • https://github.com/WenRichard/KBQA-BERT 基于知识图谱的问答系统,BERT做命名实体识别和句子相似度,分为online和outline模式

  • https://github.com/RichardHGL/WSDM2021_NSM KBQA 的神经状态机器 ComplexWebQuestions

  • UKPLab/coling2018-graph-neural-networks-question-answering 用门图形神经网络建模语义,用于知识库问题解答

  • https://github.com/THU-KEG/KoPL KoPL全称 Knowledge oriented Programing Language, 是一个为复杂推理问答而设计的编程语言。可以将自然语言问题表示为由基本函数组合而成的KoPL程序,程序运行的结果就是问题的答案。目前,KoPL的27个基本函数覆盖对多种知识元素(如概念、实体、关系、属性、修饰符等)的操作,并支持多种问题类型(如计数、事实验证、比较等)的查询。KoPL提供透明的复杂问题推理过程,易于理解和使用。KoPL面向知识库、文本等不同形式的知识资源,可扩展性强。

  • PaddlePaddle/PGL/erniesage 使用PGL实现ERNIESage。在很多工业应用中,往往出现如下图所示的一种特殊的图:Text Graph。顾名思义,图的节点属性由文本构成,而边的构建提供了结构信息。如搜索场景下的Text Graph,节点可由搜索词、网页标题、网页正文来表达,用户反馈和超链信息则可构成边关系。ERNIESage 由PGL团队提出,是ERNIE SAmple aggreGatE的简称,该模型可以同时建模文本语义与图结构信息,有效提升 Text Graph 的应用效果。其中 ERNIE 是百度推出的基于知识增强的持续学习语义理解框架。ERNIESage 是 ERNIE 与 GraphSAGE 碰撞的结果,是 ERNIE SAmple aggreGatE 的简称,它的结构如下图所示,主要思想是通过 ERNIE 作为聚合函数(Aggregators),建模自身和邻居节点的语义与结构关系。ERNIESage 对于文本的建模是构建在邻居聚合的阶段,中心节点文本会与所有邻居节点文本进行拼接;然后通过预训练的 ERNIE 模型进行消息汇聚,捕捉中心节点以及邻居节点之间的相互关系;最后使用 ERNIESage 搭配独特的邻居互相看不见的 Attention Mask 和独立的 Position Embedding 体系,就可以轻松构建TextGraph中句子之间以及词之间的关系。使用ID特征的GraphSAGE只能够建模图的结构信息,而单独的ERNIE只能处理文本信息。通过PGL搭建的图与文本的桥梁,ERNIESage能很简单的把GraphSAGE以及ERNIE的优点结合一起。TextGraph场景,效果能够比单独的ERNIE以及GraphSAGE都要好。

  • BshoterJ/awesome-kgqa 知识图谱问答部分资料合集

  • RUCKBReasoning/SubgraphRetrievalKBQA 多跳知识库问答子图检索增强模型的pytorch实现 WebQuestionSP CWQ

  • google-research/smore 多功能的框架,它可以在KG上扩展多跳查询嵌入。SMORE可以轻松地在Freebase KG上训练查询嵌入,在一台机器上拥有超过8600万个节点和33800万条边。

知识图谱

  • CLUEbenchmark/KgCLUE KgCLUE: 大规模中文开源知识图谱问答数据集。实体数量 3121457,关系数量 245838,高频关系(>100) 3833,三元组数量 20559652,知识库来源于百科类数据,由百科类搜索的事实性三元组构成。

  • autoliuweijie/K-BERT Enabling Language Representation with Knowledge Graph ,已被AAAI2020所录取,是较早的考虑将知识图谱中的边关系引入预训练模型的论文。主要通过修改Transformer中的attention机制,通过特殊的mask方法将知识图谱中的相关边考虑到编码过程中,进而增强预训练模型的效果。

  • npubird/KnowledgeGraphCourse 东南大学《知识图谱》研究生课程

  • AutoML-Research/AutoSF 用于知识图谱学习的双线性评分函数(SFs)搜索。知识图(KG)是一种以实体为节点、以关系为边的特殊图结构,对数据挖掘和机器学习都很重要,并启发了各种下游应用,如结构化搜索、问答、推荐。在KGs中,每条边都被表示为一个具有形式(头实体、关系、尾实体)的三元组,表示为(h, r, t),一个基本问题是如何量化三元组(h, r, t)s的合理性。KG嵌入(KGE)是近年来出现并发展起来的一种很有前途的方法。基本上,给定一组观察到的三元组,KGE试图学习实体和关系的低维向量表示,以便三元组的可信性能够被量化。得分函数(SF)根据嵌入值返回(h, r, t)的分数,用于度量可信性。SF一般是人为设计和选择的,对嵌入的质量有显著影响。

  • THU-KEG/KEPLER 主要通过添加类似于TransE的预训练机制来增强对应文本的表示,进而增强预训练模型在一些知识图谱有关任务的效果。

  • txsun1997/CoLAKE 使用知识图谱以增强预训练模型的效果 首先将上下文看作全连接图,并根据句子中的实体在KG上抽取子图,通过两个图中共现的实体将全连接图和KG子图融合起来;最终本文将文本上下文和知识上下文一起用MLM进行预训练,将mask的范围推广到word、entity和relation;为训练该模型,本文采用cpu-gpu混合训练策略结合负采样机制减少训练时间;最终本文提出的方法在知识图谱补全和若干NLP任务上均带来了增益。然后本文将该图转化为序列,使用Transformer进行预训练,并在训练时采用特殊的type embedding来表示实体、词语与其他子图信息

  • JanKalo/KnowlyBERT 提出了一种混合的语言知识模型查询系统,该系统使用语言模型来应对现实世界中知识图谱的不完整性问题。作为KnowlyBERT的输入,用户可以向系统提出以实体为中心的SPARQL查询。首先,查询语言模型(a);然后,对不完整的知识图谱进行查询,并获得结果(b);另外SPARQL查询被翻译成多种自然语言语句,这些语言语句在“关系模板生成”步骤中由语言模型完成;语言模型返回多个单词列表以及每个单词(c)的置信度值;然后将这些列表合并为一个列表(d),并根据知识图谱类型信息(e)使用我们的语义过滤步骤进行过滤。此外,执行阈值处理,削减不相关的结果(f);将语言模型和知识图谱的结果合并(g)并返回给用户。

  • yeliu918/KG-BART 知识图谱增强的预训练模型的生成式常识推理.可利用图上的注意力来聚集丰富的概念语义,从而增强对看不见的概念集的模型泛化。

  • bernhard2202/intkb 一种交互式知识图谱补全框架

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • wangbo9719/StAR_KGC Structure-Augmented Text Representation Learning for Efficient Knowledge Graph Completion 结构增强文本表示学习,实现高效知识图完成.知识图谱补全

  • Everglow123/MAKG 移动app知识图谱

  • openconcept 基于自动化知识抽取算法的大规模中文概念图谱。440万概念核心实体,以及5万概念和1200万实体-概念三元组。数据包括了常见的人物、地点等通用实体。

  • OpenKG-ORG/OpenEA 基于知识图谱嵌入的开源实体融合工具。本体匹配、实体对齐、真值验证、冲突消解。

  • seukgcode/MELBench. 多模态实体链接 (MEL) 旨在利用多模态信息将提及项映射到知识库中定义的相应实体。 我们发布了三个 MEL 数据集:Weibo-MEL、Wikidata-MEL 和 Richpedia-MEL,分别包含来自社交媒体、百科全书和多模态知识图谱的 25,602、18,880 和 17,806 个样本。

  • OpenKG-ORG/OpenRichpedia 东南大学多模态知识图谱-OpenRichpedia工程文件

  • csdqa 计算机科学领域示意图问答数据集

  • HKUST-KnowComp/FKGE 差异私有联合知识图嵌入

  • totogo/awesome-knowledge-graph 知识图相关学习材料、数据库、工具和其他资源的精选列表

  • BrambleXu/knowledge-graph-learning 精选的知识图谱教程、项目社区列表。

  • liuhuanyong/PersonGraphDataSet 人物图谱数据集,近十万的人物关系图谱事实数据库,通过人物关系抽取算法抽取+人工整理得出,可用于人物关系搜索、查询、人物关系多跳问答,以及人物关系推理等场景提供基础数据。

  • husthuke/awesome-knowledge-graph 整理知识图谱相关学习资料

  • ownthink/KnowledgeGraph 史上最大规模1.4亿知识图谱数据免费下载,知识图谱,通用知识图谱,融合了两千五百多万实体,拥有亿级别的实体属性关系。

  • liuhuanyong/AbstractKnowledgeGraph 抽象知识图谱,目前规模50万,支持名词性实体、状态性描述、事件性动作进行抽象。目标于抽象知识,包括抽象实体,抽象动作,抽象事件。基于该知识图谱,可以进行不同层级的实体抽象和动作抽象,这与人类真实高度概括的认知是一致的。

  • songjiang0909/awesome-knowledge-graph-construction 很棒的知识图构建

  • ZihengZZH/awesome-multimodal-knowledge-graph 多模态知识图谱的精彩阅读列表或其他资源(数据集、教程等)。

  • thunlp/KB2E 知识图谱嵌入,包括 TransE、TransH、TransR 和 PTransE

  • powerycy/DeepKg: Knowledge Graph 知识图谱的构建 实体识别\语义标准化\向量召回

  • zjunlp/deepke 基于深度学习的开源中文知识图谱抽取框架,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,可以基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • 面向事件时序因果关系识别的17类开源标注数据集总结

  • iuhuanyong/TextGrapher 输入一篇文档,将文档进行关键信息提取,进行结构化,并最终组织成图谱组织形式,形成对文章语义信息的图谱化展示。 采用了高频词,关键词,命名实体识别,主谓宾短语识别等抽取方式,并尝试将三类信息进行图谱组织表示,这种表示方式是一种尝试。

  • liuhuanyong/ChainKnowledgeGraph 产业链知识图谱包括A股上市公司、行业和产品共3类实体,包括上市公司所属行业关系、行业上级关系、产品上游原材料关系、产品下游产品关系、公司主营产品、产品小类共6大类。 上市公司4,654家,行业511个,产品95,559条、上游材料56,824条,上级行业480条,下游产品390条,产品小类52,937条,所属行业3,946条。

  • zjukg/NeuralKG 支持多种知识图谱表示学习/知识图谱嵌入(Knowledge Graph Embedding)模型的Python工具包,其中实现了多种传统知识图谱嵌入、基于图神经网络的知识图谱嵌入以及基于规则的知识图谱嵌入方法。

  • zjunlp/DeepKE 开源知识图谱抽取与构建工具,支持cnSchema、低资源、长篇章、多模态的知识抽取工具,基于PyTorch实现命名实体识别、关系抽取和属性抽取功能。

  • migalkin/NodePiece 大型知识图谱的复合和参数高效表示 (ICLR'22)。NodePiece是一个“分词器”,用于减少知识图中的实体词汇量。不是将每个节点浅层嵌入到向量中,而是首先在其关系上下文中通过 K 个锚节点和 M 关系类型“标记”每个节点。然后,通过任何注入函数(例如MLP或Transformer)对生成的哈希序列进行编码。NodePiece可以使用相同的锚点和关系词汇表标记附加到所见图的看不见的节点,这允许NodePiece在归纳设置中使用经典KG完成中的所有众所周知的评分函数(如TransE或RotatE)开箱即用。NodePiece在OGB WikiKG 2排行榜上名列前茅,以大幅降低的参数预算(7M与500-1500M)为模型提供动力。当前配置只需要 20K 个锚节点,而不是学习 2.5M 实体嵌入。关系预测\节点分类\样本外链路预测

  • liuhuanyong/ChineseSemanticKB 面向中文处理的12类、百万规模的语义常用词典,包括34万抽象语义库、34万反义语义库、43万同义语义库等,可支持句子扩展、转写、事件抽象与泛化等多种应用场景。

  • lemonhu/stock-knowledge-graph 利用网络公开数据构建一个小型证券知识图谱

  • OpenBGBenchmark/OpenBG 大规模开放业务知识图谱.开放的商业知识图,它使用统一的Schema覆盖大规模的多模态数据集,包含了浙江大学ZJUKG实验室和阿里巴巴知识引擎团队提供的数百万个产品和消费者需求。

  • DeqingYang/CKBC 使用关系图注意力网络和预训练语言模型完成常识知识库。常识在各种语料库中很少被明确表达,但对于机器理解自然语言非常有用。与传统的知识库(KG)不同,常识库(CKG)中的节点通常由自由格式的文本表示,并且比传统的 KG 规模更大,更稀疏。因此,这对传统的知识库补全(KBC)方法造成了挑战。

  • JavaStudenttwo/ccks_kg ccks2020基于本体的金融知识图谱自动化构建技术评测第五名方法总结

NLP语料和数据集

  • thu-coai/CrossWOZ 中文跨域任务导向对话数据集.它包含5个领域的6K对话会话和102K语音,包括酒店,餐厅,景点,地铁和出租车。

  • goto456/stopwords 中文常用停用词表

  • chatopera/Synonyms 用于自然语言处理和理解的中文同义词。

  • RUCAIBox/TG-ReDial 电影领域的对话推荐数据集TG-ReDial (Recommendation through Topic-Guided Dialog)。包含1万个完整对话和近13万条语句,加入了话题线索以实现将用户引导至推荐场景这一语义的自然转移,并采用半自动的方式构建,保留了用户真实的个性化信息(如交互历史,偏好主题),使得人工标注过程更加合理可控。

  • fighting41love/funNLP NLP民工的乐园: 中英文敏感词、语言检测、中外手机/电话归属/运营商查询、名字推断性别、手机号抽取、身份证抽取、邮箱抽取、中日文人名库、中文缩写库、拆字词典、词汇情感值、停用词、反动词表、暴恐词表、繁简转换、英文模拟中文发音、汪峰歌词生成器、职业名称词库、同义词库、反义词库、否定词库、汽车品牌词库、汽车零件、连续英文切割、各种中文词向量、公司大全、古诗、IT、财经、成语、地名、历史名人、诗词、医学、饮食、法律、汽车、动物词库、中文聊天语料、中文谣言数据、百度中文问答数据集、句子相似度、bert资源、文本生成&摘要相关工具、cocoNLP信息抽取、国内电话号码正则匹配、清华中英文跨语言百科知识图谱

  • brightmart/nlp_chinese_corpus 大规模中文自然语言处理语料 维基百科json版(wiki2019zh) 新闻语料json版(news2016zh) 百科类问答json版(baike2018qa) 社区问答json版(webtext2019zh) :大规模高质量数据集 翻译语料(translation2019zh)

  • msra-nlc/ChineseKBQA NLPCC-ICCPOL 2016 Shared Task: Open Domain Chinese Question Answering 开放域中文问答数据集

  • jkszw2014/bert-kbqa-NLPCC2017 A trial of kbqa based on bert for NLPCC2016/2017 Task 5 (基于BERT的中文知识库问答实践)

  • wavewangyue/NLPCC-MH 中文多跳问答数据集 基于 NLPCC 所包含的单跳问题,通过扩充问句内容的方式,构建了专注多跳问题的中文 KBQA 数据集

  • BERT-CCPoem 是完全基于一个囊括了几乎所有中国古典诗词的语料库CCPC-Full v1.0训练而成的,该语料库共计926,024首诗词及8,933,162个诗词句子。THUNLP-AIPoet/BERT-CCPoem 中国古典诗词预训练模型

  • liucongg/NLPDataSet 数据集包括:DRCD、cmrc2018、chinese-squad、中医数据集、法研杯2019、莱斯杯机器阅读理解、疫情QA、WebQA、Dureader等9个数据集。

  • thunlp/Few-NERD 一个大规模的人工标注的用于少样本命名实体识别任务的数据集。该数据集包含8种粗粒度和66种细粒度实体类型,每个实体标签均为粗粒度+细粒度的层级结构,共有18万维基百科句子,460万个词,每个词都被注释为上下文(context)或一个实体类型的一部分。

  • CLUEbenchmark/CLUECorpus2020 通过对Common Crawl的中文部分进行语料清洗,最终得到100GB的高质量中文预训练语料。实验产出的模型见:高质量中文预训练模型,大号、超小和相似度预训练模型。

  • festvox/datasets-CMU_DoG CMU 文档基础对话数据集 该数据集包含 4112 个对话,每个对话平均 21.43 轮。这使该数据集可以在生成响应的同时提供相关的聊天历史记录。

  • doc2dial/sharedtask-dialdoc2021 doc2dial是IBM发布的基于文档的对话数据集,包含两个任务:1)从文档中检索和问题相关的句子(information-seeking);2)基于上一步结果生成合理答复(response generation) 数据集共有4个不同领域的480篇文档,4800个多轮对话,每个对话平均有14次交互。

  • chin-gyou/MovieChats MovieChats:在封闭域中像人类一样聊天,电影内容的聊天对话数据集

  • projects/personachat Persona-Chat 数据集人物聊天对话数据

  • krystalan/SGSum 一个面向体育赛事摘要的人工标注数据集

  • IceFlameWorm/NLP_Datasets 中文NLP数据集,ATEC语义相似度学习赛数据集、CCKS 2018 微众银行智能客服问句匹配大赛数据集、ATEC + CCKS 2018 组合数据集(互金客服场景)、哈工大BQ_corpus数据集(语义相似度)、哈工大LCQMC数据集(语义相似度)。

  • nlpcc2018 选择task7 Open Domain Question Answering,即可下载数据集。数据集包含知识图谱和问答数据

  • pkumod/CKBQA ccks2018 ccks2019 包含简单问题和复杂问题的中文 KBQA 数据集。对于每个中文问题,我们都提供了黄金答案和黄金 SPARQL 查询,因此该数据集也可以应用于语义解析任务。

  • Marsan-Ma-zz/chat_corpus 来自各种开源的聊天语料库集合 open_subtitles 英文电影字幕解析, movie_subtitles_cn 康奈尔电影对话语料库, 歌词_zh 来自 PTT 论坛的歌词,witter_en 来自 twitter 的语料库(700k 行),twitter_en big更大尺寸的 twitter 语料库(5M 行)

  • rkadlec/ubuntu-ranking-dataset-creator 从 Ubuntu 语料库对话框中为排名任务创建训练、有效和测试数据集的脚本。

  • codemayq/chinese_chatbot_corpus 对目前市面上已有的开源中文聊天语料的搜集和系统化整理工作。包含chatterbot、豆瓣多轮、PTT八卦语料、青云语料、电视剧对白语料、贴吧论坛回帖语料、微博语料、小黄鸡语料,共8个公开闲聊常用语料和短信,白鹭时代问答等语料。

  • NiuTrans/Classical-Modern 非常全的文言文(古文)-现代文平行语料

  • CLUEbenchmark/SimCLUE 大规模语义理解与匹配数据集。可用于无监督对比学习、半监督学习等构建中文领域效果最好的预训练模型。可用于语义理解、语义相似度、召回与排序等检索场景等。整合了以上9个数据集:哈工大 LCQMC 数据集、AFQMC 蚂蚁金融语义相似度数据集、OPPO 小布对话文本语义匹配数据集、北大中文文本复述数据集 PKU-Paraphrase-Bank、Chinese-STS-B 数据集、Chinese-MNLI 自然语言推理数据集、Chinese-SNLI 自然语言推理数据集、 OCNLI 中文原版自然语言推理数据集、CINLID 成语语义推理数据集

  • GuocaiL/nlp_corpus open_ner_data网上开放的ner数据集、boson数据集、clue细粒度实体识别数据集、微软实体识别数据集、人民网实体识别数据集(98年)、中药说明书实体识别数据集(“万创杯”中医药天池大数据竞赛)、视频_音乐_图书数据集、微博数据集

  • zejunwang1/CSTS: 中文自然语言推理与语义相似度数据集

    • 哈工大 LCQMC 数据集
    • AFQMC 蚂蚁金融语义相似度数据集
    • OPPO 小布对话文本语义匹配数据集
    • 谷歌 PAWS-X 数据集
    • 北大中文文本复述数据集 PKU-Paraphrase-Bank
    • Chinese-STS-B 数据集
    • Chinese-MNLI 自然语言推理数据集
    • Chinese-SNLI 自然语言推理数据集
    • OCNLI 中文原版自然语言推理数据集
    • CINLID 中文成语语义推理数据集
  • sailxuOvO/CC-Riddle 汉字谜语问答数据集

  • CLUEbenchmark/DataCLUE 数据为中心的NLP基准和工具包。以数据为中心(Data-centric)的AI,是一种新型的AI探索方向。它的核心问题是如何通过系统化的改造你的数据(无论是输入或者标签)来提高最终效果。 传统的AI是以模型为中心(Model-centric)的,主要考虑的问题是如何通过改造或优化模型来提高最终效果,它通常建立在一个比较固定的数据集上。 最新的数据显示超过90%的论文都是以模型为中心的,通过模型创新或学习方法改进提高效果,即使不少改进影响可能效果并不是特别明显。有些人认为当前的人工智能领域, 无论是自然语言处理(如BERT) 或计算机视觉(ResNet), 已经存在很多成熟高效模型,并且模型可以很容易从开源网站如github获得;而与此同时,工业界实际落地 过程中可能有80%的时间用于 清洗数据、构建高质量数据集,或在迭代过程中获得更多数据,从而提升模型效果。正是看到了这种巨大的差别,在吴恩达等人的推动下这种 以数据为中心 (Data-centric)的AI进一步的系统化,并成为一个有具有巨大实用价值方法论。

  • ydli-ai/CSL 首个中文科学文献数据集(CSL),包含 396,209 篇中文核心期刊论文元信息 (标题、摘要、关键词、学科、门类)。CSL 数据集可以作为预训练语料,也可以构建许多NLP任务,例如文本摘要(标题预测)、 关键词生成和文本分类等。取自 国家科技资源共享服务工程技术研究中心, 包含 2010-2020 年发表的期刊论文元信息(标题、摘要和关键词)。根据中文核心期刊目录进行筛选, 并标注学科和门类标签,分为 13 个门类(一级标签)和 67 个学科(二级标签)。 数据总量为 396,209 条。

  • pluto-junzeng/CNSD 中文自然语言推理数据集(A large-scale Chinese Nature language inference and Semantic similarity calculation Dataset) 本数据及通过翻译加部分人工修正的方法,从英文原数据集生成,可以一定程度缓解中文自然语言推理和语义相似度计算数据集不够的问题。

  • victorsungo/MMDialog 面向多模态开放域会话的大规模多轮对话数据集。

  • lupantech/ScienceQA 通过思维链进行多模态推理的科学问题回答。提出了科学问答(ScienceQA),这是一个新的基准,包括21,208个多模态多项选择题,有一套不同的科学主题和注释,他们的答案与相应的讲座和解释。讲座和解释分别提供了一般的外部知识和具体的原因,以获得正确的答案。拥有更丰富的领域多样性:自然科学语言科学社会科学。ScienceQA包含26个主题、127个类别和379个技能,涵盖了广泛的领域。我们进一步设计语言模型,学习生成演讲和解释作为思维链(CoT),以模拟回答ScienceQA问题时的多跳推理过程。ScienceQA证明了CoT在语言模型中的实用性,CoT在少样例GPT-3中将问题回答性能提高了1.20%,在微调的UnifiedQA中将问题回答性能提高了3.99%。

  • benywon/ChiQA 用于多模态理解的大规模基于图像的真实世界问答数据集。ChiQA中的问题是向搜索引擎发出的开放域用户查询。ChiQA中的图像也是从搜索引擎中收集的真实世界图像,与问题相关但不一定能回答问题。我们的数据众包包括两个阶段的主动学习过程。在第一阶段,我们从网络上随机收集样本。在第二阶段中,我们首先基于来自第一阶段的数据训练模型,然后使用训练好的模型在剩余数据上选择硬示例并继续标记。这两个阶段的设置使得数据更具挑战性,并且从本质上消除了对数据中某些属性或语言模式的不合理偏爱。

  • qkaren/Counterfactual-StoryRW “虚构故事推理和生成”的数据集和代码

  • eecrazy/CausalBank 非常大规模、开放的领域、句子级、平行的因果语料库。按照句子中出现的因果顺序分为两部分:because_mode(结果,然后是原因)和therefore_mode(原因,然后是结果)。使用预处理的英语通用爬网语料库 (5.14 TB) 中的细粒度因果模板匹配获得的,完全自动,无需任何人工注释。里面或多或少有噪音。

  • InsaneLife/ChineseNLPCorpus 中文自然语言处理数据集,阅读理解、任务型对话数据、文本分类、实体识别&词性标注&分词、句法&语义解析、推荐系统、百科数据、指代消歧、预训练:(词向量or模型)、中文完形填空数据集、中华古诗词数据库、保险行业语料库、汉语拆字字典、中文数据集平台。

关系抽取、信息抽取

  • roomylee/awesome-relation-extraction 专门用于关系提取的精选资源列表,关系提取是自然语言处理 (NLP) 中最重要的任务之一。

  • weizhepei/CasRel 用于关系三重提取的新颖级联二进制标记关系抽取框架.

  • loujie0822/DeepIE 基于深度学习的信息抽取技术,实体抽取\实体关系联合抽取\属性抽取\实体链接/标准化\事件抽取\摘要抽取

  • OpenKG-ORG/OpenUE 一个从文本中通用提取的开放工具包

  • universal-ie/UIE 统一的文本到结构生成框架UIE,它可以对不同的IE任务进行统一建模,自适应地生成目标结构,并且可以从不同的知识源中学习通用的IE能力。实验结果表明,UIE在有监督和低资源环境下都取得了非常有竞争力的性能,验证了其通用性、有效性和可转移性。

  • 131250208/TPlinker-joint-extraction 联合抽取模型 实体关系联合抽取标注关系抽取方案

  • bojone/GPLinker 基于GlobalPointer的实体/关系/事件抽取

  • xhw205/GPLinker_torch CMeIE/CBLUE/CHIP/实体关系抽取/SPO抽取

  • TanyaZhao/MRC4ERE_plus 基于机器阅读理解的联合实体关系提取框架

  • cuhksz-nlp/RE-TaMM 于词依存信息类型映射记忆神经网络的关系抽取

  • PaddleNLP/DuIE LIC2021 DuIE 关系抽取基线 .信息抽取旨在从非结构化自然语言文本中提取结构化知识,如实体、关系、事件等。关系抽取的目标是对于给定的自然语言句子,根据预先定义的schema集合,抽取出所有满足schema约束的SPO三元组。schema定义了关系P以及其对应的主体S和客体O的类别。 本基线系统基于预训练语言模型ERNIE设计了结构化的标注策略,可以实现多条、交叠的SPO抽取。

  • princeton-nlp/PURE PURE:从文本中提取实体和关系,包含 PURE(普林斯顿大学关系提取系统)的 (PyTorch) 代码和预训练模型,如论文所述:一种令人沮丧的实体和关系提取的简便方法。

  • xiaoqian19940510/Event-Extraction 近年来事件抽取方法总结,包括中文事件抽取、开放域事件抽取、事件数据生成、跨语言事件抽取、小样本事件抽取、零样本事件抽取等类型,DMCNN、FramNet、DLRNN、DBRNN、GCN、DAG-GRU、JMEE、PLMEE等方法

  • 231sm/Reasoning_In_EE 利用本体表示学习实现低资源的事件抽取

  • zjunlp/openue 开源的通用文本信息抽取工具 三元组抽取 事件抽取 槽填充和意图检测

  • thunlp/OpenNRE 开源的神经网络关系抽取工具包,包括了多款常用的关系抽取模型,CNN、BERT、bag-level PCNN-ATT。

  • thunlp/NREPapers 神经网络关系抽取必读论文列表,覆盖了较为经典的神经网络关系抽取领域的已发表论文、综述等。

  • zjunlp/DocED 跨句事件抽取旨在研究如何同时识别篇章内多个事件。提出多层双向网络Multi-Layer Bidirectional Network融合跨句语义和关联事件信息,从而增强内各事件提及的判别。

  • cuhksz-nlp/RE-AGCN 使用注意力图卷积网络的依赖驱动关系提取的实现。

  • XueFuzhao/GDPNet 构建一个潜在的多视图图来捕获令牌之间的各种可能关系。然后细化这个图来选择重要的词进行关系预测。最后,将细化图的表示和基于 BERT 的序列表示连接起来以进行关系提取。提出的 GDPNet(高斯动态时间扭曲池化网络)中,利用高斯图生成器 (GGG) 来生成多视图图的边。然后通过动态时间扭曲池 (DTWPool) 对图形进行细化。在 DialogRE 和TACRED上,表明在对话级 RE 上实现了最佳性能,并且在句子级 RE 上与最先进的性能相当。

  • dair-iitd/OpenIE-standalone 华盛顿大学 (UW) 和德里印度理工学院 (IIT 德里) 的主要开放信息提取 (Open IE) 系统。一个开放的系统提取文本中的关系。

  • zjunlp/KnowPrompt 把关系标签之间的知识整合到关系提取的prompt-tuning中,并提出了一种使用协同优化的Knowledge-aware Prompt-tuning方法。

  • yao8839836/kg-bert 知识库补全的工作,结合BERT可以将更丰富的上下文表示结合进模型中,在三元组分类、链接预测以及关系预测中达到了SOTA。

  • dolphin-zs/Doc2EDAG 中国金融事件提取的端到端文档级框架 。基于实体的有向无环图(EDAG), 以自回归方式生成一个 EDAG。这样,一个硬表填充任务被分解为几个更易于处理的路径扩展子任务。

  • liuhuanyong/EventTriplesExtraction 基于依存句法与语义角色标注的事件三元组抽取,可用于文本理解如文档主题链,事件线等应用。

  • percent4/knowledge_graph_demo 展示三元组抽取后形成的知识图谱,包括几本小说的实体关系

  • lemonhu/open-entity-relation-extraction 基于依存句法分析,实现面向开放域文本的知识三元组抽取(实体和关系抽取)及知识库构建。

  • lancopku/Chinese-Literature-NER-RE-Dataset 中文文学文本语篇级命名实体识别与关系抽取数据集

  • tonytan48/Re-DocRED 广泛使用的文档级关系抽取基准。然而,DocRED数据集包含很大比例的假阴性示例(注释不完整)。我们修订了DocRED数据集中的4,053个文档并解决了其问题。

实体识别NER、意图识别、槽位填充

  • LeeSureman/Flat-Lattice-Transformer 中文NER 基于Transformer设计了一种巧妙position encoding来融合Lattice结构,可以无损的引入词汇信息。基于Transformer融合了词汇信息的动态结构,支持并行化计算,可以大幅提升推断速度。

  • ljynlp/W2NER 通过将统一的 NER 建模为词-词关系分类,提出了一种新颖的替代方案。该架构通过有效地建模实体词与 Next-Neighboring-Word (NNW) 和 Tail-Head-Word-* (THW-*) 关系之间的相邻关系,解决了统一 NER 的内核瓶颈。在 14 个广泛使用的基准数据集上针对平坦、重叠和不连续的 NER(8 个英语和 6 个中文数据集)进行了广泛的实验,击败了所有当前表现最好的基线,推动了最先进的表现统一的NER。

  • MiuLab/SlotGated-SLU 意图识别和槽位填充(slot filling)联合模型,提出槽位门控机制(slot-gated mechanism)来解决没有明确建立槽位和意图之间联系的缺陷,达到较好的效果。

  • monologg/JointBERT 意图识别和槽位填充(slot filling)联合训练模型,使用了BERT来进行语义编码,然后做序列标注任务和多分类任务的联合训练。

  • z814081807/DeepNER 天池中药说明书实体识别挑战冠军方案;中文命名实体识别;NER; BERT-CRF & BERT-SPAN & BERT-MRC;Pytorch

  • liuwei1206/LEBERT Lexicon Enhanced BERT模型来解决中文序列标注NER任务。相比于 FLAT,Lattice LSTM 等方法,它把词汇信息融入到了 BERT 底层的编码过程中。相比于 Lex-BERT,它无需包含词汇类型信息的词典,只需要普通的词向量即可。

  • kangbrilliant/DCA-Net 用于插槽填充和意图检测的协同互感器。数据集ATIS上,意向Acc 97.7 插槽填充F1 95.9 。

  • yizhen20133868/Awesome-SLU-Survey 口语语言理解(Spoken Language Understanding,SLU)作为任务型对话系统的核心组件,目的是为了获取用户询问语句的框架语义表示(semantics frame)信息,进而将这些信息为对话状态追踪模块(DST)以及自然语言生成模块(NLG)所使用。SLU任务通常包含以下两个任务:意图识别(intent detection)和槽位填充(slot filling)。

  • wuba/qa_match 58同城推出的一款基于深度学习的轻量级问答匹配工具,它融合领域识别与意图识别,对问答意图进行精确理解。

  • qiufengyuyi/sequence_tagging 用bilstm-crf,bert等方法进行序列标记任务

  • panchunguang/ccks_baidu_entity_link CCKS&百度 2019中文短文本的实体链指 第一名解决方案

  • ShannonAI/mrc-for-flat-nested-ner 命名实体识别的统一 MRC 框架

  • AdvPicker 通过对抗性判别器有效利用未标记数据进行跨语言 NER

  • jiesutd/LatticeLSTM 使用 Lattice LSTM 的中文 NER。ACL2018论文的代码。

  • Lynten/stanford-corenlp 为文本处理任务提供了一个简单的 API,例如标记化、部分语音标记、命名实体识别、选区解析、依赖解析等。

  • thunlp/PL-Marker 用于实体和关系提取的打包悬浮标记。提出了一种新的跨度表示方法,称为 Packed Levitated Markers,通过在编码器中策略性地打包标记来考虑跨度(对)之间的依赖关系。

  • v-mipeng/LexiconAugmentedNER 拒绝为中文 NER 合并词典的复杂操作。在中文 NER 中加入词典可以非常简单,同时也很有效。

  • lonePatient/BERT-NER-Pytorch Chinese NER(Named Entity Recognition) using BERT(Softmax, CRF, Span)

  • gaohongkui/GlobalPointer_pytorch 全局指针统一处理嵌套与非嵌套NER的Pytorch实现

其他_NLP自然语言处理

nltk/nltk 支持自然语言处理研究和开发的开源 Python 模块、数据集和教程。

keon/awesome-nlp 专用于自然语言处理 (NLP) 的资源精选列表

stanfordnlp/stanza Stanford NLP Group 的官方 Python NLP 库。 它支持在 60 多种语言上运行各种准确的自然语言处理工具。

huseinzol05/NLP-Models-Tensorflow 抽象总结 聊天机器人依赖解析器 实体标记 提取摘要 发电机 语言检测 神经机器翻译 光学字符识别 POS标签 问题答案 句子对 语音转文字 拼写校正 小队问题答案 抽干 文字扩充 文字分类 文字相似度 文字转语音 主题生成器 主题建模 无监督提取摘要 矢量化器 老少少的声码器 可视化 注意Attention

CLUEbenchmark/FewCLUE FewCLUE 小样本学习测评基准,中文版 小样本学习(Few-shot Learning)正是解决这类在极少数据情况下的机器学习问题。结合预训练语言模型通用和强大的泛化能力基础上,探索小样本学习最佳模型和中文上的实践,是本课题的目标。FewCLUE:中文小样本学习测评基准,基于CLUE的积累和经验,并结合少样本学习的特点和近期的发展趋势,精心设计了该测评,希望可以促进中文领域上少样本学习领域更多的研究、应用和发展。模型有5种不同的方式做任务,分别是使用预训练模型直接做下游任务微调、PET\RoBERTa为基础的Ptuning方式、GPT类模型为基础的Ptuning方式、使用RoBERTa或GPT做零样本学习。

deepset-ai/haystack 开源的NLP框架,可以使用Transformer模型和LLM(GPT-3等)与数据交互。Haystack提供了生产就绪的工具来快速构建类似ChatGPT的问题回答、语义搜索、文本生成等。

sebastianruder/NLP-progress 它旨在涵盖传统和核心NLP任务,如依赖解析和词性标记,以及最近的任务,如阅读理解和自然语言推理。主要目的是为读者提供基准数据集的快速概述以及他们感兴趣的任务的最新技术,这是进一步研究的垫脚石。为此,如果有一个地方已经发布并定期维护任务的结果,例如公共排行榜。

PKU-TANGENT/nlp-tutorial NLP新手入门教程

yuanzhoulvpi2017/zero_nlp 中文nlp解决方案(大模型、数据、模型、训练、推理)

bojone/attention Attention机制的实现tensorflow/keras

425776024/nlpcda 中文数据增强工具,随机实体替换\近义词\近义近音字替换\随机字删除\NER类 BIO 数据增强\随机置换邻近的字\百度中英翻译互转\中文等价字替换

wac81/textda Python3中文文本的数据增强

zhanlaoban/EDA_NLP_for_Chinese 适合中文语料的数据增强EDA的实现

akkarimi/aeda_nlp 一种更简单的文本分类数据增强技术.插入符号。

rz-zhang/SeqMix 数据增强⽅法,通过序列混合增强活动序列标记。

clovaai/ssmix 数据增强⽅法,SSMix⽅法在⽂本input上通过巧妙的⽅法进⾏mixup,⽽不像前⾯⼤部分使⽤在 hidden层上。该⽅法在保留⼤部分重要token的前提下基于⼀些信息替换⼀个新的 span进来。

ShomyLiu/Neu-Review-Rec Pytorch的基于评论文本的深度推荐系统模型库。DeepCoNN(WSDM'17)、D-Attn(RecSys'17)、ANR(CIKM'18)、NARRE(WWW'18)、MPCN(KDD'18)、TARMF(WWW'18)、CARL(TOIS'19)、CARP(SIGIR'19)、DAML(KDD'19)

squareRoot3/Target-Guided-Conversation 目标指导的开放域对话,开放域聊天中目标引导.

flairNLP/flair 最先进的NLP框架。由柏林洪堡大学开发。将先进的NLP模型应用于文本,如NER、词性标记 (PoS)、对生物医学的特殊支持、感知消歧和分类。Flair具有简单的界面,允许不同的单词和文档嵌入,包括Flair嵌入,BERT嵌入和ELMo嵌入。

NVIDIA/NeMo 对话式 AI 工具包,专为从事ASR\TTS\语言模型和NLP的研究人员而构建。NeMo的主要目标是帮助来自工业界和学术界的研究人员重用以前的工作(代码和预训练模型),并更轻松地创建新的对话AI模型。所有 NeMo 模型都使用 Lightning 进行训练,训练可自动扩展到 1000 多个 GPU。此外,NeMo 威震天 LLM 模型可以使用张量和管道模型并行性训练多达 1 万亿个参数。NeMo 模型可以针对推理进行优化,并使用 NVIDIA Riva 针对生产用例进行部署。

lancopku/pkuseg-python 多领域中文分词工具

https://github.com/JasonForJoy/MPC-BERT 一种预训练的多方会话理解语言模型.多方会话(MPC)的各种神经模型在收件人识别、说话人识别和反应预测等方面取得了显著的进展。

https://github.com/airaria/TextBrewer 基于PyTorch的NLP任务知识蒸馏工具包,适用于多种模型结构,支持自由组合各种蒸馏策略,并且在文本分类、阅读理解、序列标注等典型NLP任务上均能获得满意的效果。

https://github.com/czhang99/SynonymNet 基于多个上下文双向匹配的同义实体发现

PRADO 用于文档分类的投影注意网络 性能媲美BERT,但参数量仅为1/300 tensorflow/models/tree/master/research/sequence_projection

https://github.com/stanford-futuredata/ColBERT ColBERT: 基于上下文(contextualized)的后期交互的排序模型 Efficient and Effective Passage Search via Contextualized Late Interaction over BERT 兼顾匹配的效率和doc中的上下文信息

https://github.com/salesforce/pytorch-qrnn 准循环神经网络Quasi-Recurrent Neural Network,基于使用实例可以比高度优化的 NVIDIA cuDNN LSTM 实现2到17倍快

https://github.com/ChenghaoMou/pytorch-pQRNN pQRNN 结合一个简单的映射和一个quasi-RNN编码器来进行快速并行处理。pQRNN模型表明这种新的体系结构几乎可以达到BERT级的性能,尽管只使用1/300的参数量和有监督的数据。

https://github.com/RUCAIBox/TG_CRS_Code TG-ReDial相应的推荐、回复生成、主题预测功能实现。

https://github.com/Qznan/QizNLP 快速运行分类、序列标注、匹配、生成等NLP任务的Tensorflow框架 (中文 NLP 支持分布式)

salesforce/WikiSQL 用于为关系数据库开发NLP界面的大型众包数据集。 WikiSQL 是与Seq2SQL 一起发布的数据集。使用强化学习从自然语言生成结构化查询。

https://github.com/toizzy/tilt-transfer 运行TILT迁移学习实验的代码 让语言模型先在乐谱上进行训练,再在自然语言上训练可以有效的提升语言模型的性能。

XiaoMi/MiNLP/minlp-tokenizer 小米 AI NLP 团队的平台 MiNLP 开源了中文分词功能

https://github.com/explosion/spaCy 工业级强度的NLP工具包,被称为最快的工业级自然语言处理工具。支持多种自然语言处理的基本功能,主要功能包括分词、词性标注、词干化、命名实体识别、名词短语提取等。

https://github.com/RUCAIBox/CRSLab 用于构建会话推荐系统(Conversational Recommender System CRS)的开源工具包。 对话推荐任务主要拆分成三个任务:推荐任务(生成推荐的商品),对话任务(生成对话的回复)和策略任务(规划对话推荐的策略)。模型 CRS 模型 ReDial、KBRD、KGSF、TG-ReDial、推荐模型 Popularity、GRU4Rec、SASRec、TextCNN、R-GCN、BERT、对话模型 HERD、Transformer、GPT-2 策略模型 PMI、MGCG、Conv-BERT、Topic-BERT、Profile-BERT

https://github.com/RUCAIBox/CRSPapers 选取了近年来基于深度学习的对话推荐系统相关论文(共 62 篇),并根据工作的类型进行分类,以供参考。

https://github.com/nlp-uoregon/trankit 用于多语言自然语言处理的基于轻型变压器的Python工具包 支持以下任务:句子分割。标记化。多字令牌扩展。词性标记。形态特征标记。依赖性解析。命名实体识别。

https://github.com/yizhen20133868/NLP-Conferences-Code 记录NLP相关顶会(如ACL、EMNLP、NAACL、COLING、AAAI、IJCAI)的论文开源项目合集

https://github.com/cuhksz-nlp/DGSA 基于方向建模图卷积网络的联合方面提取和情感分析.输入:由句子生成的依存句法分析树得到的图;句子(词序列).输出表示为一个标签序列.可用于序列标注、ER 和情感分析。

https://github.com/FedML-AI/FedNLP FedNLP:自然语言处理中的联合学习研究平台

Graph4nlp是一个易于使用的NLP图形神经网络库。应用:文本分类、神经机器翻译、摘要、KG补全:预测konwledge图中两个现有实体之间的缺失关系。数学问题解决:自动解决数学习题,用易懂的语言提供问题的背景信息。名称实体识别、问题生成。

PaddlePaddle/PaddleNLP 简单易用且易于开发的强大功能。开发的简单易用的自然覆盖处理模型并提供开发者的简单易用的自然覆盖处理模型,并提供NLP 多场景的语言库供灵活使用的需求。

huybery/r2sql Dynamic Hybrid Relation Network for Cross-Domain Context-Dependent Semantic Parsing 跨域上下文相关语义分析的动态混合关系网络 应用于:多轮text-to-SQL 任务(通过多轮对话的方式生成最终的查询语句, Text-to-SQL 任务:给定一个自然语言查询和数据库的作为输入,产生一个SQL语句作为输出。)

https://github.com/facebookresearch/GENRE 首创生成式实体检索,通过seq2seq方法(BART)生成有意义的实体名称从而实现实体链接,而且还可以取得SOTA结果。

https://github.com/sebastian-hofstaetter/intra-document-cascade IDCM模型: 文档内部级联选择段落服务于文档排序。采用文档内部级联策略,在运行复杂并且高效果的排序模型(ETM,Effective Teacher Model)之前,使用高效率的模型(ESM,Efficient Student Model)进行候选文档中多余段落的删除。相比bert,具有基本相同的效果,而且查询延迟降低400%以上。

https://github.com/jingtaozhan/DRhard 通过难负例优化稠密向量文档检索模型训练,利用动态难负例抽样提高模型效果,以及将随机抽样结合静态难负例抽样提高模型稳定性。

https://github.com/yechens/NL2SQL Text2SQL 语义解析数据集、解决方案、paper资源整合项。Text to SQL( 以下简称Text2SQL),是将自然语言文本(Text)转换成结构化查询语言SQL的过程,属于自然语言处理-语义分析(Semantic Parsing)领域中的子任务。

https://github.com/destwang/CTCResources 中文文本纠错(Chinese Text Correction, CTC)相关论文、数据集。

https://github.com/fushengwuyu/chinese_spelling_correction 中文文本纠错模型:bert语言模型+字音字形相似度 、MLM、seq2seq

https://github.com/grammarly/gector ”GECToR – Grammatical Error Correction: Tag, Not Rewrite”,使用给序列打标签来替代主流的Seq2Seq模型。本文采取了一种迭代的方法,也就是通过多次(其实最多也就两三次)序列打标签。

https://github.com/destwang/CTC2021 本赛题主要选择互联网上中文母语写作者撰写的网络文本作为校对评测数据,从拼写错误、语法错误、语病错误等多个方面考察机器的认知智能能力。

https://github.com/Jingjing-NLP/VOLT 借鉴边际效用通过最优转移学习词表。

https://github.com/thunlp/OpenAttack 文本对抗攻击工具包,可以用于文本对抗攻击的全过程,包括文本预处理、受害模型访问、对抗样本生成、对抗攻击评测以及对抗训练等。

https://github.com/thunlp/TAADpapers 文本对抗攻击和防御必读论文列表。

https://github.com/lupantech/InterGPS 基于符号推理的几何数学题求解器。建立了一个新的大规模基准数据集,称为 Geometry3K。这些数据从两本中学教材收集,涵盖了北美 6 到 12 年级的几何知识。每道题收集了 LaTeX 格式的问题文本、几何图形、四个选项和正确答案。为了模型的精细评估,每个数据标注了问题目标和几何图形的类型。Inter-GPS 将几何关系集 R 和定理集 KB 作为输入,应用定理预测器预测适用的定理序列,逐步对关系集进行符号推理,从而输出问题目标的答案。

https://github.com/Helsinki-NLP/Tatoeba-Challenge 这是一个机器翻译的挑战集,包含 29G 翻译单元在 3,708 位ext 覆盖 557 种语言。该包包括从涵盖 134 种语言的 Tatoeba.org 衍生的 631 套测试集的版本。此包提供以多种语言进行机器翻译的数据集,并提供从 Tatoeba 获取的测试数据。

https://github.com/princeton-nlp/LM-BFF 更好的Few-shot小样本微调语言模型.包括:1.基于提示(prompt)进行微调,关键是如何自动化生成提示模板; 2.将样本示例以上下文的形式添加到每个输入中,关键是如何对示例进行采样.

https://github.com/thunlp/PromptPapers 关于基于提示的预先训练语言模型的必读论文。

linzehui/mRASP 通过利用对齐信息预训练多语言神经机器翻译. 代表多语言随机对齐替换预训练,是一种预训练的多语言神经机器翻译模型。 它在包含 32 个语言对的大规模多语言语料库上进行了预训练。 获得的模型可以在下游语言对上进一步微调。 为了有效地使具有相似含义的单词和短语在多种语言的表示中更接近,我们引入了随机对齐替换 (RAS) 技术。

soft-prompt-tuning The Power of Scale for Parameter-Efficient Prompt Tuning 用于参数高效的即时调整的规模的力量

facebookresearch/ParlAI 在各种公开可用的对话数据集上训练和评估 AI 模型的框架。

CAMTL/CA-MTL 条件自适应多任务学习:使用更少的参数和更少的数据改进 NLP 中的迁移学习

thunlp/WantWords 一个开源的在线反向词典。

pcyin/tranX 用于将自然语言查询映射到机器可执行代码的通用神经语义解析器

hooman650/SupCL-Seq 下游优化序列表示的监督对比学习

openai/grade-school-math 包含 8.5K 高质量语言多样化小学数学单词问题的数据集。对于每个测试问题,我们提供从 6B 微调、6B 验证、175B 微调和 175B 验证生成的解决方案。

makcedward/nlpaug NLP 的数据增强

hankcs/pyhanlp 中文分词、依存句法分析

shibing624/pycorrector 中文文本纠错工具。支持中文音似、形似、语法错误纠正。实现了Kenlm、ConvSeq2Seq、BERT、MacBERT、ELECTRA、ERNIE、Transformer等多种模型的文本纠错,并在SigHAN数据集评估各模型的效果。

HillZhang1999/MuCGEC MuCGEC中文纠错数据集及文本纠错SOTA模型开源

PengheLiu/Cn_Speck_Checker 通过统计方法对中文单词进行自动纠错

taozhijiang/chinese_correct_wsd 简易中文纠错消歧 用户输入语句的同音自动纠错.

beyondacm/Autochecker4Chinese 中文文本错别字检测以及自动纠错

iqiyi/FASPell 2019-SOTA简繁中文拼写检查工具:FASPell Chinese Spell Checker ( 中文拼写检错 / 中文拼写纠错 / 中文拼写检查)

hiyoung123/SoftMaskedBert 中文文本纠错模型。使用两个网络模型,一个用于错误检测;另一个基于BERT进行纠错。

ACL2020SpellGCN/SpellGCN 将语音学和视觉相似性结合到汉语拼写检查\文本纠错

MuCGEC/scorers/ChERRANT 借鉴了英文上主流的GEC(Grammatical Error Correction 语法纠错)评估工具ERRANT,搭建了中文GEC评估工具ChERRANT(Chinese ERRANT)。ChERRANT的主要功能是通过对比预测编辑和标准编辑,计算预测结果的精确度、召回度、F值指标,从而评估语法纠错模型的性能。应用:搜索query纠错、语音纠错、舆情文本纠错

liushulinle/CRASpell 使用复制机制改进中文拼写纠正的上下文错字稳健方法

thunlp/OpenBackdoor 文本后门攻防开源工具包(NeurIPS 2022 D&B)

xueyouluo/ccks2021-track2-code “英特尔创新大师杯”深度学习挑战赛 赛道2:CCKS2021中文NLP地址要素解析 。基于BERT的Biaffine结构,直接预测文本构成的所有span的类别。相比单纯基于span预测和基于MRC的预测,Biaffine的结构可以同时考虑所有span之间的关系,从而提高预测的准确率。

kpu/kenlm 高效统计语言模型kenlm:新词发现、分词、智能纠错

ryanzhumich/Contrastive-Learning-NLP-Papers NLP 对比学习是一种学习嵌入空间的技术,使得相似的数据样本对具有接近的表示,而不同的样本彼此相距很远。 它可以在有监督或无监督的设置中使用,使用不同的损失函数来生成特定于任务或通用的表示。 在各种 NLP 任务中提供了有希望的性能改进,而且还提供了所需的特性,例如与任务无关的句子表示、忠实的文本生成、零样本和少样本设置中的数据高效学习、可解释性和可解释性 .

textstat/textstat 用于计算文本对象(段落、句子、文章)的可读性统计数据。

nonebot/nonebot2 跨平台 Python 异步聊天机器人框架

mit-han-lab/smoothquant 对大语言模型的准确和高效的训练后量化

causaltext/causal-text-papers 因果推理和自然语言处理的交叉研究。

zhijing-jin/Causality4NLP_Papers 关于自然语言处理因果关系的论文阅读列表

DaDaMrX/ReaLiSe 多模态模型中文拼写检查器。包括:文字语义、文字发音、文字图形。

dbohdan/structured-text-tools 用于操作结构化文本数据的命令行工具列表

huggingface/tokenizers 提供当今最常用的分词器的实现,重点关注性能和多功能性。

jessevig/bertviz 在NLP模型中可视化注意力(BERT,GPT2,BART等)

lutzroeder/netron 用于神经网络、深度学习和机器学习模型的可视化工具

sebastianruder/NLP-progress 用于跟踪自然语言处理 (NLP) 进展的存储库,包括数据集和最常见 NLP 任务的最新技术水平。

DengBoCong/nlp-paper 自然语言处理领域下的相关论文(附阅读笔记),复现模型以及数据处理等

推荐系统

推荐系统算法库与列表

  • shenweichen/DeepCTR 易于使用、模块化和可扩展的基于深度学习的 CTR 模型包,用于搜索和推荐。

  • hongleizhang/RSPapers 推荐系统必读论文精选列表。

  • YuyangZhangFTD/awesome-RecSys-papers 推荐系统中的经典论文

  • ChenglongChen/tensorflow-DeepFM

  • twitter/the-algorithm Twitter 的推荐算法是一组服务和作业,负责在所有 Twitter 产品表面(例如,为你时间线、搜索、探索)提供推文和其他内容的提要。有关算法工作原理的介绍,请参阅我们的工程博客。

  • alibaba/DeepRec 基于 TensorFlow 的推荐引擎。具有超大规模分布式训练能力,支持万亿样本的模型训练和千亿的Embedding Processing。针对稀疏模型场景,在CPU和GPU平台上进行了深度的性能优化。

  • cheungdaven/DeepRec 基于 TensorFlow 的深度学习推荐的开源工具包。

  • lyst/lightfm LightFM 的 Python 实现,一种混合推荐算法。

  • tensorflow/recommenders 使用 TensorFlow 构建推荐系统模型的库。

  • RUCAIBox/RecBole 统一,全面,高效的推荐库,包括:

    • AFM,AutoInt,DCN,DeepFM,DSSM,FFM,FM,FNN,FwFM,LR,NFM,PNN,WideDeep,xDeepFM,BPR,ConvNCF,DGCF,DMF,FISM,GCMC,ItemKNN,LightGCN,NAIS,NeuMF,NGCF,Pop,SpectralCF,CFKG,
    • CKE(Collaborative Knowledge base Embedding 发自16年KDD,将KG与CF融合做联合训练)
    • KGAT Knowledge Graph Attention Network for Recommendation 用KG做增强,捕捉这种高阶交互式特征,做推荐预测。
    • KGCN,KGNNLS,
    • KTUP Unifying Knowledge Graph Learning and Recommendation:Towards a Better Understanding of User Preferences 一方面利用KG可以帮助更好的理解用户偏好。另一方面,用户-物品的交互可以补全KG,增强KG中缺少的事实。最终使两个部分都得到加强。
    • MKR(Multi-task Learning for KG enhanced Recommendation 融合KG和RC) 左边是推荐任务。用户和物品的特征表示作为输入,预测点击率y 右边是知识图谱任务。三元组的头结点h和关系r表示作为输入,预测的尾节点t 两者的交互由一个cross-feature-sharing units完成。由于物品向量和实体向量实际上是对同一个对象的两种描述,他们之间的信息交叉共享可以让两者都获得来自对方的额外信息,从而弥补了自身的信息稀疏性的不足。
    • ippleNet,BERT4Rec,Caser,DIN,FDSA,FPMC,GCSAN,GRU4Rec,GRU4RecF,GRU4RecKG,KSR,NARM,NextItNet,S3Rec,SASRec,SASRecF,SRGNN,STAMP,TransRec
  • Coder-Yu/QRec QRec:快速实现推荐系统的 Python 框架(基于 TensorFlow)

  • Transformers4Rec Transformers4Rec 是一个灵活且高效的库,用于顺序和基于会话的推荐,可用于 PyTorch 和 Tensorflow。

  • datawhalechina/torch-rechub 用于推荐模型的轻量级Pytorch 框架,易于使用且易于扩展。scikit-learn风格易用的API。模型训练与模型定义解耦,易拓展,可针对不同类型的模型设置不同的训练机制。接受pandas的DataFrame、Dict数据输入,上手成本低。高度模块化,容易调用组装成新模型 LR、MLP、FM、FFM、CIN、target-attention、self-attention、transformer。支持常见排序模型 WideDeep、DeepFM、DIN、DCN、xDeepFM等。支持常见召回模型 DSSM、YoutubeDNN、YoutubeDSSM、FacebookEBR、MIND等。多任务学习支持SharedBottom、ESMM、MMOE、PLE、AITM等模型。 GradNorm、UWL、MetaBanlance等动态loss加权机制。

  • shenweichen/DeepMatch 用于推荐和广告的深度匹配模型库。训练模型和导出用户和项目的表示向量非常容易,可用于ANN搜索。

  • PaddlePaddle/PaddleRec 大规模推荐算法库,包含推荐系统经典及最新算法LR、Wide&Deep、DSSM、TDM、MIND、Word2Vec、Bert4Rec、DeepWalk、SSR、AITM,DSIN,SIGN,IPREC、GRU4Rec、Youtube_dnn、NCF、GNN、FM、FFM、DeepFM、DCN、DIN、DIEN、DLRM、MMOE、PLE、ESMM、ESCMM, MAML、xDeepFM、DeepFEFM、NFM、AFM、RALM、DMR、GateNet、NAML、DIFM、Deep Crossing、PNN、BST、AutoInt、FGCNN、FLEN、Fibinet、ListWise、DeepRec、ENSFM,TiSAS,AutoFIS等,包含经典推荐系统数据集criteo 、movielens等

  • wangshusen/RecommenderSystem 结合小红书的业务场景和内部实践,讲解主流的工业界推荐系统技术。

  • ZiyaoGeng/Recommender-System-with-TF2.0 CTR预言论文进行复现,包括传统模型(MF,FM,FFM等),神经网络(WDL,DCN等)以及序列模型(DIN)。

  • https://github.com/THUwangcy/ReChorus 用于Top-K推荐的通用PyTorch框架,具有隐式反馈,尤其是用于研究目的。BPR\NCF\Tensor\GRU4Rec\NARM\SASRec\TiSASRec\CFKG\SLRC\Chorus

  • https://github.com/NVIDIA/NVTabular 为特征工程、前处理提供了更快的迭代速度,同时利用异步批量加载的方法有效提高了GPU的利用率,提供更快的加载速率。Merlin推荐系统框架的模块。

  • https://github.com/NVIDIA/HugeCTR a high efficiency GPU framework designed for Click-Through-Rate (CTR) estimating training ,在Embedding lookup上做了很多优化,可以轻易的通过数据和模型并行的方式将模型扩展到TB级别,在大规模参数的背景下,这给挖掘模型能力提供了更多的想象力。同时更快的训练速度也让算法工程师能够尝试更多的网络结构,挖掘最适合所研究问题的模型。

  • https://github.com/microsoft/recommenders 推荐系统上的最佳实践。包括多个模型:ALS A2SVD BPR Caser DKN xDeepFM FAST LightFM/Hybrid Matrix Factorization LightGBM/Gradient Boosting Tree* LightGCN GeoIMC GRU4Rec Multinomial VAE LSTUR NAML NCF NPA NRMS NextItNet RBM RLRMC SAR SLi-Rec SUM Standard VAE SVD TF-IDF Vowpal Wabbit (VW)* Wide and Deep FM&FFM

  • AmazingDD/daisyRec 在 pytorch 中开发的推荐系统。算法:KNN、LFM、SLIM、NeuMF、FM、DeepFM、VAE 等,旨在公平比较推荐系统基准

  • wubinzzu/NeuRec 全面且灵活的 Python 库,用于推荐系统,其中包括大量最先进的神经推荐模型。该库旨在解决一般、社交和顺序(下一项)推荐任务,使用Tensorflow库提供 33 个开箱即用的模型。

  • guoguibing/librec 一个用于推荐系统的 Java 库(需要 Java 版本 1.7 或更高版本)。它实现了一套最先进的推荐算法,旨在解决两个经典的推荐任务:评分预测项目排名

  • facebookresearch/torchrec 推荐系统的 Pytorch库,旨在提供大型推荐系统 (RecSys) 所需的通用稀疏性和并行性原语。它允许作者使用跨多个 GPU 分片的大型嵌入表来训练模型。

  • huawei-noah/FuxiCTR FuxiCTR 为 CTR 预测提供了一个开源库,在可配置性、可调整性和可重复性方面具有惊人的功能。模型包括:LR FM CCPM FFM YoutubeDNN Wide&Deep IPNN DeepCross HOFM DeepFM NFM AFM DCN FwFM xDeepFM DIN FiGNN AutoInt/AutoInt+ FiBiNET FGCNN HFM/HFM+ ONN AFN/AFN+ LorentzFM FLEN FmFM

  • openbenchmark/BARS 迈向推荐系统的开放基准测试。 BARS 基准目前涵盖以下两项任务:点击率预测\候选项目匹配

  • PersiaML/PERSIA 基于 PyTorch 训练深度学习推荐模型的高性能分布式框架。它能够训练具有多达 100 万亿个参数的推荐模型。对公共数据集的实证研究表明,PERSIA 在推荐方面优于其他系统。它的效率和稳健性也得到了快手1亿级DAU的多个应用程序的验证。

  • alibaba/EasyRec 大规模推荐算法的框架。实现了用于常见推荐任务的最先进的深度学习模型:候选生成(匹配)、评分(排名)和多任务学习。它通过简单的配置和超参数调整(HPO)提高了生成高性能模型的效率。

  • pytorch/torchrec 推荐系统的 Pytorch 域库

  • PKU-DAIR/GNN-in-RS 推荐系统中的 GNN(ACM 计算调查 2022)

  • NicolasHug/Surprise 用于构建和分析推荐系统的 Python scikit

  • caserec/CaseRecommender 案例推荐器:用于推荐系统的灵活且可扩展的 Py框架

  • grahamjenson/list_of_recommender_systems 推荐系统和资源列表

其他_推荐系统

https://github.com/imsheridan/DeepRec 推荐、广告工业界经典以及最前沿的论文、资料集合

laekov/fastmoe FastMoE 是一个易用且高效的基于 PyTorch 的 MoE 模型训练系统.

https://github.com/oywtece/dstn

https://github.com/shenweichen/DSIN

https://github.com/facebookresearch/dlrm 深度学习推荐模型(DLRM)的实现

https://github.com/vze92/DMR Deep Match to Rank Model for Personalized Click-Through Rate Prediction DMR:Matching和Ranking相结合的点击率预估模型

https://github.com/kang205/SASRec 源于Transformer的基于自注意力的序列推荐模型

https://github.com/shichence/AutoInt 使用Multi-Head self-Attention进行自动的特征提取

https://github.com/xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤

https://github.com/UIC-Paper/MIMN 点击率预测的长序列用户行为建模的实践

https://github.com/motefly/DeepGBM 结合了GBDT 和神经网络的优点,在有效保留在线更新能力的同时,还能充分利用类别特征和数值特征。由两大块组成,CatNN 主要侧重于利用 Embedding 技术将高维稀疏特征转为低维稠密特征,而 GBDT2NN 则利用树模型筛选出的特征作为神经网络的输入,并通过逼近树结构来进行知识蒸馏。

https://github.com/LeeeeoLiu/ESRM-KG 关键词生成的基于电商会话的推荐模型

https://github.com/zhuchenxv/AutoFIS 自动特征交互选择的点击率预测模型

https://github.com/pangolulu/exact-k-recommendation 解决推荐中带约束的Top-K优化问题

https://github.com/Scagin/NeuralLogicReasoning 神经协同推理,提出了一种新的神经逻辑推荐(NLR)框架,能够将逻辑结构和神经网络相结合,将推荐任务转化为一个逻辑推理任务。

https://github.com/allenjack/HGN 用矩阵分解的形式捕捉用户的长期兴趣,同时将短期兴趣进行拆分,分为group-level以及instance-level的,通过Hierarchical Gating来处理group-level的信息,item-item的乘积来捕捉商品之间的关系。

https://github.com/RUCAIBox/CIKM2020-S3Rec 自我推荐学习,用于具有互信息最大化的顺序推荐

https://github.com/chenchongthu/SAMN 社交注意力记忆网络在推荐系统中的应用

https://github.com/Lancelot39/KGSF 基于知识图谱语义融合改进会话推荐系统 Improving Conversational Recommender Systems via Knowledge Graph based Semantic Fusion

https://github.com/DeepGraphLearning/RecommenderSystems 顺序推荐 基于维度的推荐 社交推荐

https://github.com/FeiSun/BERT4Rec 基于BERT的顺序推荐

https://github.com/ChuanyuXue/CIKM-2019-AnalytiCup 2019-CIKM挑战赛,超大规模推荐之用户兴趣高效检索赛道 冠军解决方案 ,召回阶段基于 Item CF 相似性做召回( item-item 相似性),排序阶段,最终使用了 Catboost 和 Lightgbm 建模。

https://github.com/zyli93/InterHAt 通过分层注意力预测可解释的点击率。

https://github.com/SSE-PT/SSE-PT 基于Transformer的模型,但是和SASRec类似, 效果不错,但是缺少个性化,而且没有加入基于个性化的用户embedding。为了克服这种问题,本文提出来一种个性化的Transformer(SSE-PT),该方法相较于之前的方案提升了5%。

https://github.com/triton-inference-server/server 面向高吞吐低延时的生产环境的框架,通过Triton做线上推理,将TensorRT作为执行后端,能够有效降低Latency,并最大化地利用GPU资源。相比于一个纯CPU的方案,两者的结合使用能够使Latency达到原先的1/18,数据吞吐量达到原先的17.6倍。

https://github.com/lqfarmer/GraphTR 采用了GraphSAGE+FM+Transformer多种手段,粒度上从粗到细,交叉、聚合来自不同领域的异构消息,相比于mean/max pooling、浅层FC等传统聚合方式,极大提升了模型的表达能力

https://github.com/guyulongcs/CIKM2020_DMT 将兴趣建模、多任务学习、偏置学习等几部分进行融合,提出了DMT模型(Deep Multifaceted Transformers)

https://github.com/hwwang55/DKN DKN,将知识图表示融入到新闻推荐中。DKN是一种基于内容的用于点击率预估的深度推荐框架。DKN的主要部分是一个多通道、单词实体对齐的知识感知卷积神经网络,KCNN,其中融入了新闻在语意层面和知识层面的表示。KCNN将单词和实体作为多通道,在卷积过程中明确保留他们之间的对齐关系。

https://github.com/yusanshi/NewsRecommendation NRMS NAML LSTUR DKN Hi-Fi Ark TANR

https://github.com/johnny12150/GCE-GNN 提出了一种全局上下文增强(global-context enhanced)的GNN网络,称为GCE-GNN。能够从两种层次来学习物品的表征,包括global-level:从所有session构成的图上进行全局的表征;以及session-level:从单个session局部item转移图上进行局部的表征;最后融合二者,并通过注意力机制形成最终的序列表征,用于序列推荐任务。

https://github.com/BinbinJin/SD-GAR 第一篇将生成式对抗网络(GAN)框架应用于信息检索(包括推荐系统)的研究工作。在该工作中,IRGAN 训练了一个生成器和一个判别器,其中生成器用来自适应地生成合适的负样本以帮助判别器训练;而判别器则是用来判断样本是来自用户真实的反馈还是生成器生成的样本。通过两者交替式对抗性地训练达到互相提升效果的目的。

https://github.com/twchen/lessr 将会话记录构建成图来建模商品之间的跳转关系的图神经网络

https://github.com/NLPWM-WHU/AGNN 区分了推荐系统中的一般冷启动和严格冷启动,并提出了属性图神经网络方法有效应对严格冷启动的场景。

https://github.com/CRIPAC-DIG/SR-GNN 会话序列推荐的图应用 直接将会话序列建模为图结构数据,并使用图神经网络捕获复杂的项目物品item间转换,每一个会话利用注意力机制将整体偏好与当前偏好结合进行表示。同时这种方式也就不依赖用户的表示了,完全只基于会话内部的潜在向量获得Embedding,然后预测下一个点击。

https://github.com/uctoronto/SHAN Sequential Recommender System based on Hierarchical Attention Network 分层注意力网络SHAN用于序列推荐 。提出新颖的两层分层注意力网络,将上述特性考虑进来,用于推荐可能感兴趣的下一个商品。第一层注意力网络基于用户的历史购买商品的表示来学习用户的长期偏好,第二层通过将用户的长期和短期偏好结合起来,输出最终的用户表示。

https://github.com/chenghuige/mind MIND新闻推荐冠军分享细节揭秘

https://github.com/WayneDW/DeepLight_Deep-Lightweight-Feature-Interactions 轻量级特征交互算法deeplight 大幅加速ctr预估在线服务。 一,通过在浅层结构中精确搜索信息量更大的特征交互来加速模型推理,二,在深层结构中,从层内和层间对冗余的层和冗余的参数进行剪枝,三,促使embedding层的稀疏性,进而保持最有判别性的信息。为了解决预测延迟问题,我们通过结构修剪来加速预测,最终以46倍的速度提高而不会牺牲Criteo数据集上的最新性能。

https://github.com/JiachengLi1995/TiSASRec Time Interval Aware Self-Attention for Sequential Recommendation 时间间隔自注意力模型用于序列推荐。 基于序列模型框架对行为的时间戳进行建模,在下一个商品预测中探索不同时间间隔的影响。

https://github.com/wuch15/IJCAI2019-NAML 多视图学习新闻推荐系统Neural News Recommendation with Attentive Multi-View Learning 可以通过利用不同种类的新闻信息来学习用户和新闻的特征表示。

https://github.com/guoday/Tencent2020_Rank1st 广告受众基础属性预估 2020 Tencent College Algorithm Contest, and the online result ranks 1st.

https://github.com/yuduo93/THIGE 基于时序异质交互图表示学习的商品推荐 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。

https://github.com/guyulongcs/CIKM2020_DMT 大型电子商务推荐系统中多目标排名的深层多面Transformers模型

https://github.com/weiyinwei/MMGCN 多模态图神经网络解决短视频推荐难题

https://github.com/wujcan/SGL 基于图自监督学习的推荐系统。应用于「用户-物品二分图推荐系统」的「图自监督学习」框架。

https://github.com/wangjiachun0426/StackRec 通过迭代堆叠实现推荐系统的高效训练。采用对一个浅层序列推荐模型进行多次层堆叠(Layer Stacking),从而得到一个深层序列推荐模型。具体来说,训练过程包含以下步骤:1)预训练一个浅层序列推荐模型;2)对该模型进行层堆叠,得到一个两倍深度的模型;3)微调这个深层模型;4)将深层模型作为一个新的浅层模型,重复1)至3)直到满足业务需求。

https://github.com/xiangwang1223/neural_graph_collaborative_filtering 神经图协同过滤(NGCF)是一种基于图神经网络的新推荐框架,通过执行嵌入传播,在用户项二部图中以高阶连通性的形式对协同信号进行显式编码。

https://github.com/johnnyjana730/MVIN 提出multi-view item network (MVIN) ,从user和item来学习多个视角下的商品表示,进而进行商品推荐。在实体视图中,项目表示由KG中连接到它的实体来定义的。

https://github.com/weberrr/CKAN Collaborative Knowledge-aware Attentive Network for Recommender Systems 协作知识感知的注意力网络推荐系统

https://github.com/danyang-liu/KRED KRED:基于知识感知的文档表示应用于新闻推荐。首先是用KGAT来表示每个实体,然后使用用实体的位置 实体出现频率 实体的类别等信息。再用Transformer来优化表征。最后做多任务:包括个性化推荐,项目到项目推荐、新闻流行预测、新类别预测和本地新闻检测等等。

https://github.com/CRIPAC-DIG/DGCF 动态图协同过滤算法,利用动态图来同时捕捉用户和商品之间的协同和序列关系的框架。提出三种更新机制: 零阶继承,一阶传播,二阶聚合,来表示新的交互发生时,该交互对用户或者商品的影响。基于这三种机制,交互发生时同时更新用户和商品的embedding,并且利用最新的embedding来给出推荐。

https://github.com/QYQ-bot/CLEA 运用对比学习解决购物篮推荐场景。(下一个购物篮推荐,也就是根据用户的历史购物篮序列,来推荐用户在下一次可能购买的商品集合。)

https://github.com/huangtinglin/MixGCF 基于多层嵌入合成负例用于推荐,相对NGCF 提高 26%, LightGCN 提高 22%

https://github.com/DyGRec/ASReP 反向预训练Transformer 增广序列推荐系统.解决序列推荐系统中的冷启动(cold-start)问题。为了解决该问题,我们提出需要对冷启动对应的短序列(short sequence)进行增广(Augmentation),从而能够补全信息而避免冷启动的问题。

https://github.com/NLPWM-WHU/EDUA 多样性推荐的 EDUA 模型。其采用双边分支网络作为双目标优化的主要架构,该架构既保持传统学习分支的准确性,又提高自适应学习分支的多样性。

gluver/KG4Rec_Paperlist 这是关于基于知识图谱的推荐的顶级论文列表。

xidongbo/AITM 自适应信息传输多任务 (AITM) 框架的 TensorFlow 实现。 提交给 KDD21 的论文代码:使用多任务学习为客户获取建模受众多步转换之间的顺序依赖性。应用场景:联名卡获客,从曝光(Impression)、点击(Click)、申请(Application)、核卡(Approval)、激活(Activation)。另外,使用公开的Ali-CCP阿里巴巴点击和转化预测数据集pytorch实现

newlei/LR-GCCF 重温基于图的协同过滤:一种线性残差图卷积网络方法,AAAI2020 本文提出了一种使用非线性特征传播和残差结构的GCN网络LR-GCCF用于基于CF的推荐系统,在模型表型上和时间效率上有了一定的提高。

wangzhegeek/EGES 阿里巴巴论文的实施:阿里巴巴电子商务推荐的十亿级商品嵌入

YushanZhu/K3M 电子商务中的知识感知多模态预训练

tsinghua-fib-lab/GNN-Recommender-Systems 基于图神经网络的推荐算法索引。

oywtece/deepmcp 点击率 (CTR) 预测模型。大多数现有方法主要对特征-CTR 关系进行建模,并且存在数据稀疏问题。相比之下,DeepMCP 对其他类型的关系进行建模,以学习更多信息和统计上可靠的特征表示,从而提高 CTR 预测的性能。DeepMCP 包含三部分:匹配子网、关联子网和预测子网。这些子网分别为用户-广告、广告-广告和功能-点击率关系建模。当这些子网在目标标签的监督下联合优化时,学习到的特征表示既具有良好的预测能力,又具有良好的表示能力。

rener1199/deep_memory 用户记忆网络的点击率预测

https://github.com/xiaxin1998/DHCN 用于基于会话的推荐的自超图卷积网络

maenzhier/GRecX 基于 GNN 的推荐的高效统一基准。

RUCAIBox/Awesome-Privacy-Preserving-RS-Paper 本知识库收集了 2018 年后隐私保护推荐系统的最新研究进展。

github.com/THUDM/ComiRec KDD 2020 论文《Controllable Multi-Interest Framework for Recommendation》的源代码和数据集 可控的多兴趣推荐框架

microsoft/tutel Tutel MoE:优化的专家组合实施

Jhy1993/Awesome-GNN-Recommendation GNN-推荐相关资源

sisinflab/elliot 用于可重现推荐系统评估的全面而严谨的框架

sumitsidana/recsys_challenge_2020 此存储库包含 2020 年 RecSys 挑战赛方法的第四名解决方案的代码。该挑战侧重于在动态环境中进行推文参与度预测的现实任务。目标是根据异构输入数据预测目标用户对一组推文的不同类型参与(点赞、回复、转推和转推)的概率。

ystdo/Codes-for-WSDM-CUP-Music-Rec-1st-place-solution  WSDM CUP 2018 音乐推荐挑战赛第一名解决方案的对应代码。预测 3 月订阅到期的用户中,哪些会流失。为解决该题,阿里巴巴使用了两层 Stacking Model,第一层采用逻辑回归、随机森林、XGBoost 算法,第二层又采用 XGBoost 算法把第一层的结果融合。流失用户预测,对有会员体系的业务场景都可以使用,其中会员付费为主要收入的业务就更为关键,比如像 Apple Music、虾米音乐。多层 Stacking Model 由 AliOS 神灯研发,极大提升了分类预测的准确率,已广泛应用于 AliOS 多项业务中。

DiligentPanda/Tencent_Ads_Algo_2018 该仓库维护2018年腾讯广告算法大赛的代码。我们的代码在决赛中排名第三。基于 FFM 的注意力神经网络的平均值。在最终提交中,我们使用了 13 个这样的网络。但是这些网络只是在它们的随机种子上有所不同。 5 个这样的网络将给出几乎相同的结果。Lookalike 相似人群拓展

ttvand/Santander-Product-Recommendation Kaggle 竞赛第二名解决方案 - Santander 产品推荐

Travisgogogo/BAAI-ZHIHU-2019 Top3 高效地将用户新提出的问题邀请其他用户进行解答,以及挖掘用户有能力且感兴趣的问题进行邀请下发,优化邀请回答的准确率,提高问题解答率以及回答生产数。

LogicJake/tuling-video-click-top3 图灵联邦视频点击预测大赛线上第三

PPshrimpGo/BDCI2018-ChinauUicom-1st-solution CCF BDCI 2018的面向电信领域的个性化套餐匹配第一名解决方案

hydantess/TianChi_zhilianzhaopin: 智联招聘人岗智能匹配 根据智联招聘抽样的经过脱敏的求职者标签数据、职位信息、及部分求职者行为信息、用人单位反馈信息,训练排序模型,对求职者的职位候选集进行排序,尽可能使得双端都满意的职位(求职者满意以及用人单位满意)优先推荐。

RainFung/Tianchi-AntaiCup-International-E-commerce-Artificial-Intelligence-Challenge 天池-安泰杯跨境电商智能算法大赛 冠军。 通过海量数据挖掘用户下一个可能交互商品,选手们可以提交预测的TOP30商品列表,排序越靠前命中得分越高。

fuxiAIlab/RL4RS 基于强化学习的推荐系统的真实世界基准

NVIDIA-Merlin/competitions 推荐系统竞赛的解决方案 RecSys2019_Challenge, RecSys2020_Challenge,RecSys2021_Challenge,SIGIR_eCommerce_Challenge_2021,WSDM_WebTour2021_Challenge

rosetta-ai/rosetta_recsys2019 RosettaAI 团队在 2019 年 ACM Recsys 挑战赛中获得第四名的解决方案

kupuSs/CIKM-CUP-2019-track2-rank10 CIKM 2019 E-Commerce AI Challenge - 超大规模推荐之用户兴趣高效检索

miziha-zp/KDD2020_mutilmodalities top8 KDD Cup 2020 Challenges for Modern E-Commerce Platform: Multimodalities Recall

steven95421/KDD_WinnieTheBest KDD Cup 2020 现代电商平台挑战:Multi-modalities Recall 第一名。数据来自移动电商平台的真实场景多模态数据。数据集由搜索查询和产品图像特征组成,是一个基于查询的多模式检索任务。实现了根据候选产品的图像特征对它们的集合进行排名。这些查询中的大多数是搜索具有特定特征的产品的名词短语。候选商品图片由卖家提供的照片,通过黑盒功能转化为2048维特征。与查询最相关的候选产品被视为查询的基本事实。

aister2020/KDDCUP_2020_Debiasing_1st_Place 去偏Debiasing中获得第一名。侧重于暴露的复杂性,即如何推荐过去很少暴露的项目,以对抗推荐系统中经常遇到的马太效应。特别是,在对点击数据进行训练时减少偏差对于此任务的成功至关重要。就像现代推荐系统中记录的点击数据和实际在线环境之间存在差距一样,训练数据和测试数据之间也会存在差距,主要是在趋势和项目的流行度方面。

RUCAIBox/FMLP-Rec 堆叠多个过滤器增强块以生成用于推荐的顺序用户偏好的表示。我们的方法与 SASRec 的主要区别在于用一种新颖的过滤器结构(傅里叶变换MLP)替换了 Transformer 中的多头自注意力结构。

RUCAIBox/NCL 通过邻域丰富的对比学习改进图协同过滤。

alibaba/HybridBackend 用于在异构集群上训练广泛和深度推荐系统的高性能框架

CAN-Paper/Co-Action-Network CAN的实现:重新审视点击率预测的特征协同作用

tsinghua-fib-lab/CLSR 解开推荐的长期和短期利益

easezyc/Multitask-Recommendation-Library 提供了多任务推荐模型和通用数据集的 PyTorch 实现。

awarebayes/RecNN 围绕 pytorch构建的强化学习推荐工具包

Tencent/embedx 基于 c++ 开发的、完全自研的分布式 embedding 训练和推理框架。它目前支持 图模型、深度排序、召回模型和图与排序、图与召回的联合训练模型等

bytedance/LargeBatchCTR 基于 DeepCTR 和 CowClip 的 CTR 模型的大批量训练。

xiangwang1223/disentangled_graph_collaborative_filtering 解缠结图协同过滤 一个可解释的推荐框架,它配备了 (1) 胶囊网络的动态路由机制,以细化意图感知图中用户-项目交互的强度,(2) 图的嵌入传播机制神经网络,从高阶连通性中提取相关信息,以及(3)独立建模的距离相关性,以确保意图之间的独立性。因此,我们明确地解开了用户在表示学习中的隐藏意图。

gusye1234/LightGCN-PyTorch 旨在简化 GCN 的设计,使其更简洁,更适合推荐。提出了名为 LightGCN 的新模型,仅包含 GCN 中最重要的组件—邻域聚合—用于协同过滤

muhanzhang/IGMC 基于图神经网络的归纳矩阵补全模型,不使用任何边信息。 传统的矩阵分解方法将(评级)矩阵分解为行(用户)和列(项目)的低维潜在嵌入的乘积,这是转导的,因为学习的嵌入不能推广到看不见的新矩阵。为了使矩阵完成归纳,必须事先使用内容(辅助信息),如年龄或电影的类型。然而,高质量内容并不总是可用,而且很难提取。IGMC 通过训练一个GNN来实现,该网络完全基于从评分矩阵形成的二分图中提取的(用户、项目)对周围的局部子图,并将子图映射到其相应的评分。它不依赖于特定评分矩阵或任务的任何全局信息,也不学习特定于观察到的用户/项目的嵌入。因此,它是一个完全归纳模型,它可泛化到训练时看不见的用户/项目(假设交互存在),甚至可以迁移到新任务,从 MovieLens训练出来的模型可以直接用于预测豆瓣电影评分,并且效果出奇的好。

jennyzhang0215/STAR-GCN 用于推荐系统的堆叠和重构图卷积网络

wenqifan03/GraphRec-WWW19 用于社交推荐的图神经网络

PeiJieSun/diffnet 基于图神经网络的社交推荐模型。SIGIR2019。

hwwang55/KGCN 用于推荐系统的知识图卷积网络,它使用图卷积网络(GCN)技术来处理知识图谱以达到推荐的目的。

huangtinglin/Knowledge_Graph_based_Intent_Network 与推荐知识图交互背后的学习意图,WWW2021

amzn/pecos 巨大和相关空间的预测 。用于对具有大输出空间的问题进行快速学习和推理,例如极端多标签排序 (XMR) 和大规模检索。

summmeer/session-based-news-recommendation 通过利用不同类型的隐式反馈,我们减轻了精度和多样性与冷启动问题之间的权衡,这对于实际应用是有效的。命名为 TCAR(时间和内容感知推荐系统)

ahmedrashed-ml/CARCA 通过交叉注意的上下文和属性感知顺序推荐,RecSys 2022

Coder-Yu/SELFRec 一个用于自我监督推荐 (SSR) 的 Python 框架,它集成了常用的数据集和指标,并实现了许多最先进的 SSR 模型。 SELFRec 具有轻量级架构并提供用户友好的界面。 它可以促进模型的实施和评估。

机器视觉

人像\姿势\3D人脸

deepinsight/insightface 最先进的2D和3D人脸分析项目 人脸识别\检测\对齐

yoyo-nb/Thin-Plate-Spline-Motion-Model 用于图像动画的薄板样条运动模型 人脸、人物动作姿势模拟

AliaksandrSiarohin/first-order-model 图像动画的一阶运动模型,实现静态图像到动态图像的转换.人脸、人物动作姿势模拟

minivision-ai/photo2cartoon 人像卡通化探索项目

davidsandberg/facenet 使用 TensorFlow 进行人脸识别

serengil/deepface 轻量级人脸识别和人脸属性分析(年龄、性别、情感和种族)库

exadel-inc/CompreFace 领先的免费开源人脸识别系统

tencent-ailab/hifi3dfaceRGB-D 的高保真3D 数字人类创建

iPERDance/iPERCore 处理人体图像合成任务。其中包括人体运动模仿、外观转换和新视角合成等。并且,该项目的代码、数据集已开源。

anandpawara/Real_Time_Image_Animation 实时图像动画,使原图的人像与新图上的人脸动作一致。

GuyTevet/motion-diffusion-model 人体运动扩散模型的PyTorch官方实现

FACEGOOD-Audio2Face 将音频转换为混合形状权重,并在 UE 中驱动数字人小美。

facebookresearch/pifuhd 使用AI从2D图像生成人的3D高分辨率重建

open-mmlab/mmskeleton 用于人体姿势估计,基于骨骼的动作识别和动作合成。

thepowerfuldeez/facemesh.pytorch 单目实时人脸表面3D点云提取

anibali/margipose 基于2D边缘热图的3D人体姿态估计

wmcnally/evopose2d 神经架构搜索推动2D姿态识别边界

hellojialee/OffsetGuided Bottom-up人体姿态估计最优网络,多人关键点坐标的编解码方法.

ziwei-zh/CorrPM 关联人体边缘,人体姿态解析.研究了人的语义边界和关键点位置如何共同改善人的部件解析性能。

SangbumChoi/MobileHumanPose 在移动设备中实现实时 3D 人体姿态估计,PyTorch。

jby1993/SelfReconCode 从单目视频自我重建你的数字化身

ibaiGorordo/ONNX-Mobile-Human-Pose-3D 使用 ONNX 中的移动人体姿势模型执行 3D 人体姿势估计的 Python 脚本。

CMU-Perceptual-Computing-Lab/openpose 用于身体、面部、手和脚估计的实时多人关键点检测库。

wzmsltw/PaintTransformer Paint Transformer:具有笔画预测的前馈神经绘画网络。预测图片如何用画笔画出。

cleardusk/3DDFA_V2 Towards Fast 的官方 PyTorch 实现,准确稳定的3D密集人脸对齐,ECCV 2020。预测出图片人脸的3D结构。

PeterL1n/RobustVideoMatting 可在任意视频上做实时高清人物抠像.

changgyhub/deepsketch2face 用于 3D 面部和漫画建模的基于深度学习的草图系统。

YadiraF/DECA 详细的表情捕捉和动画(SIGGRAPH 2021).从单个输入图像重建具有详细面部几何形状的 3D 头部模型。生成的 3D 头部模型可以轻松制作动画。

sicxu/Deep3DFaceRecon_pytorch 具有弱监督学习的准确 3D 人脸重建:从单张图像到图像集 (CVPRW 2019)。PyTorch 实现。

xierc/Semi_Human_Pose 半监督二维人体姿态估计中折叠问题的实证研究。

DrMahdiRezaei/DeepSOCIAL DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。

shliang0603/Yolov4_DeepSocial DeepSOCIAL:COVID-19 大流行中的社会人物距离监测和感染风险评估。

Mukosame/Anime2Sketch 动画/插图的草图提取器。

google/mediapipe 适用于直播和流媒体的跨平台、可定制的 ML 解决方案。包括:人脸检测、面网、虹膜手、姿势、整体姿势、人脸检测、头发分割、物体检测、箱子追踪、即时运动追踪、日常物体的实时 3D 物体检测、关键点神经不变特征变换。

minivision-ai/photo2cartoon 人像卡通化探索项目

MobileStyleGAN.pytorch 用于高保真图像合成的轻量级卷积神经网络

TencentARC/GFPGAN GFPGAN 旨在开发用于真实世界面部恢复的实用算法。

人脸识别常用开源数据集大全 哥伦比亚大学公众人物脸部数据、CelebA、美国国防部、MTFL、BioID、PersonID人脸识别数据集、CMU PIE人脸库、Youtube视频人脸、CASIA 人脸图像、Caltech人脸数据库

sallymmx/ActionCLIP 视频动作识别的新范式

IGLICT/DeepFaceDrawing-Jittor 从草图中深度生成人脸图像

RameenAbdal/StyleFlow 使用条件连续归一化流对 StyleGAN 生成的面部图像进行属性条件探索

kennymckormick/pyskl 用于基于骨架的动作识别的工具箱。

nenadmarkus/pico 对标准 Viola-Jones 方法的修改。基本思想是在所有合理的位置和尺度上用级联的二元分类器扫描图像。如果图像区域成功通过级联的所有成员,则将其分类为感兴趣对象。每个二元分类器由一组决策树组成,其中像素强度比较作为其内部节点中的二元测试。这使检测器能够以非常高的速度处理图像区域。

YuliangXiu/ICON 从图片法线获得的隐式穿衣人类的3D姿态(CVPR 2022)

DirtyHarryLYL/Activity2Vec 基于HAKE数据的通用人类活动特征提取器和人体PaSta(部分状态)检测器。它的工作原理类似于 ImageNet/COCO 预训练的主干,旨在为下游任务(如 VQA、字幕、聚类等)提取多模态活动表示。

fengq1a0/FOF 学习傅里叶占有场(Fourier Occupancy Fields)用于单目实时人体重建

图像恢复

microsoft/Bringing-Old-Photos-Back-to-Life 旧照片修复

Sanster/lama-cleaner 由 SOTA AI 模型提供支持的图像修复工具。 从你的照片中删除任何不需要的物体、缺陷、人物或擦除和替换(由稳定扩散驱动)你照片上的任何东西。

TaoWangzj/Awesome-Face-Restoration 深层面部修复资源的完整列表 去噪、超分辨率、去模糊和去除伪影

xinntao/Real-ESRGAN 旨在开发通用图像恢复的实用算法。

zhangmozhe/Deep-Exemplar-based-Video-Colorization 基于深层范例的视频着色,着色时间的连贯性与稳定性

JingyunLiang/SwinIR 使用 Swin Transformer 的图像恢复,图像SR\图像去噪\伪影减少

yangxy/GPEN 用于脸部高清增强,还能将黑白人物照转成彩色照片。GPEN模型明显优于其他的修复人脸的GAN模型。

bilibili/ailab 使用百万级动漫数据进行训练的,结构与Waifu2x兼容的通用动漫图像超分辨率模型。它支持2x\3x\4x倍超分辨率,其中2倍模型支持4种降噪强度与保守修复,3倍/4倍模型支持2种降噪强度与保守修复。

nagadomi/waifu2x 动漫风格艺术的图像超分辨率

光学字符识别OCR

ouyanghuiyu/chineseocr_lite 超轻量级中文ocr

JiaquanYe/TableMASTER-mmocr 将表格内容识别任务分为四个子任务:表格结构识别、文本行检测、文本行识别和框分配。 基于 MASTER,我们提出了一种新颖的表结构识别架构,我们称之为 TableMASTER。

breezedeus/cnocr cnocr

JiaquanYe/MASTER-mmocr 本项目是 MMOCR 对 MASTER: Multi-Aspect Non-local Network for Scene Text Recognition (场景文本识别)的重新实现。

PaddlePaddle/PaddleOCR 很棒的基于PaddlePaddle的多语言OCR工具包(实用的超轻量级OCR系统,支持80+语言识别,提供数据标注和合成工具,支持服务器、移动、嵌入式和物联网设备之间的训练和部署)

FudanVI/benchmarking-chinese-text-recognition 该存储库包含用于对中文文本识别进行基准测试的数据集和基线。收集公开可用的场景数据集,包括RCTWReCTSLSVTArTCTW ,得到 636,455 个样本,这些样本被随机打乱,然后按 8:1:1 的比例划分,以构建训练、验证和测试数据集。六种具有代表性的方法作为基线:

  • CRNN是典型的基于 CTC 的方法,在学术界和工业界得到广泛应用。它首先将文本图像发送到 CNN 以提取图像特征,然后采用两层 LSTM 对序列特征进行编码。最后,LSTM 的输出被馈送到 CTC解码器,以最大化所有路径通往基本事实的概率。

  • ASTER 是典型的基于校正的方法,旨在处理不规则的文本图像。引入了空间变换器网络 (STN),将给定的文本图像纠正为易于识别的外观。然后将校正后的文本图像发送到 CNN 和两层 LSTM 提取特征。ASTER 利用注意力机制来预测最终的文本序列。

  • MORAN 是基于整流的方法。它首先采用多对象校正网络(MORN)以弱监督方式预测校正后的像素偏移(与利用 STN 的 ASTER 不同)。输出像素偏移进一步用于生成校正后的图像,该图像进一步发送到基于注意力的解码器(ASRN)进行文本识别。

  • SAR 利用二维特征图进行更稳健的解码。特别是,它主要是针对不规则文本提出的。一方面,SAR 在 CNN 编码器中采用更强大的残差块来学习更强的图像表示。另一方面,与 CRNN、ASTER 和 MORAN 将给定图像压缩成一维特征图不同,SAR 对特征图的空间维度采用二维注意力进行解码,从而在弯曲和斜体文字。

  • SEED是基于语义的方法。它引入了一个语义模块来提取全局语义嵌入并利用它来初始化解码器的第一个隐藏状态。SEED的解码器在继承ASTER结构的同时,吸收语义嵌入为识别过程提供先验,从而在识别低质量文本图像方面表现出优越性。

  • TransOCR 是基于 Transformer 的方法之一。它最初旨在为超分辨率任务提供文本先验。它使用 ResNet-34 作为编码器,使用自注意力模块作为解码器。与基于 RNN 的解码器不同,自注意力模块更有效地捕获给定文本图像的语义特征。

adeline-cs/GTR 场景文字识别 现有的场景文本识别(STR)方法通常使用语言模型来优化视觉识别(VR)模型预测的一维字符序列的联合概率,忽略字符实例内部和之间的视觉语义的二维空间上下文,使它们不能很好地推广到任意形状的场景文本。为了解决这个问题,本文中首次尝试基于视觉语义进行文本推理。给定 VR 模型预测的字符分割图,为每个实例构建子图,节点表示其中的像素,根据它们的空间相似性在节点之间添加边。然后,子图通过根节点顺序连接成一个完整的图。

Layout-Parser/layout-parser 基于深度学习的文档图像分析的统一工具包,旨在简化文档图像分析 (DIA) 任务。

phamquiluan/PubLayNet PubLayNet数据集上的MaskRCNN。段落检测、表格检测、图形检测... 个大型文档图像数据集,其布局使用边界框和多边形分割进行标注。

JaidedAI/EasyOCR 即用型 OCR,支持 80 多种语言和所有流行的书写脚本,包括拉丁文、中文、阿拉伯文、天城文、西里尔文等。

视频补帧

hzwer/arXiv2020-RIFE 视频帧插值的实时中级流量估计.旷视和北大提出的一种实时中间流估计算法。用于视频帧插值,能够改善伪影、让视频更丝滑。

Justin62628/Squirrel-RIFE 基于RIFE算法的中文补帧软件.

baowenbo/DAIN DAIN(深度感知视频帧插值)可以把30fps的进一步插帧到480fps。

nihui/dain-ncnn-vulkan DAIN 的 ncnn 实现,深度感知视频帧插值。dain-ncnn-vulkan 使用 ncnn 项目作为通用神经网络推理框架。

nihui/rife-ncnn-vulkan RIFE,视频帧插值的实时中级流量估计与 ncnn 库一起实现

myungsub/CAIN 视频帧插值只需要频道注意力

nihui/cain-ncnn-vulkan CAIN,使用 ncnn 库实现的视频帧插值只需要频道注意力

对象检测、分割

facebookresearch/segment-anything Segment Anything Model从输入提示(如点或框)生成高质量的对象遮罩,并且可用于为图像中的所有对象生成遮罩。它已经在1100万张图像和11亿个掩码的数据集上进行了训练,并且在各种分割任务上具有强大的零样本性能。

open-mmlab/mmdetection OpenMMLab基于PyTorch的开源对象检测工具箱

microsoft/Swin-Transformer 基于Masked Image Modeling的预训练方法,适用于 Swin 和 SwinV2(也适用于 ViT 和 ResNet)。它可以作为计算机视觉的通用主干。它基本上是一个分层变换器,其表示是用移位窗口计算的。移位窗口方案通过将 self-attention 计算限制在不重叠的本地窗口上,同时还允许跨窗口连接,从而带来更高的效率。将 CLIP 预训练的 ViT-L 提高了 +1.6%,以达到ImageNet-1K 图像分类,这是最准确的 ViT-L 模型。在 COCO 对象检测(58.7 box AP和51.1 mask APtest-dev)和 ADE20K 语义分割(53.5 mIoU在 val)上实现了强大的性能,大大超过了以前的模型。

google-research/kubric 一个数据生成管道,用于创建具有丰富注释的半真实合成多对象视频,例如实例分割掩码、深度图和光流。

megvii-model/YOLOF 一个没有FPN的简单、快速、高效的目标检测器。

JosephKJ/OWOD (CVPR 2021 Oral) 开放世界目标检测.引入了强大的评估协议并提供了一种新颖的解决方案,我们称之为 ORE:开放世界对象检测器,基于对比聚类和基于能量的未知识别。

RangiLyu/nanodet 超快速和轻量级的无锚物体检测模型。 仅 980 KB(int8) / 1.8MB (fp16) 并在手机上运行 97FPS.

jizhishutong/YOLOU 收集更多关于YOLO系列的算法,让小伙伴们更好的学习物体检测的知识。同时,为了更好的应用AI技术,YOLOU也将加入相应的Deploy技术,加速我们所学算法的落地,实现价值。

ultralytics/yolov5 在 COCO 数据集上预训练的对象检测模型,代表 Ultralytics 对未来视觉 AI 方法的开源研究,结合了数千小时的研究和经验教训和最佳实践。

meituan/YOLOv6 专用于工业应用的单阶段目标检测框架。

iscyy/yoloair 基于PyTorch的YOLO算法库。统一模型代码框架、统一应用、统一改进、易于模块组合、构建更强大的网络模型。

PaddlePaddle/PaddleClas 飞桨图像识别套件 PaddleClas 是飞桨为工业界和学院所准备的一个图像任务的工具集,桌面和用户训练出更好的图像分类和应用落地。PaddleClas 前沿分类、识别相关支持算法,发布行业级特色骨算法PP-HGNet、PP-LCNetv2、PP-LCNet和SSLD 半监督干式网络知识模型等模型,在此基础上打造PULC 超轻量级分类分类方案和PP-ShiTu图像识别系统。

Hawkeye-FineGrained/Hawkeye 基于开源深度学习的细粒度图像识别工具箱构建于PyTorch。基于深度滤波器:S3N (ICCV 2019) Interp-Parts (CVPR 2020) ProtoTree (CVPR 2021)。基于注意力机制:OSME+MAMC (ECCV 2018) MGE-CNN (ICCV 2019) APCNN (IEEE TIP 2021) 。基于高阶特征交互: BCNN (ICCV 2015) CBCNN (CVPR 2016) Fast MPN-COV (CVPR 2018) 。基于特殊损失函数: Pairwise Confusion (ECCV 2018) API-Net (AAAI 2020) CIN (AAAI 2020) 。基于网络数据: Peer-Learning (ICCV 2021) 其他方法 NTS-Net (ECCV 2018) CrossX (ICCV 2019) DCL (CVPR 2019)。

lucidrains/vit-pytorch 在 Pytorch 中实现 Vision Transformer,一种仅使用单个 Transformer 编码器即可在视觉分类中实现 SOTA 的简单方法

alibaba/EasyCV 基于Pytorch的计算机视觉工具,聚焦自监督学习和视觉transformer关键技术,覆盖主流的视觉建模任务例如图像分类,度量学习,目标检测,关键点检测等。

ibm-aur-nlp/PubLayNet 大型文档图像数据集,其布局用边界框和多边形分割进行了注释。 文件来源是 PubMed Central Open Access Subset(商业用途合集)。 注释是通过匹配 PubMed Central Open Access 子集中文章的 PDF 格式和 XML 格式自动生成的。

zongdai/AutoShape ICCV2021 论文:AutoShape:实时形状感知单目 3D 对象检测

facebookresearch/detectron2 用于对象检测、分割和其他视觉识别任务的下一代平台。

cfzd/Ultra-Fast-Lane-Detection 论文“超快速结构感知深度车道检测”的实现

RangiLyu/nanodet NanoDet:轻量级1.8MB、超快速(移动端97fps)目标检测项目

Megvii-BaseDetection/YOLOX 高性能目标检测器YOLOX。并将YOLO检测器切换到anchor-free的方式,并结合其他先进的检测技术,如decouple head和标签分配策略SimOTA,实现了当前目标检测最优性能。

yuantn/MI-AOD 用于目标检测的多示例主动学习方法, 提出多示例主动目标检测MI-AOD,通过观察示例级的不确定性来选择信息量最大的图像用于检测器的训练。

microsoft/SoftTeacher ICCV2021 使用软教师进行端到端的半监督目标检测

raoyongming/DenseCLIP DenseCLIP:具有上下文感知提示的语言引导密集预测

dddzg/up-detr 使用 Transformers 进行目标检测的无监督预训练

Megvii-BaseDetection/DeFCN 全卷积网络的端到端目标检测

HRNet/HRFormer 高分辨率变换器(HRFormer),它学习用于密集预测任务的高分辨率表示,而原始的视觉变换器产生低分辨率表示并且具有高内存和计算成本。

Sense-X/UniFormer 统一卷积和自注意的视觉识别统一变压器,实现高效的时空表示学习 可用于: 图像分类、 视频分类、 物体检测、 语义分割、 姿势估计

bytedance/ibot 自我监督预训练框架,通过自蒸馏执行蒙版图像建模。iBOT 显示了局部语义特征,有助于模型在全局范围和局部范围内很好地转移到下游任务。iBOT在 COCO 对象检测和 ADE20K 语义分割上实现了强大的性能。

hkchengrex/XMem [ECCV 2022]使用 Atkinson-Shiffrin 模型进行长期视频对象分割

ytongbai/ViTs-vs-CNNs 变形金刚比 CNN 更强大吗 在测量对抗鲁棒性时,Transformers 胜过 CNN。CNN 在防御对抗性攻击方面很容易像 Transformers 一样强大,如果它们正确采用 Transformers 的训练方法的话。虽然关于分布外样本的泛化,我们表明在(外部)大规模数据集上进行预训练并不是使 Transformer 能够获得比 CNN 更好的性能的基本要求。此外,我们的消融表明,这种更强的泛化在很大程度上得益于 Transformer 本身的类似自我注意的架构,而不是其他训练设置。我们希望这项工作可以帮助社区更好地理解和衡量 Transformer 和 CNN 的鲁棒性。

open-mmlab/mmrotate 基于 PyTorch 的旋转框检测的开源工具箱

MediaBrain-SJTU/RegAD 基于注册的少样本异常检测”(RegAD) 的官方实现

NVlabs/MinVIS 无需基于视频的培训的最小视频实例分割框架

AlexeyAB/darknet 用于对象检测的神经网络 YOLOv4 / Scaled-YOLOv4 / YOLO

ttengwang/Caption-Anything 一款结合了图像分割、视觉字幕和 ChatGPT 的多功能工具,可根据用户偏好生成具有不同控件的定制字幕。

图像风格

mchong6/GANsNRoses 多样化的 im2im 和 vid2vid 自拍到动漫转换。从人脸面部图像映射动漫风格图像。

williamyang1991/VToonify SIGGRAPH Asia 2022 可控高分辨率人像视频风格迁移

mchong6/JoJoGAN JoJoGAN 的官方 PyTorch 存储库:One Shot Face Stylization 人脸风格化

orpatashnik/StyleCLIP 文本驱动的StyleGAN风格生成图像处理

syz825211943/Multi-Style-Photo-Cartoonization 多风格照片卡通化

bryandlee/animegan2-pytorch AnimeGANv2 的 PyTorch 实现 基于 CartoonGAN 的改进,并提出了一个更加轻量级的动漫风格效果生成器架构.

TachibanaYoshino/AnimeGANv2 AnimeGAN 的改进版本。风景照片/视频到动漫风格

PaddlePaddle/PaddleGAN 飞桨生成对抗网络开发套件--PaddleGAN,为开发者提供经典及前沿的生成对抗网络高性能实现,并支撑开发者快速构建、训练及部署生成对抗网络,以供学术、娱乐及产业应用。包括:人脸属性编辑之年龄变换 一键实现变老变年轻;视频超分SOTA算法PP-MSVSR;StyleGAN V2人脸属性编辑之性别转换;LapStyle风格迁移;人脸融合能力,结合新版Frirst Order Motion,实现人脸完美融合并带有丰富表情;真实照片转油画风格;人脸融合、风格迁移、老视频修复、人脸动作迁移、超分辨率、妆容迁移、人脸动漫化、写实人像卡通化、照片动漫化、唇形同步

SHI-Labs/Versatile-Diffusion 多功能扩散:文本、图像和变体合二为一的扩散模型,可以原生支持图像到文本、图像变体、文本到图像和文本变体,并且可以进一步扩展到其他应用,例如语义式解缠、图像-文本双引导生成、潜在图像到文本到图像编辑等。

FrozenBurning/Text2Light 零样本的文本驱动的HDR全景图生成

其他_机器视觉

taichi-dev/taichi 高效且可移植的 Python 高性能编程。该语言具有广泛的应用,包括实时物理模拟、数字计算、增强现实、人工智能、视觉和机器人技术、电影和游戏中的视觉效果、通用计算等等。

open-mmlab/mmcv MMCV 是计算机视觉研究的基础库,它提供以下功能:通用 IO API、图像/视频处理、图像和注释可视化、有用的实用程序(进度条,计时器,...)、具有挂钩机制的 PyTorch runner、各种CNN架构、CPU 和 CUDA 操作的高质量实现。

ArduPilot/ardupilot 最先进、功能最全、最可靠的开源自动驾驶软件。自 2010 年以来,它一直由专业工程师、计算机科学家和社区贡献者组成的多元化团队开发。我们的自动驾驶软件能够控制几乎任何可以想象的车辆系统,从传统飞机、四架飞机、多旋翼和直升机到漫游车、船只、平衡机器人,甚至潜艇。它正在不断扩展,为新的车辆类型提供支持。

Stability-AI/stablediffusion 具有潜在扩散模型的高分辨率图像合成

borisdayma/dalle-mini DALL·E Mini - 从文本提示生成图像

OpenAI/CLIP 对比语言图像预训练

yangjianxin1/CLIP-Chinese 中文多模态对比学习预训练模型 ,可获取140w中文图文对预训练数据,以及中文CLIP预训练权重。下游任务:图文相似度计算、文本相似度计算、图片相似度计算

OFA-Sys/OFA 统一的序列到序列预训练模型(支持英文和中文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO 排行榜第一) ), VQA (链接),视觉基础,文本到图像生成,文本分类,文本生成,图像分类等。

alicevision/meshroom 3D 重建软件,一款基于 AliceVision 摄影测量计算机视觉框架的免费开源 3D 重建软件。

silverriver/MMChat 大规模的对话数据集,其中包含以图像为基础的中文对话。 MMChat 中的每个对话都与一个或多个图像相关联(每个对话最多 9 张图像)。 我们设计了各种策略来确保 MMChat 中对话的质量。 数据集中的图像托管在微博的静态图像服务器上。

KaiyangZhou/CoOp 通过快速学习将CLIP等视觉语言模型适应下游数据集

j-min/VL-T5 通过文本生成统一视觉和语言任务

OFA-Sys/OFA 统一的序列到序列预训练模型(支持英文和中文),它统一了模态(即跨模态、视觉、语言)和任务(支持微调和提示调优):图像字幕(MSCOCO排行榜第一)、VQA(链接)、视觉基础、文本图像生成、文本分类生成、图像分类等。

HuiGuanLab/ms-sl 基于传统的跨模态文本-视频检索(Video-to-Text Retrieval, T2VR)任务,提出了部分相关的视频检索(Partially Relevant Video Retrieval, PRVR)。PRVR 旨在从大量未剪辑的长视频中检索出与查询文本部分相关的对应视频。作者设计了多尺度多示例模型,该模型分别对视频进行片段尺度和帧尺度的特征表示,并引入了以关键片段为向导的注意力聚合方法,模型整体以从粗到细的方式学习文本-视频间的相似度关系。该模型也可用于提高视频库片段检索(Video Corpus Moment Retrieval,VCMR)模型的性能。

facebookresearch/AugLy 用于音频、图像、文本和视频的数据增强库。

xxxnell/how-do-vits-work “视觉转换器如何工作?(ICLR 2022 )”的 PyTorch 实现。CV的多头自注意力 (MSA) 的成功并不在于弱归纳偏差以及捕获远程依赖项。 MSA 不仅是广义的 Convs,而是补充 Convs 的广义空间平滑。特别是,MSA 通过拉平损失情况来改进 NN。一个关键特征是它的数据特异性(数据依赖性),而不是远程依赖性。另一方面,ViTs 遭受非凸损失。MSA 和 Convs 表现出相反的行为,MSA 是低通滤波器,而 Convs 是高通滤波器。MSA 是形状偏向的,而 Convs 是纹理偏向的。因此,MSAs 和 Convs 是互补的。阶段末尾的 MSA(不是模型)显着提高了准确性。我们通过用 MSA 替换阶段结束时的 Convs 来引入 AlterNet。 AlterNet 在大小数据领域都优于 CNN。

salesforce/LAVIS 用于语言和视觉智能研究和应用的 Python 深度学习库。 该库旨在为工程师和研究人员提供一站式解决方案,以针对其特定的多模式场景快速开发模型,并跨标准和定制数据集对它们进行基准测试。 它具有统一的界面设计以访问:10 多个任务(检索、字幕、视觉问答、多模态分类等);20 多个数据集(COCO、Flickr、Nocaps、Conceptual Commons、SBU 等);30 多个最先进的基础语言视觉模型的预训练权重及其特定于任务的改编,包括 ALBEF、BLIP、ALPRO、CLIP。

willard-yuan/awesome-cbir-papers 经典图像检索论文合集

lucidrains/imagen-pytorch 在 Pytorch 中实现谷歌的文本到图像神经网络 Imagen ,谷歌的文本到图像神经网络,击败了 DALL-E2。 它是文本到图像合成的新 SOTA。在架构上上比 DALL-E2 简单得多。 它由一个级联 DDPM 组成,该 DDPM 以来自大型预训练 T5 模型(注意网络)的文本嵌入为条件。 它还包含用于改进分类器自由引导、噪声级调节和内存高效 unet 设计的动态裁剪。

divamgupta/stable-diffusion-tensorflow Stable Diffusion 稳定扩散的 Keras Tensorflow 实现。

LuChengTHU/dpm-solver 用于扩散概率模型采样的快速 ODE 求解器。DPM-Solver 适用于离散时间和连续时间扩散模型,无需任何进一步训练。 实验结果表明,仅需对各种数据集进行 10 到 20 次函数评估即可生成高质量样本。

jina-ai/clip-as-service 一种用于嵌入图像和文本的低延迟、高可伸缩性的服务。它可以作为一个微服务轻松集成到神经搜索解决方案中。有四种基本的视觉推理技能:对象识别、对象计数、颜色识别和空间关系理解。文本到图像跨模态搜索。

hua1995116/awesome-ai-painting AI绘画资料合集(包含国内外可使用平台、使用教程、参数教程、部署教程、业界新闻等等)

lllyasviel/style2paints 草图 + 风格 = 绘画

realtime-semantic-segmentation 用TF.js实施RefineNet以在浏览器中执行实时实例分割

extreme-assistant/CVPR2021-Paper-Code-Interpretation cvpr2021 cvpr2020 cvpr2019 cvpr2018 cvpr2017 论文/代码/解读/直播合集,极市团队整理

LeonLok/Multi-Camera-Live-Object-Tracking 多摄像头实时目标跟踪和计数,使用YOLOv4,Deep SORT和Flask

kornia/kornia 基于 PyTorch 的可微分(differentiable)的计算机视觉开源库, 实现了:可微的基础计算机视觉算子、可微的数据增广。OpenCV 和 PIL 都是不可微的,所以这些处理都只可以作为图像的预处理而无法通过观察梯度的变化来对这些算子进行优化 (gradient-based optimization),因此Kornia 便应运而生。

architras/Advanced_Lane_Lines 基于阈值的车道标记

facebookresearch/pytorch3d 基于PyTorch将深度学习与3D进行结合的研究框架。

facebookresearch/pytorchvideo 为视频理解研究打造的深度学习库。

rwightman/pytorch-image-models PyTorch图像类模型库,包括:ResNet, ResNeXT, EfficientNet, EfficientNetV2, NFNet, Vision Transformer, MixNet, MobileNet-V3/V2, RegNet, DPN, CSPNet

Thinklab-SJTU/ThinkMatch 深度图匹配算法 图形匹配(GM)是计算机视觉,模式识别和数据挖掘中一个基本但具有挑战性的问题。GM旨在通过解决称为二次分配问题(QAP)的NP硬组合问题来找到多个图之间的节点到节点对应关系。应用:桥接电影和简介、图像对应、分子匹配

google-research/vision_transformer 视觉Transformer和 MLP-混合器架构,Transformer应用于视觉,纯多层感知机视觉架构。

https://github.com/China-UK-ZSL/ZS-F-VQA 一种适用于零样本视觉问答(ZS-VQA)的基于知识图谱的掩码机制,更好结合外部知识的同时,缓解了误差传播对于模型性能的影响。

luost26/diffusion-point-cloud 基于非平衡态热力学的全新三维点云生成模型

PeterWang512/GANSketching 绘制您自己的 GAN:用手绘草图自定义 GAN 模型。

microsoft/AutoML/iRPE 视觉位置编码,在ImageNet和COCO上,与原始版本相比,分别获得了1.5%(top-1 Acc)和1.3%(mAP)的性能提升(无需任何调参)。

shahroudy/NTURGB-D “NTU RGB+D”动作识别数据集、“NTU RGB+D 120”动作识别数据集、“NTU RGB+D”是用于人类动作识别的大规模数据集。“NTU RGB+D 120”是“NTU RGB+D”数据集的扩展版本。

https://github.com/yuhuan-wu/P2T 基于金字塔池化的视觉Transformer,可用于各类下游场景理解任务。

https://github.com/jantic/DeOldify 基于NoGAN技术,保证视频着色的稳定性,例如,视频中的同一件衣服,不至于转换成多种颜色。

https://github.com/junyanz/pytorch-CycleGAN-and-pix2pix 图像到图像的转换

https://github.com/joelibaceta/video-to-ascii 可以使用字符作为像素在终端中播放视频

https://github.com/bytedance/OMGD 用于 GAN 压缩的在线多粒度蒸馏 (ICCV2021)

https://github.com/TorchSSL/TorchSSL 基于 PyTorch 的半监督学习库 (NeurIPS'21)

https://github.com/google-research/mixmatch 集成了自洽正则化的超强半监督学习 MixMatch

google-research/remixmatch 改进了最近提出的MixMatch半监督学习算法,引入了两种新技术:分布对齐和增强锚定。分布对齐鼓励未标记数据预测的分布接近标签的分布。增强锚定为模型提供多个强增强版本的输入,并鼓励每个输出接近同一输入的弱增强版本的预测。

NVlabs/stylegan3 更适合视频和动画的生成模型。

isl-org/DPT 用于密集预测的Transformers,图像语义分割的目标是将图像的每个像素所属类别进行标注。因为是预测图像中的每个像素,这个任务通常被称为密集预测(dense prediction)。

google-research/mint 多模式内容创建模型训练基础设施,包括 FACT 模型(AI Choreographer)实现。带有 AIST++ 的音乐条件 3D 舞蹈生成。

yihongXU/TransCenterTransCenter:用于多对象跟踪的密集查询转换器

ashkamath/mdetr 用于端到端多模态理解的调制检测。输入描述文本及图片,识别出文字描述的对应物体。

erikalu/omnimatte 提取视频中的前、背景。精确蒙版(matte)操作,分离前景背景。

microsoft/SimMIM 用作掩码图像建模的简单框架。通过系统研究,我们发现每个组件的简单设计都显示出非常强的表示学习性能:1)用中等大小的掩码补丁大小(例如,32)对输入图像进行随机掩码,这是一个强大的前置任务;2) 通过直接回归预测 RGB 值的原始像素的性能并不比设计复杂的补丁分类方法差;3)预测头可以像线性层一样轻,性能不比较重的层差。

microsoft/Oscar 跨模态预训练方法Oscar(Object-Semantics Aligned Pre-training)。它利用在图像中检测到的对象标签作为锚点来显着简化图像-文本对齐的学习。在 650 万个文本图像对的公共语料库上对 Oscar 进行预训练,并在下游任务上对其进行微调,在六项成熟的视觉语言理解和生成任务上创造新的最新技术。

xyzforever/BEVT 视频转换器的BERT预训练。BEVT首先对图像数据进行蒙版图像建模,然后对视频数据进行蒙版图像建模和蒙版视频建模。

fengpanhe/MT-ORLPyTorch 实现论文“MT-ORL:多任务遮挡关系学习”(ICCV 2021)

snap-research/CAT 用于压缩"图像到图像模型"CycleGAN Pix2pix的压缩和教学框架.

nikheelpandey/TAUP-PyTorch 任务不可知的无监督预训练。simCLR 论文的粗略实现。 如论文中所述,在对比损失函数上使用 LARS 优化器来训练对比模型。 将此模型用作编码器并添加全连接层以创建分类器。

HobbitLong/SupContrast “监督对比学习”的 PyTorch 实现(顺便提一下 SimCLR)

hustvl/QueryInst Instances as Queries是一种简单有效的基于查询的实例分割方法,由动态掩码头的并行监督驱动,在准确性和速度方面均优于以前的技术。

isl-org/MiDaS 单目深度估计的成功依赖于大量且多样化的数据集。但是由于深度的真实值在不同的环境尺度下获取的,大量数据具有不同的特征和偏差。本文提出了一种对于深度的范围和尺度具有不变性的训练方法,从而可以在训练期间混合多个数据集。因此,本文利用3D电影构建了一个数据集并进行训练,然后在训练期间未见过的数据集上进行评测。实验证明,混合训练来自不同的数据集可以改善深度估计的效果,特别是针对训练时未见过的数据集(zero-shot dataset)。

google-research/deeplab2 用于深度标记的 TensorFlow 库,旨在为密集像素标记任务提供统一且最先进的 TensorFlow 代码库。旨在为密集像素标注任务提供统一的、最先进的 TensorFlow 代码库,包括但不限于语义分割、实例分割、全景分割、深度估计,甚至 视频全景分割。深度标记是指通过深度神经网络为图像中的每个像素分配预测值来解决计算机视觉问题。

YifanXu74/Evo-ViT 腾讯优图提出高性能Transformer加速方法.Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer,能在保证分类准确率损失较小的情况下,大幅提升推理速度,如在ImageNet 1K数据集下,可提升DeiT-S 60%推理速度的同时仅损失0.4%的精度。

researchmm/CKDN 用于退化参考图像质量评估的学习条件知识提炼

phecy/SSL-FEW-SHOT 小样本图像分类的自监督学习

yangle15/RANet-pytorch 提出的分辨率自适应网络 (RANet) 通过利用spatial redundancy输入图像的分辨率来进行自适应推理。我们的动机是低分辨率表示足以对包含具有原型特征的大对象的简单样本进行分类,只有一些困难样本需要空间详细信息。

microsoft/NUWA NÜWA 是一个统一的多模态预训练模型,可以为8个视觉合成任务(文本转图像、模板转图像、图像补全、图像操纵、文本转视频、模板转视频、视频帧预测、视频操纵) 生成新的或操纵现有的视觉数据(即图像和视频)。待开放源码。

lucidrains/nuwa-pytorch 用于文本到视频合成的最先进的注意力网络

yuxie11/R2D2 大规模中文跨模式基准和视觉语言框架

google-research-datasets/conceptual-captions 包含(图像URL、字幕)对的数据集,用于机器学习图像字幕系统的训练和评估。数据集有约330万张图像(CC3M)和1200万张图像(CC12M)两个版本,并通过一个简单的过滤程序从网络自动收集弱相关描述。

ShannonAI/OpenViDial 一个大规模多模态对话数据集.当人类交谈时,说话者接下来会说什么很大程度上取决于他所看到的。OpenViDial 是用于此目的的大型多模块对话数据集。这些对话回合和视觉上下文是从电影和电视剧中提取的,其中每个对话回合都与它发生的相应视觉上下文配对。对于OpenViDial 1.0,共包含 110 万个对话轮次,因此图像中存储了 110 万个视觉上下文。对于OpenViDial 2.0,包含 560 万个对话轮次以及 560 万个存储在图像中的视觉上下文。基于OpenViDial,同时提出了三个模型,以不同的粒度融合视觉信息,预测下一句的对话内容。

Alibaba-MIIL/STAM 受NLP中Transformer成功的启发,我们尝试将一个标准Transformer直接应用到图像上,尽可能少的修改。为此,我们将图像分割成小块,并将这些块转化为线性嵌入序列,作为Transformer的输入。图像块(image patches)就相当于NLP任务中的单词(token)来做处理。并以有监督的方式训练图像分类模型。大规模的训练可以克服归纳偏置(inductive biases)。当ViT在足够规模上进行预先训练,并迁移到较少数据量的任务时,可以获得出色结果。

openai/glide-text2im 基于扩散的文本条件图像合成模型。以文本提示为条件的图像;填充图像的蒙版区域,以文本提示为条件;使用 GLIDE(过滤)+ 过滤噪声感知 CLIP 模型来生成以文本提示为条件的图像。

SysCV/pcan 用于多对象跟踪和分割的原型交叉注意网络

google-research/scenic Scenic:用于计算机视觉研究及其他领域的 Jax 库

CryhanFang/CLIP2Video 基于CLIP (ViT-B/32)的视频文本检索模型,将图像语言预训练模型以端到端的方式转换为视频文本检索。模型包括一个时间差异块来捕捉精细时间视频帧的运动,以及时间对齐块来重新对齐视频剪辑和短语的标记并增强多模态相关性。在主要的文本到视频和视频到文本检索基准上取得了最先进的性能,包括 MSR-VTT、MSVD 和 VATEX 检索准确性的新记录。

ArrowLuo/CLIP4Clip CLIP4Clip 是基于CLIP (ViT-B)的视频文本检索模型。在这项工作中,我们研究了三种相似度计算方法:无参数类型、顺序类型和紧密类型。该模型在 MSR-VTT、MSVC、LSMDC、ActivityNet 和 DiDeMo 上实现了 SOTA 结果。

sail-sg/poolformer PoolFormer:MetaFormer 实际上是您的视觉所需要的。transformer/MLP-like 模型的能力主要源于通用架构 MetaFormer,而不是配备的特定令牌混合器。作者独树一帜提出视觉Transformer及其变种的成功原因主要是架构的设计,并且将token mixer换为了简单的池化获得了相当好的效果。

jonhare/DifferentiableSketching 微分绘图和素描

thuiar/Self-MM 用于多模态情感分析的自监督多任务学习学习模态特定表示中的代码

nuno-faria/tiler Tiler 是一种使用各种其他较小图像(图块)创建图像的工具。它不同于其他马赛克工具,因为它可以适应多种形状和大小的瓷砖(即不限于正方形)。图像可以由圆圈、线条、波浪、十字绣、乐高积木、我的世界积木、回形针、字母等组成…

leandromoreira/ffmpeg-libav-tutorial FFmpeg libav 教程 - 了解媒体如何从基础到转换、转码等工作

Tencent/libpag 动画文件的渲染 SDK,降低或消除动画研发相关的成本,打通设计师创作到素材交付上线的极简流程,不断输出运行时可编辑的高质量动画内容。

salesforce/BLIP 用于 BLIP 的 PyTorch 代码:用于统一视觉语言理解和生成的引导语言图像预训练

VALUE-Leaderboard/StarterCode VALUE 基准测试的入门代码 。用于训练、评估和分析系统以理解视频和字幕的资源集合。

starmemda/CAMoE 通过多流语料库对齐和双 Softmax 损失改进视频文本检索

facebookresearch/SLIP SLIP 自监督代码发布符合语言-图像预训练

yuewang-cuhk/awesome-vision-language-pretraining-papers 视觉和语言预训练模型 (VL-PTM) 的最新进展

zengyan-97/X-VLM 多粒度视觉语言预训练 将文本与视觉概念对齐。

facebookresearch/vilbert-multi-task 12 合 1:多任务视觉和语言表征学习

airsplay/lxmert 从 Transformers 学习跨模态编码器表示

uclanlp/visualbert 视觉和语言的简单且高效的基线 arxiv.org/abs/1908.03557 预训练一个 Transformer,用于处理图像字幕数据的视觉和语言 (V&L) 任务。 无监督 VisualBERT,预训练了没有对齐的图像字幕对的 V&L 转换器。

jackroos/VL-BERT 用于视觉语言任务的简单而强大的可预训练通用表示。它在大规模字幕数据集和纯文本语料库上进行了预训练,可以针对各种下游视觉语言任务进行微调,例如视觉常识推理、视觉问答和参考表达理解。

ChenRocks/UNITER 支持在 NLVR2VQAVCR、 SNLI-VE 、 COCO和 Flickr30k的图像文本检索以及 引用表达式理解(RefCOCO、RefCOCO+ 和 RefCOCO-g)上微调 UNITER。UNITER-base 和 UNITER-large 的预训练检查点均已发布。还可以使用域内数据进行基于 UNITER 的预训练。

ERNIE/ernie-vil 视觉语言任务的知识增强联合表示,第一个引入结构化知识以增强视觉语言预训练的工作。利用从场景图中获得的结构化知识,ERNIE-ViL 构造了三个场景图预测任务,即对象预测、属性预测和关系预测任务。因此,可以学习更好的联合视觉语言表示,表征跨视觉和语言的详细语义的对齐。

Research/NLP/UNIMO UNIfied-MODal 预训练架构,即UNIMO,可以有效地适应单模态和多模态的理解和生成任务。利用大规模的自由文本语料库和图像集合来提高视觉和文本理解能力,并利用跨模态对比学习(CMCL)将文本和视觉信息对齐到图像语料库上的统一语义空间中。用相关图像和文本增强的文本对。在丰富的非配对单模态数据的帮助下,我们的模型能够通过允许文本知识和视觉知识在统一的语义空间中相互增强来学习更多的泛化表示。实验结果表明,大大提高了几个单模态和多模态下游任务的性能。

fairseq/examples/MMPT 用于多模态视频理解的工具包!包含两篇多模态视频理解论文VideoCLIP (EMNLP, 2021) 和VLM (ACL Findings, 2021) 的实现。VideoCLIP 是一种对比学习模型,用于将零样本迁移到检索/分类/序列标记样式任务。VLM 是一种掩码语言模型样式预训练,仅使用一个带有掩码模态模型 (MMM) 的编码器来执行检索/生成/序列标签样式任务。

mczhuge/Kaleido-BERT (CVPR2021) Kaleido-BERT:时尚领域的视觉语言预训练。

linjieli222/HERO # 用于视频+语言全表示预训练的分层编码器 该存储库目前支持在 TVRTVQATVC、 VIOLIN、 DiDeMo和 MSR-VTT Retrieval上微调 HERO 。发布了最好的预训练检查点(在HowTo100MTV数据集上)。还提供了在 TV 数据集上进行 HERO 预训练的代码。

gabeur/mmt 用于视频检索的多模态变压器 提出的多模态转换器 (MMT) 从视频中聚合多模态特征序列(例如外观、运动、音频、OCR 等)。然后,它将聚合的多模式特征嵌入到带有文本的共享空间中以进行检索。它在 MSRVTT、ActivityNet 和 LSMDC 数据集上实现了最先进的性能。

Noah-Wukong Dataset 大规模的多模态中文数据集。数据集包含1 亿个image, text对。数据集中的图像根据大小(两个维度 > 200px)和纵横比(1/3 ~ 3)进行过滤。数据集中的文本根据其语言、长度和频率进行过滤。

lyakaap/ISC21-Descriptor-Track-1st Facebook AI 图像相似度挑战赛 (ISC21) 的第一名解决方案

sun-xl/ISC2021 Facebook AI 组织的图像相似度挑战赛Image Similarity Challenge (ISC) 2021 匹配赛道的第三名解决方案的源代码

zr2021/2021_QQ_AIAC_Tack1_1st QQ浏览器2021多模态视频相似度 第1名 方案

PKU-DAIR/2021_AIAC_Task2_1st QQ浏览器2021多模态视频相似度 第1名 方案

kywen1119/Video_sim 2021年qq浏览器AI算法大赛 多模态视频相似度 第四名

ChasingStar95/AIAC2021_task1_rank6 2021QQ浏览器 多模态视频相似度 rank6

AIAC_qq_browser_2021_task1_rank11 2021年 qq浏览器AI 算法大赛 赛道一 多模态视频相似度 决赛第11名

Tencent/Lichee 一个多模态内容理解算法框架,其中包含数据处理、预训练模型、常见模型以及模型加速等模块。

saic-mdal/lama LaMa 图像修复,具有傅里叶卷积的分辨率稳健的大型蒙版修复

microsoft/VideoX 跨模态视频内容理解

fnzhan/MISE 多模态图像合成和编辑:调查

NVlabs/instant-ngp 即时神经图形基元:闪电般快速的 NeRF 等 。Neural Radiance Fields(神经辐射场),是一项利用多目图像重建三维场景的技术。

Mengzi/Mengzi-Oscar 中文多模态预训练 Mengzi-Oscar 模型 下游任务模型: 中文图像摘要. 中文图文互检.

WangWenhao0716/ISC-Track2-Submission [NeurIPS Challenge Rank 3rd] 重现 Image Similarity Challenge Track 2 结果的代码和相关文件。

facebookresearch/Motionformer 训练和测试我们提出的 Motionformer 模型。Motionformer 使用提议的轨迹注意在几个视频动作识别基准(例如 Kinetics-400 和Something-Something V2)上实现最先进的结果。

snap-research/NeROIC 来自在线图像集合的神经对象捕获和渲染,两阶段模型将来自不同条件的对象图像作为输入。利用其他最先进方法获取的图像的相机位姿和对象前景蒙版,我们首先通过训练基于 NeRF 的网络优化扫描对象的几何形状并细化相机位姿;然后我们使用我们的法线提取层从几何体(由密度函数表示)计算表面法线;最后,我们的第二阶段模型分解了物体的材料属性,并解决了每个图像的光照条件。

facebookresearch/ConvNeXt 一个完全由标准 ConvNet 模块构建的纯 ConvNet 模型。ConvNeXt 准确、高效、可扩展且设计非常简单。

declare-lab/MELD 用于对话中情绪识别的多模多方数据集

visualcommonsense 视觉常识推理 ( VCR ) 是一项用于认知级视觉理解的新任务和大规模数据集

imageclef.org ImageCLEF 旨在为图像的跨语言注释和检索提供一个评估论坛。由于需要支持来自全球社区的多语言用户访问不断增长的视觉信息体,ImageCLEF 的主要目标是支持视觉媒体分析、索引、分类和检索领域的进步,通过开发必要的用于评估在单语、跨语言和与语言无关的上下文中运行的视觉信息检索系统的基础设施。ImageCLEF 旨在为此类基准测试提供可重用资源。包括:(视觉)信息检索、跨语言信息检索、计算机视觉和模式识别、医学信息学、人机交互等。

studiomoniker/Quickdraw-appendix 25k 阴茎涂鸦数据集

Jittor/JNeRF 基于 Jittor 的 NeRF 基准测试。JNeRF 重新实现了 Instant-ngp 并达到了与原始论文相同的性能。

THUDM/CogVideo 文本到视频生成的代码和模型,只支持简体中文输入。

THUDM/CogView 文本到图像的生成。NeurIPS 2021 论文“CogView: Mastering Text-to-Image Generation via Transformers”

CompVis/stable-diffusion 潜在的文本到图像的扩散模型。凭借其 860M UNet 和 123M 文本编码器,该模型相对轻量级,并在具有至少 10GB VRAM 的 GPU 上运行。

invoke-ai/InvokeAI 这个版本的 Stable Diffusion 具有流畅的 WebGUI、交互式命令行脚本,它在“dream bot”风格的界面中结合了 text2img 和 img2img 功能,以及多个功能和其他增强功能。可以在 Win、Mac 和 Linux 机器上运行,GPU 卡只有 4 GB 的 RAM。

AUTOMATIC1111/stable-diffusion-webui 稳定的扩散(文本到图像的扩散模型)网页界面

divamgupta/diffusionbee-stable-diffusion-ui Diffusion Bee 是在 M1 Mac 上本地运行 Stable Diffusion 的最简单方法。附带一键式安装程序。无需依赖或技术知识。

cmdr2/stable-diffusion-ui 在pc上安装和使用稳定扩散的最简单方式。提供用于从文本提示和图像生成图像的浏览器 UI。只需输入您的文本提示,然后查看生成的图像。

nateraw/stable-diffusion-videos 通过探索潜在空间和文本提示之间的变形来实现稳定扩散(stable diffusion)的视频

kuprel/min-dalle DALL·E Mini 到 PyTorch 的快速、最小的接口。DALL-E是一个可以通过文本描述中生成图像的AI程序。 通过120亿参数版本的GPT-3 Transformer模型来理解自然语言输入并生成相应的图片。它可以生成现实、现实中不存在的对象。

heejkoo/Awesome-Diffusion-Models 关于扩散模型的资源和论文集

YangLing0818/Diffusion-Models-Papers-Survey-Taxonomy 扩散模型:方法和应用的综合调查

rinongal/textual_inversion 使用个性化文本反转到图像生成 。仅使用用户提供的概念(如对象或样式)的 3-5 张图像,通过学习冻结文本到图像模型的嵌入空间中的新“词”来表示它。 这些“词”可以组合成自然语言的句子,以直观的方式指导个性化创作。

remotion-dev/remotion 使用 React 以编程方式创建视频的框架。

zhegan27/VILLA VILLA:视觉和语言对抗训练 (NeurIPS 2020 Spotlight) 的官方存储库。 目前支持 UNITER 在 VQA、VCR、NLVR2 和 SNLI-VE 上的对抗微调。 使用域内数据的对抗性预训练将很快可用。 VILLA-base 和 VILLA-large 预训练检查点均已发布。

piskelapp/piskel 易于使用的精灵编辑器。 它可用于创建游戏精灵、动画、像素艺术。

pencil2d/pencil 制作二维手绘动画的简单、直观的工具。

OpenShot/libopenshot 致力于为全世界提供高质量的视频编辑、动画和播放解决方案。 API 目前支持 C++、Python 和 Ruby。

microsoft/GLIP 将目标检测任务转换为短语定位任务。对待任意一张训练图片,把标签用句号隔开,拼接成一句话。通过这种方式,所有的目标检测数据集都可转化为短语定位数据集。至此,便有了文字-重点区域对(word-region pair)。然后,对文字和图片分别进行编码,获得了文字与图片各自的特征。

jina-ai/discoart DiscoArt 是一种优雅的方式,可以为生成艺术家、AI 爱好者和铁杆开发人员创建引人注目的 Disco Diffusion艺术作品。

olive-editor/olive 适用于 Win、macOS 和 Linux 的免费非线性视频编辑器。

NatronGitHub/Natron 一款免费的开源(GPLv2 许可证)视频合成器,其功能类似于 Adobe After Effects、Foundry 的 Nuke 或 Blackmagic Fusion。 它是可移植的和跨平台的(GNU/Linux、macOS 和 Microsoft Windows)。

patriciogonzalezvivo/glslViewer 基于控制台的 OpenGL 沙盒,无需 UI 即可显示 2D/3D GLSL 着色器。 您绝对可以使用 Python 模块(包括)或任何其他通过标准 POSIX 控制台输入/输出或 OSC 与 glslViewer 来回通信的工具来制作自己的 UI 或包装器。

ossrs/srs SRS是一个简单、高效的实时视频服务器,支持RTMP、WebRTC、HLS、HTTP-FLV、SRT、MPEG-DASH和GB28181。

google-research/jax3d Jax 中用于神经渲染的库,旨在成为一个灵活的 NeRF 生态系统,以支持快速原型设计、轻松协作以及研究代码的发布。

MCG-NJU/VideoMAE 简单高效的视频自监督预训练新范式。提出了极高的掩蔽率 (90%-95%) 和管掩蔽策略,为自监督视频预训练创建具有挑战性的任务。VideoMAE 可以作为未来自监督视频预训练研究的简单但强大的基线。适用于不同规模的视频数据集,在 Kinects-400 上可以达到 87.4%(Kinetics-400是一个大规模,高质量的YouTube视频网址数据集,其中包含各种以人为本的行动。该数据集包含 400 个人类动作类,每个动作至少有 400 个视频剪辑。每个剪辑持续大约 10 秒,并且取自不同的 YouTube 视频。这些动作以人类为中心,涵盖广泛的类别,包括演奏乐器等人与物体的交互,以及握手等人与人的交互。),在 Something-Something V2 (大型的带有标签的记录了人类与日常生活中的一些物体之间的动作数据集)上可以达到 75.4%,在 UCF101 上可以达到 91.3%(UCF-101(2012)包含13,320个视频(共27个小时),101个人类行为类别,如运动、乐器和人物交互等。),在 HMDB51(HMDB51包含51类动作,共有6849个视频,每个动作至少包含51个视频,分辨率320*240,。来自于YouTube,google视频等,共2G) 上可以达到 62.6%。

POSTECH-CVLab/PeRFception 隐式3D表示(即神经辐射场(NeRFs))的最新进展使得以可微分方式进行精确和逼真的3D重建成为可能。

opendilab/InterFuser 使用可解释传感器融合Transformer实现安全增强型自动驾驶

Kuaipedia/Kuaipedia 全球首个大规模多模态短视频百科,以条目、方面、短视频为基本单位。由快首科技与哈工大、科大讯飞合作开发。亿级别多模态短视频百科体系。

Moguri/awesome-panda3d 使用Panda3D(python 3D库)的优秀资源的精选列表

photoprism/photoprism 基于人工智能的去中心化网络照片应用程序。它利用最新技术自动标记和查找图片,而不会妨碍您。您可以在家中、私人服务器或云端运行它。

magicleap/SuperGluePretrainedNetwork 强力胶:使用图神经网络学习特征匹配 。一个图神经网络,与最佳匹配层相结合,经过训练以对两组稀疏图像特征执行匹配。包括 PyTorch 代码和预训练权重,用于在 SuperPoint 关键点和描述符之上运行 SuperGlue 匹配网络。给定一对图像,可以使用此存储库提取图像对中的匹配特征。

因果推断

microsoft/EconML ALICE(因果关系和经济学的自动学习和智能)是微软研究项目,旨在将AI概念应用于经济决策。 其目标之一是构建一个工具包,将最先进的机器学习技术与计量经济学相结合,以便将自动化应用于复杂的因果关系

Microsoft/dowhy 用于因果推理的 Python 库,它支持因果假设的显式建模和测试。 DoWhy 基于因果推理的统一语言,结合了因果图模型和潜在结果框架。

FenTechSolutions/CausalDiscoveryToolbox 图形和成对设置中的因果推断包。 包括用于图结构恢复和依赖关系的工具。

uber/causalml 使用机器学习算法进行提升建模和因果推理

erdogant/bnlearn 用于贝叶斯网络的图形结构、参数学习、推理和采样方法的 Py包。

rguo12/awesome-causality-algorithms 用数据学习因果关系的算法索引

gcastle 华为诺亚方舟实验室自研的因果结构学习工具链,主要的功能包括:数据生成及处理;因果图构建: 包含了主流的因果学习算法以及最近兴起的基于梯度的因果结构学习算法;因果评价: 提供因果结构学习评价指标,包括F1, SHD, FDR, TPR, FDR, NNZ等。

cmu-phil/causal-learn 用于因果发现的 python 包,它实现了经典和最先进的因果发现算法,它是Tetrad的 Python 翻译和扩展。

DataCanvasIO/YLearn 因果学习算法工具包,支持因果学习任务中的各类相关任务,从因果效应识别(causal effect idenfitication),到因果效应估计(causal effect estimation),到因果发现(causal discovery)等等,都可以通过YLearn实现。

huawei-noah/trustworthyAI 基于图自编码器的因果结构学习模型

wanyu-lin/ICML2021-Gem 针对图神经网络的通用因果解释方法

econometric/CausalitySlides 西雅图大学因果推理课程的幻灯片

pgmpy/pgmpy 用于学习(结构和参数)、推理(概率和因果)以及贝叶斯网络模拟的 Py库。

quantumblacklabs/causalnex 可帮助数据科学家推断因果关系而不是观察相关性的Py 库。

google/CausalImpact 用于时间序列中因果推理的 R 包

quantumblacklabs/causalnex “使用贝叶斯网络进行因果推理的工具包。”利用贝叶斯网络来识别数据中的因果关系,以便我们可以从分析中制定正确的干预措施。 与基于模式识别和相关性分析的传统机器学习方法相比,利用贝叶斯网络更直观地描述因果关系。 CausalNex 旨在简化因果关系和反事实分析的端到端流程。

fulifeng/Causal_Reading_Group 不定期更新有关机器学习+因果论的论文列表,同时也会在每周内讨论NExT++(NUS)和LDS(USTC)之间的相关论文。

金融股票与时间序列

金融股票

https://github.com/microsoft/qlib Qlib是一个面向AI的量化投资平台,旨在实现潜力,增强研究能力并创造AI技术在量化投资中的价值。包括多个模型。

https://github.com/QUANTAXIS/QUANTAXIS 量化金融策略框架

https://github.com/ricequant/rqalpha 从数据获取、算法交易、回测引擎,实盘模拟,实盘交易到数据分析,为程序化交易者提供了全套解决方案

https://github.com/cedricporter/funcat 将同花顺、通达信、文华财经麦语言等的公式写法移植到了 Python

https://github.com/georgezouq/awesome-deep-reinforcement-learning-in-finance 金融市场上使用的那些AI(RL/DL/SL/进化/遗传算法)的集合

https://github.com/wangshub/RL-Stock 如何用深度强化学习自动炒股。

https://github.com/tensortrade-org/tensortrade 一个开源强化学习框架,用于训练,评估和部署强大的交易程序。

https://github.com/bsolomon1124/pyfinance 为投资管理和证券收益分析而构建的Python分析包。主要是对面向定量金融的现有包进行补充,如pyfolio和pandas-datareader等。pyfinance包含六个模块,它们分别是:datasets.py :金融数据下载,基于request进行数据爬虫;general.py:通用财务计算,例如主动份额计算,收益分配近似值和跟踪误差优化;ols.py:回归分析,支持pandas滚动窗口回归;options.py:期权衍生品计算和策略分析;returns.py:通过CAPM框架对财务时间序列进行统计分析,旨在模拟FactSet Research Systems和Zephyr等软件的功能,并提高了速度和灵活性;utils.py:基础架构。

https://github.com/quantopian/alphalens Python量化分析库,量化网站quantopian开发维护的量化三件套之一,用于股票因子(alpha)的性能分析。alphalens与zipline以及pyfolio常常一同使用,其中,pyfolio提供财务组合的性能和风险分析,zipline用于量化策略回测。alphalens的主要功能包括对一个alpha因子进行统计和绘图,包括:因子收益分析、因子信息系数分析、换手率分析以及分组分析。

https://github.com/quantopian/pyfolio 用于金融投资组合的性能和风险分析。它可以很好地与Zipline回测库一起工作。

https://github.com/quantopian/zipline 美国著名的量化策略平台quantopian开发和维护的量化交易库,并且quantopian量化平台的回测引擎也是基于zipline的,除此之外,像国内比较有名的三大矿聚宽(JointQuant)、米筐(RiceQuant)、优矿的回测引擎也是基于此。另外,由于quantopian平台多年的使用,zipline的专业性是可以保证的,并且zipline在github中的代码也在保持不断更新和改进。zipline是一种事件驱动(event-driven)的回测框架,有完整的文档和社区,如果你是对国外美股交易感兴趣,那么zipline将比较合适;但是对于国内像A股的数据则无法支持,只能通过本地化的数据进行回测。

https://github.com/gbeced/pyalgotrade 一个事件驱动的回测框架,虽然不如zipline的名气大,但是同样也具有完善的社区和详细的文档。据说pyalgotrade的运行速度和灵活度要比zipline强,但是缺点是不支持pandas。

https://github.com/mementum/backtrader 一个功能强大的量化策略回测平台。backtrader允许你专注于编写可重用的交易策略、指标和分析工具,而不是花时间构建基础设施。

https://github.com/enigmampc/catalyst 对于虚拟货币交易的量化回测平台。Catalyst是一个底层基于zipline的算法交易框架,目前比较成熟,并且可以支持策略的回测与实盘( 目前支持四家交易所 Binance, Bitfinex, Bittrex, Poloniex) 。

https://github.com/vnpy/vnpy 国内由陈晓优团队开发量化交易框架,它目前在github上star和fork的数量已经超过了zipline,目前是全球开源量化框架的首位。vn.py主要侧重于实盘交易,同样支持通过历史数据进行回测,包括数据的可视化、收益结果、参数调优等,除此之外,它还具备一些常用的CTA策略、SpreadTrading价差交易、行情录制等功能,并且它还具备完善的社区以及教程。新手在使用时,可以通过它的GUI环境VN Station进行使用,同时也可以基于它的策略模版进行自定义的策略开发。

https://github.com/waditu/tushare 拥有丰富的数据内容,如股票、基金、期货、数字货币等行情数据,公司财务、基金经理等基本面数据。其SDK开发包支持语言,同时提供HTTP Restful接口,最大程度方便不同人群的使用。并且,它提供多种数据储存方式,如Oracle、MySQL,MongoDB、HDF5、CSV等,为数据获取提供了性能保证。

https://github.com/jindaxiang/akshare 基于 Py 的财经数据接口库, 目的是实现对股票、期货、期权、基金、外汇、债券、指数、加密货币等金融产品的基本面数据、实时和历史行情数据、衍生数据从数据采集、数据清洗到数据落地的一套工具, 主要用于学术研究目的。特点是获取的是相对权威的财经数据网站公布的原始数据, 通过利用原始数据进行各数据源之间的交叉验证, 进而再加工, 从而得出科学的结论。

https://github.com/AI4Finance-LLC/FinRL-Library 哥大开源“FinRL”: 一个用于量化金融自动交易的深度强化学习库

https://github.com/Heerozh/spectre GPU 加速的因子分析库和回测工具。

https://github.com/midas-research/sthan-sr-aaai 通过时空超图注意力网络进行股票选择:一种学习排名方法

https://github.com/yumoxu/stocknet-dataset 从推文和历史股价预测股票走势的综合数据集。

https://github.com/goiter/CoCPC 基于 Copula 的对比预测编码 (Co-CPC)。通过考虑与宏观经济指标的耦合来发布股票走势预测的代码和数据。

hkgsas/LOB 中国市场限价订单短期市场预测基准数据集。

jrothschild33/learn_backtrader: BackTrader中文教程笔记,系统性介绍Bactrader的特性、策略构建、数据结构、回测交易等,彻底掌握量化神器的使用方法。章节:介绍篇、数据篇、指标篇、交易篇、策略篇、可视化篇…

AI4Finance-Foundation/FinRL-Meta 数据驱动金融强化学习的市场环境和基准

AI4Finance-Foundation/FinRL-Live-Trading 自动股票交易的深度强化学习:一种集成策略。ICAIF 2020。

AI4Finance-Foundation/DQN-DDPG_Stock_Trading 使用 DQN/DDPG 进行股票交易。Xiong, Z.、Liu, XY、Zhong, S.、Yang, H. 和 Walid, A.,2018 年。股票交易的实用深度强化学习方法,NeurIPS 2018 AI in Finance Workshop。

AI4Finance-Foundation/FinRL_Podracer 一个优雅(轻量级、高效且稳定)的 FinRL 库,允许研究人员和量化交易者轻松开发算法策略。

tkfy920/qstock 打造成个人量化投研分析包,目前包括数据获取(data)、可视化(plot)、选股(stock)和量化回测(策略backtest)模块。 qstock将为用户提供简洁的数据接口和规整化后的金融市场数据。可视化模块为用户提供基于web的交互图形的简单接口; 选股模块提供了同花顺的选股数据和自定义选股,包括RPS、MM趋势、财务指标、资金流模型等; 回测模块为大家提供向量化(基于pandas)和基于事件驱动的基本框架和模型。

je-suis-tm/quant-trading Python 量化交易策略,包括 VIX 计算器、模式识别、商品交易顾问、蒙特卡洛、期权跨式、射击之星、伦敦突破、Heikin-Ashi、配对交易、RSI、布林带、抛物线 SAR、双推力、真棒、MACD

AlgoTraders/stock-analysis-engine 回测 1000 种每分钟交易算法,使用来自 IEX、Tradier 和 FinViz 的自动定价数据训练 AI。数据集和交易表现自动发布到 S3,用于构建 AI 训练数据集,以教授 DNN 如何交易。在 Kubernetes 和 docker-compose 上运行。

amor71/LiuAlgoTrader 一个可扩展的、多进程的 ML 就绪框架,用于有效的算法交易。该框架简化了开发、测试、部署、分析和训练算法交易策略。该框架自动分析交易会话、超参数优化,分析可用于训练预测模型。

时间序列

thuml/Autoformer 用于长期序列预测的具有自相关性的分解变压器。Autoformer超越了Transformer系列,首次实现了串联。在六个基准上进行实验,涵盖五个主流应用程序。我们将我们的模型与十个基线进行比较,包括 Informer、N-BEATS 等。通常,对于长期预测设置,Autoformer 实现了 SOTA,相对于之前的基线有38% 的相对改进。

alan-turing-institute/sktime 时间序列的机器学习统一框架 。包括时间序列分类、回归、聚类、注释和预测。

jdb78/pytorch-forecasting pytorch的时间系列预测库,模型包括:RecurrentNetwork、DecoderMLP、NBeats 、DeepAR 、TemporalFusionTransformer。

qingsongedu/time-series-transformers-review 专业策划的关于时间序列的变压器的很棒的资源(论文、代码、数据等)列表。

arrigonialberto86/deepar Amazon于2017年提出的基于深度学习的时间序列预测方法

fjxmlzn/DoppelGANger 使用GAN共享网络时间序列数据:挑战,初步承诺和未解决的问题,IMC 2020(最佳论文入围)

AIStream-Peelout/flow-forecast 一个开源的深度学习时间序列预测库。包括模型:Vanilla LSTM、Full transformer、Simple Multi-Head Attention、Transformer w/a linear decoder、DA-RNN (CPU only for now)。

tslearn-team/tslearn 时间序列机器学习python工具包,其中包括了一些基本的时间序列预测或者分类模型,如多层感知机,SVR,KNN以及基本的数据预处理工具和数据集的生成与加载模块。

blue-yonder/tsfresh 时间序列特征提取python工具包,它会自动计算出大量的时间序列特征。此外,该工具包还包含了一些方法,用于评估回归或分类任务中这些特征的解释能力和重要性。

johannfaouzi/pyts 时间序列分类工具包。提供预处理工具及若干种时间序列分类算法。

PaddlePaddle/PaddleTS 基于PaddlePaddle的易于使用的深度时间序列建模,包括TSDataset,分析,转换,模型,AutoTS和Ensemble等综合功能模块,支持时间序列预测,表示学习和异常检测等多功能任务。

linkedin/greykite Greykite 库通过其旗舰算法 Silverkite 提供灵活、直观和快速的预测。Silverkite 算法适用于大多数时间序列,尤其适用于趋势或季节性变化点、事件/假日效应和时间依赖性的那些。它是可解释的,因此对于值得信赖的决策和洞察力很有用。

zhouhaoyi/Informer2020 效果远超Transformer的长序列预测,提出了ProbSparse self-attention机制来高效的替换常规的self-attention并且获得了的O(LlogL)时间复杂度以及O(LlogL)的内存使用率,提出了self-attention distilling操作,它大幅降低了所需的总空间复杂度O((2-e)LlogL);我们提出了生成式的Decoder来获取长序列的输出,这只需要一步,避免了在inference阶段的累计误差传播;

deeptime-ml/deeptime 用于分析时间序列数据,包括降维,聚类和马尔可夫模型估计

unit8co/darts python 库,用于对时间序列进行用户友好的预测和异常检测。

bashtage/arch 自回归条件异方差 (ARCH) 和其他金融计量经济学工具,用 Python 编写(使用 Cython 和/或 Numba 来提高性能)

https://github.com/nnzhan/MTGNN 通用的图神经网络框架 MTGNN,通过图学习模块融合外部知识和变量之间的单向关系,再使用 mix-hop 传播层和膨胀 inception 捕获空间和时序依赖。

https://github.com/VachelHU/EvoNet Time-Series Event Prediction with Evolutionary State Graph 将时间序列转化为动态图进行表示的方法。该方法成功在阿里云 ·SLS 商业化,作为一项智能巡检服务,可以对大规模时间序列进行异常检测与分析。

https://github.com/microsoft/StemGNN 基于图谱分解的时间序列预测。进一步提高多元时间序列预测的准确性。StemGNN 在spectral domain中捕获系列间(inter-series)相关性和时间依赖性(temporal dependencies)。它结合了图傅立叶变换 (GFT) 和离散傅立叶变换 (DFT),GFT对序列间(inter-series)相关性进行建模,而离散傅立叶变换 (DFT) 则对端到端框架中的时间依赖性(temporal dependencies)进行建模。通过 GFT 和 DFT 后,谱表示具有清晰的模式,可以通过卷积和序列学习模块进行有效预测。

https://github.com/fulifeng/Temporal_Relational_Stock_Ranking 基于图神经网络、图谱型数据的收益预测模型

https://github.com/emadeldeen24/TS-TCC 一个无监督的时间序列表示学习框架,通过时间和上下文对比。

https://github.com/nnzhan/MTGNN 基于图神经网络的多变量时间序列预测模型

adarnn 提出自适应的RNN模型,使得其可以更好地泛化。由时序相似性量化和时序分布匹配算法组成,前者用于表征时序中的分布信息,后者通过分布匹配构建广义RNN模型。

https://github.com/facebookresearch/Kats 用于分析时间系列数据的工具包,轻量级、易于使用、通用和可扩展的框架,用于执行时间系列分析,从了解关键统计数据和特征、检测变化点和异常,到预测未来趋势。

https://github.com/slaypni/fastdtw 近似动态时间规整算法,提供与 O(N)时间和内存复杂性的最佳或接近最佳对齐。

https://github.com/ourownstory/neural_prophet 基于神经网络的时间系列模型,灵感来自 Facebook Prophet 和 AR-Net,建立在 PyTorch 之上。

https://github.com/jsyoon0823/TimeGAN 时间序列生成对抗网络

lucidrains/perceiver-pytorch 具有迭代注意的通用感知器,利用非对称注意力机制将输入迭代地提取到一个紧密的潜在空间中,使其能够扩展以处理非常大的输入。

alasdairtran/radflow [TheWebConf 2021] Radflow:时间序列网络的循环、聚合和可分解模型

https://github.com/eBay/RANSynCoders 一种无监督的深度学习架构,用于在大型多元时间序列中进行实时异常检测和定位。

gzerveas/mvts_transformer 多元时间序列转换器框架

zhhlee/InterFusion KDD 2021:使用分层度量间和时间嵌入的多变量时间序列异常检测和解释

NSIBF/NSIBF 通过神经系统识别和贝叶斯过滤对网络物理系统进行时间序列异常检测

winedarksea/AutoTS AutoTS 是 Python 的时间序列包,旨在快速大规模部署高精度预测。

facebookresearch/transformer-sequential 两篇论文的代码:Feedback Transformer 和 Expire-Span。用于使用类似 Transformer 的架构进行长序列建模。

angus924/minirocket MINIROCKET:用于时间序列分类的非常快速(几乎)确定性转换

EvilPsyCHo/Deep-Time-Series-Prediction Seq2Seq、Bert、Transformer、WaveNet 用于时间序列预测。

locuslab/TCN 序列建模基准和时间卷积网络

jambo6/neuralRDEs 长时间序列的神经粗糙微分方程

sktime/sktime-dl 基于TensorFlow的深度学习sktime配套包

jiwidi/time-series-forecasting-with-python 使用 python 进行时间序列预测的以用例为中心的教程

timeseriesAI/tsai 时间序列 Timeseries 深度学习 机器学习 Pytorch fastai | Pytorch / fastai 中用于时间序列和序列的最先进的深度学习库

Alro10/deep-learning-time-series 使用深度学习进行时间序列预测的论文、代码和实验列表

ElementAI/N-BEATS 基于神经网络的单变量时间序列预测模型

yuezhihan/ts2vec 一个通用的时间序列表示学习框架

firmai/atspy Python 中的自动化时间序列模型

cesium-ml/cesium 用于时间序列推理的开源平台。从原始时间序列数据中提取特征,构建机器学习模型,为新数据生成预测。

zhengqi98/Hefei_ECG_TOP1 “合肥高新杯”心电人机智能大赛 —— 心电异常事件预测 TOP1 Solution,依据心电图机8导联的数据和年龄、性别特征,预测心电异常事件

thuml/Anomaly-Transformer 基于关联偏差的时间序列异常检测

thuml/Nonstationary_Transformers 非平稳时间序列的通用预测框架。非平稳的时序数据具有更复杂且难以捕捉的时序依赖,以及随着时间不断变化的数据分布,以往的研究旨在利用平稳化技术消除数据在时间维度上的分布差异,以提高数据本身的可预测性。然而在平稳化后的数据上进行模型训练会限制Transformer建模时序依赖的能力,导致模型仅能学到不易区分的注意力图与较弱的时序依赖,从而产生平稳性过高的预测输出与较大的预测误差,我们称之为过平稳现象(Over-stationarization)。针对非平稳时序预测问题,提出了Non-stationary Transformers,其包含一对相辅相成的序列平稳化(Series Stationarization)和去平稳化注意力(De-stationary Attention)模块,能够广泛应用于Transformer以及变体,一致提升其在非平稳时序数据上的预测效果。

microprediction/timemachines 利用流行的python时间序列包的功能,如river,pydlm,tbats,pmdarima,statsmodels.tsa,neuralprophet,Facebook Prophet,Uber的orbit,Facebook的greykitite等。

强化学习 Reinforcement Learning

ray-project/ray 构建分布式机器学习应用提供简单和通用式的API。Ray打包了Tune、RLlib、RaySGD和Ray Serve等多款机器学习库。

Farama-Foundation/PettingZoo 一个用于进行多智能体强化学习研究的 Python 库,类似于Gym的多智能体版本。

Unity-Technologies/ml-agents Unity 机器学习代理工具包 (ML-Agents) 是一个开源项目,它使游戏和模拟成为使用深度强化学习和模仿学习训练智能代理的环境。

opendilab/DI-star 星际争霸 II 的人工智能平台,具有大规模分布式训练和大师代理。

Farama-Foundation/D4RL 离线强化学习的开源基准。 它为训练和基准测试算法提供标准化的环境和数据集。

https://github.com/astooke/rlpyt

https://github.com/dennybritz/reinforcement-learning

https://github.com/keiohta/tf2rl

https://github.com/rlgraph/rlgraph

https://github.com/deepmind/trfl

https://github.com/Ceruleanacg/Personae

https://github.com/dgriff777/a3c_continuous

https://github.com/google/dopamine

https://github.com/keras-rl/keras-rl

https://github.com/openai/gym

https://github.com/georgezouq/awesome-deep-reinforcement-learning-in-finance 金融市场上使用的那些AI(RL/DL/SL/进化/遗传算法)的集合

brain-tokyo-workshop 世界模型 prettyNEAT

https://github.com/google-research/football

tensortrade-org/tensortrade 一个开源强化学习框架,用于训练,评估和部署强大的交易程序。

Baekalfen/PyBoy 用 Python 编写的 Game Boy 模拟器

tencent-ailab/hok_env 腾讯王者荣耀AI开放环境

https://github.com/google-research/batch_rl 离线强化学习

https://github.com/tensorflow/agents TF-Agents是TensorFlow中的强化学习库

https://github.com/YingtongDou/Nash-Detect 通过Nash强化学习进行鲁棒的垃圾邮件发送者检测

https://github.com/deepmind/acme 强化学习的研究框架,强化学习组件和代理库

https://github.com/XinJingHao/TD3 TD3强化算法的实现

https://github.com/huawei-noah/xingtian 刑天(XingTian)是一个组件化的库,用于开发和验证强化学习算法。它支持多种算法,包括DQN,DDPG,PPO和IMPALA等,可以在多个环境中训练代理,例如Gym,Atari,Torcs,StarCraft等。

thu-ml/tianshou 天授是基于纯PyTorch强化学习的平台。与现有的强化学习库主要基于TensorFlow,具有许多嵌套类,不友好的API或速度较慢的现有学习库不同,天守提供了快速的模块化框架和pythonic API,用于以最少的行数构建深度强化学习代理代码。

Jingliang-Duan/Distributional-Soft-Actor-Critic 一种用于连续控制任务的强化学习算法—DSAC,其优势在于减少Q值的过估计并显著改进策略的性能。证明了强化学习中引入分布式回报可显著降低Q值的过估计误差,并定量表明此误差与分布的方差呈反比关系。与主流RL算法相比,策略性能提升20% 以上。

tencent-ailab/TLeague 一种基于竞争性自我驱动的多智能体强化学习框架。

https://github.com/minerllabs/minerl Minecraft 游戏环境

mwydmuch/ViZDoom ZDoom末日的AI研究平台,可从原始视觉信息进行强化学习。

https://github.com/openai/retro 复古游戏

rlgraph/rlgraph 用于深度强化学习的模块化计算图

https://github.com/google-research/football 基于开源游戏Game Football的RL环境

https://github.com/TorchCraft/TorchCraftAI 可让您建立机器人以学习玩《星际争霸:巢穴之战》。

https://github.com/deepmind/pysc2 星际争霸II强化学习环境

https://github.com/datamllab/rlcard 纸牌(扑克)游戏中的强化学习/ AI机器人-大酒杯,勒杜克,德克萨斯州,窦滴竹,麻将,UNO。

sourceforge.net/projects/torcs ORCS,开放式赛车模拟器是一种高度便携式的多平台赛车模拟。

https://github.com/Microsoft/AirSim 基于Unreal Engine / Unity的自动驾驶汽车开源模拟器

https://github.com/carla-simulator/carla 用于自动驾驶研究的开源模拟器。

https://github.com/aitorzip/DeepGTAV GTAV的插件,可将其转变为基于视觉的自动驾驶汽车研究环境。

https://github.com/deepdrive/deepdrive Deepdrive是一个模拟器,它使拥有PC的任何人都能推动最新的自动驾驶

https://github.com/robotology/gym-ignition 使用Ignition Gazebo模拟开发OpenAI Gym机器人环境的框架

https://github.com/stanfordnmbl/osim-rl 具有肌肉骨骼模型的强化学习环境

https://github.com/lsw9021/MASS 全身肌肉骨骼系统实现了基本的仿真和控制。骨骼运动由肌肉的驱动力来驱动,并与激活水平相协调。通过与python和pytorch的接口,可以使用深度强化学习(DRL)算法,例如近端策略优化(PPO)。

https://github.com/deepmind/lab DeepMind Lab为学习代理提供了一套具有挑战性的3D导航和解谜任务。它的主要目的是充当人工智能(尤其是深度强化学习)研究的测试平台。

https://github.com/maximecb/gym-minigrid OpenAI Gym的简约gridworld软件包

https://github.com/maximecb/gym-miniworld 用于RL和机器人研究的简单3D室内模拟器

https://github.com/minosworld/minos MINOS:多模式室内模拟器 旨在支持在复杂的室内环境中为目标定向导航开发多传感器模型。MINOS利用复杂3D环境的大型数据集,并支持多模式传感器套件的灵活配置。

https://github.com/facebookresearch/habitat-sim 灵活,高性能的3D仿真器,适用于嵌入式AI研究。

https://github.com/facebookresearch/habitat-lab 一个模块化的高级库,可在各种任务,环境和模拟器中训练嵌入式AI代理。

https://github.com/facebookresearch/house3d 逼真的丰富3D环境 由数以千计的室内场景组成,这些场景配有从SUNCG数据集中获取的各种场景类型,布局和对象。它包含超过4.5万个室内3D场景,从工作室到带有游泳池和健身室的两层房屋。

https://github.com/staghuntrpg/RPG 通过奖励随机化发现多智能体游戏中多样性策略行为。通过奖励随机化对原始游戏(StagHunt)的奖励(reward)进行扰动,将问题转化为在扰动后的游戏中寻找合作策略,然后再回到原始游戏中进行微调(fine-tune),进而找到最优策略。

https://github.com/daochenzha/rapid 一种为每个回合的探索动作打分和排序的机制,以选出好的探索行为。不同于以往基于内部奖励的方法,回合排序算法将好的探索行为记录下来,然后通过模仿学习鼓励智能体探索。初步结果表明,该方法具有非常好的效果,特别是在具有随机性的环境中。

https://github.com/AI4Finance-LLC/ElegantRL 基于PyTorch的轻量-高效-稳定的深度强化学习框架

https://github.com/datawhalechina/easy-rl 强化学习中文教程

https://github.com/kwai/DouZero 斗地主AI

https://github.com/opendilab/DI-engine 通用的决策智能引擎。它支持最基本的深度强化学习 (DRL) 算法,如 DQN、PPO、SAC 和域特定算法,如多代理 RL 中的 QMIX、逆RL 中的 GAIL 和探索问题的 RND。还支持各种培训管道和定制决策 AI 应用程序。

https://github.com/kzl/decision-transformer UC 伯克利、FAIR 和谷歌大脑的研究者提出了 Decision Transformer,通过序列建模进行强化学习的架构。

https://github.com/instadeepai/Mava 用于构建多智能体强化学习 (MARL) 系统的库。Mava 为 MARL 提供了有用的组件、抽象、实用程序和工具,并允许对多进程系统训练和执行进行简单的扩展,同时提供高度的灵活性和可组合性。

https://github.com/google/brax 物理模拟引擎Brax,只需一个TPU/GPU,就能和数千个CPU或GPU的计算集群的速度一样快,直接将所需时间缩短到几分钟

https://github.com/sjtu-marl/malib 专门面向 基于种群的多智能体深度强化学习 PB-MARL 的开源大规模并行训练框架。MALib 支持丰富的种群训练方式(例如,self-play, PSRO, league training),并且实现和优化了常见多智能体深度强化学习算法,为研究人员降低并行化工作量的同时,大幅提升了训练效率。此外,MALib 基于 Ray 的底层分布式框架,实现了全新的中心化任务分发模型,相较于常见的多智能体强化学习训练框架(RLlib,PyMARL,OpenSpiel),相同硬件条件下吞吐量和训练速度有着数倍的提升。现阶段,MALib 已对接常见多智能体环境(星际争霸、谷歌足球、棋牌类、多人 Atari 等),后续将提供对自动驾驶、智能电网等场景的支持。

octavio-santiago/Super-Mario-Land-AI 机器学习和 AI 算法玩超级马里奥。

salesforce/warp-drive GPU 上极快的端到端深度多智能体强化学习框架。

xunger99/SAAC-StarCraft-Adversary-Agent-Challenge 提出了一种具有对手代理的强化学习环境,用于战争迷雾下的追捕-逃避游戏,这在航空航天应用中具有科学意义和实际意义。

SunQingYun1996/Graph-Reinforcement-Learning-Papers 图强化学习论文的精选列表。

sail-sg/envpool 用于通用 RL 环境的基于 C++ 的高性能并行环境执行引擎(矢量化环境)。

YeWR/EfficientZero 一种采样高效的强化学习算法.基于MuZero的一种算法。该类算法同属于蒙特卡洛树搜索(MCTS)强化学习。

XinJingHao/RL-Algorithms-by-Pytorch Pytorch 对强化学习算法的干净和健壮的实现。 已完成了Q-learning,DQN,DDQN,PPO 离散,PPO 连续,TD3,SAC 连续。

kakaoenterprise/JORLDY 开源强化学习框架 JORLDY 的存储库, 提供 20 多种 RL 算法和各种 RL 环境,算法和环境可定制,可以添加新的算法和环境,使用ray提供分布式 RL 算法,算法的基准测试是在许多 RL 环境中进行的

jiupinjia/rocket-recycling 基于强化学习的SpaceX火箭回收

p-christ/Deep-Reinforcement-Learning-Algorithms-with-PyTorch 深度强化学习算法和环境的 PyTorch 实现。实现的算法:深度 Q 学习 (DQN) ( Mnih et al. 2013 )、具有固定 Q 目标的 DQN ( Mnih et al. 2013 )、双 DQN (DDQN) ( Hado van Hasselt et al. 2015 )、具有优先体验重放的DDQN ( Schaul et al. 2016 )、Dueling DDQN (Wang et al. 2016)、REINFORCE 加强 (Williams et al. 1992)、深度确定性策略梯度 (DDPG) ( Lillicrap et al. 2016 )、双延迟深度确定性策略梯度 (TD3) ( Fujimoto et al. 2018 )、软演员-评论家 (SAC) ( Haarnoja et al. 2018 )、离散动作的软演员-评论家 (SAC-Discrete) ( Christodoulou 2019 )、Asynchronous Advantage Actor Critic (A3C) ( Mnih et al. 2016 )、同步优势演员评论家 (A2C)、近端策略优化 (PPO) ( Schulman et al. 2017 )、具有事后经验重放的 DQN (DQN-HER) ( Andrychowicz et al. 2018 )、具有事后经验重放的 DDPG (DDPG-HER) ( Andrychowicz et al. 2018 )、分层 DQN (h-DQN) ( Kulkarni et al. 2016 )、用于分层强化学习 (SNN-HRL) 的随机神经网络 ( Florensa et al. 2017 )、多样性就是你所需要的 (DIAYN) ( Eyensbach et al. 2018 )。所有实现都能够快速解决 Cart Pole(离散动作)、Mountain Car Continuous(连续动作)、Bit Flipping(具有动态目标的离散动作)或 Fetch Reach(具有动态目标的连续动作)。计划添加更多的分层 RL 算法。

distributional-rl.org 教科书《Distributional Reinforcement Learning 分布强化学习》。

deepmind/alphatensor 矩阵乘法是计算机要做的最关键数学计算之一。改进了目前最优的 4×4 矩阵解法(50 年前由施特拉森提出),还进一步提升了其他 70 余种不同大小矩阵的计算速度。

facebookresearch/diplomacy_cicero Cicero 的代码,这是一个通过开放域自然语言协商玩外交游戏的 AI 代理。

eloialonso/iris 提出了IRIS,一种在由离散自编码器和自回归Transformer组成的世界模型中学习的数据高效的智能体。在Atari 100k基准测试中,只用了两小时的游戏时间,就取得了1.046的人类归一化平均分,并在26个中的10个游戏中优于人类。IRIS的世界模型获得了对游戏机制的深刻理解,从而在一些游戏中实现了像素的完美预测。本文还说明了世界模型的生成能力,在想象训练时提供了丰富的游戏体验。IRIS以最小的调整开辟了一条有效解决复杂环境问题的新道路。

语音识别与合成

  • espnet/espnet End-to-End Speech Processing Toolkit 端到端的语音处理工具箱,主要特性:kaldi风格的处理模式、ASR、TTS、语音翻译、机器翻译、语音转换、DNN框架

  • PaddlePaddle/PaddleSpeech 易于使用的语音工具包,包括SOTA ASR 管道、带有文本前端的有影响力的 TTS 和端到端语音同步翻译。

  • athena-team/athena 基于序列到序列的语音处理引擎的开源实现

语音识别

  • wenet-e2e/wenet 面向工业落地应用的语音识别工具包,提供了从语音识别模型的训练到部署的一条龙服务,其主要特点如下:
    • 使用 conformer 网络结构和 CTC/attention loss 联合优化方法,统一的流式/非流式语音识别方案,具有业界一流的识别效果。
    • 提供云上和端上直接部署的方案,最小化模型训练和产品落地之间的工程工作。
    • 框架简洁,模型训练部分完全基于 pytorch 生态,不依赖于 kaldi 等复杂的工具。
    • 详细的注释和文档,非常适合用于学习端到端语音识别的基础知识和实现细节。
    • 支持时间戳,对齐,端点检测,语言模型等相关功能。

k2-fsa/k2 愿景是能够将有限状态自动机 (FSA) 和有限状态传感器 (FST) 算法无缝集成到基于 autograd 的机器学习工具包中,例如 PyTorch 和 TensorFlow。对于语音识别应用,这应该可以很容易地插入和组合各种训练目标,例如交叉熵、CTC 和 MMI,并联合优化具有多个解码通道的语音识别系统,包括格重新评分和置信度估计。

openai/whisper 一种通用的语音识别模型。 它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言ASR以及翻译和识别。Transformer 模型针对各种语音处理任务进行训练,包括多语言语音识别、语音翻译、口语识别和语音活动检测。 所有这些任务都联合表示为由解码器预测的一系列标记,允许单个模型替换传统语音处理管道的许多不同阶段。 多任务训练格式使用一组特殊标记作为任务说明符或分类目标。

m-bain/whisperX 基于whisper(耳语)的自动语音识别 (ASR),使用强制对齐提高了时间戳的准确性。带python库。

shirayu/whispering whisper“耳语”模型的流式识别。需足够的机器来实时转录。

m1guelpf/yt-whisper 使用OpenAI的Whisper自动生成YouTube字幕

ggerganov/whisper.cpp OpenAI Whisper自动语音识别(ASR)模型的高性能推理

sanchit-gandhi/whisper-jax 针对 OpenAI 的 Whisper 模型优化的 JAX 代码。与 OpenAI 的 PyTorch 代码相比,Whisper JAX 的运行速度快了 70 倍以上,使其成为可用的最快的 Whisper 实现。

guillaumekln/faster-whisper 使用 CTranslate2 更快的 Whisper 转录。在使用更少内存的情况下,此实现比 openai/whisper 快 4 倍,达到相同的精度。在 CPU 和 GPU 上都可以通过 8 位量化进一步提高效率。

mli/autocut 用文本编辑器剪视频。对你的视频自动生成字幕。然后你选择需要保留的句子,AutoCut 将对你视频中对应的片段裁切并保存。

yufan-aslp/AliMeeting ICASSP 2022 多通道多方会议转录挑战赛,为参与者提供会议场景中语音识别和说话人分类的基线系统。 挑战主要由两个轨道组成,名为自动语音识别 (ASR) 和说话人分类。 对于每个曲目,可以在其相应目录中找到详细说明。

audier/DeepSpeechRecognition 基于深度学习的中文语音识别系统

ZhengkunTian/OpenTransformer 语音识别的无重复序列到序列模型,实现aishell 6.7%的CER。

alphacep/vosk-api Offline speech recognition API for Android, iOS, Raspberry Pi and servers with Python, Java, C# and Node 支持十七种语言,提供中文语言模型。

tencent-ailab/pika 基于Pytorch和Kaldi的轻量级语音处理工具包 PIKA 具备以下特征:即时数据增强和特征加载器;TDNN Transformer编码器,以及基于卷积和 Transformer 的解码器结构;RNNT训练和批解码;利用 Ngram FST 的 RNNT 解码;RNNT最小贝叶斯风险MBR训练;用于 RNNT 的 LAS 前向与后向重评分器;基于高效 BMUF的分布式训练。

speechbrain/speechbrain 基于 PyTorch 的开源一体化语音工具包,可用于开发最新的语音技术,包括语音识别、说话者识别、语音增强、多麦克风信号处理和语音识别系统等,且拥有相当出色的性能。将其特征概况为易于使用、易于定制、灵活、模块化等。

Snowdar/asv-subtools 基于Kaldi和PyTorch推出了一套高效、易于开发扩展的声纹识别开源工具—ASV-Subtools。

wav2vec 无监督语音识别 性能直逼监督模型,只需要从录制的语音音频和未配对的文本中学习,无需进行任何转录。

speechio/leaderboard SpeechIO 排行榜:用于自动语音识别的大型、强大、全面的基准测试平台。

cywang97/StreamingTransformer 流式 Transformer 关于大规模语音识别的流行端到端模型的比较,它基于 ESPnet0.6.0。 流式 Transformer 包括一个流式编码器(基于块或前瞻)和一个基于触发注意的解码器。

hirofumi0810/neural_sp 使用 PyTorch 实现端到端的 ASR/LM

thu-spmi/CAT 基于 CRF 的数据高效的端到端语音识别提供了完整的工作流程。

zycv/awesome-keyword-spotting 很棒的语音关键字发现(唤醒词检测)的精选列表。

TalAter/annyang 小型JS语音识别库,可让您的用户通过语音命令控制您的网站。

common-voice/common-voice 一个收集语音捐赠的平台,以便创建用于训练语音识别相关工具的公共领域数据集。

alibaba-damo-academy/FunASR 来自阿里达摩院的端到端语音识别工具包

k2-fsa/sherpa-ncnn 使用下一代 Kaldi 和 ncnn 进行实时语音识别,无需互联网连接。支持iOS,Android,Raspberry Pi,VisionFive2等。

语音合成

babysor/MockingBird AI拟声: 5秒内克隆您的声音并生成任意语音内容。

rany2/edge-tts 从Python使用Microsoft Edge的在线文本到语音服务(无需Microsoft Edge/Windows或API密钥)

coqui-ai/TTS 用于文本到语音的深度学习工具包,在研究和生产中经过实战测试。TTS 带有预训练模型、用于测量数据集质量的工具,并且已经在 20 多种语言中用于产品和研究项目。实例:tts --model_name tts_models/zh-CN/baker/tacotron2-DDC-GST --text "你好。"

jaywalnut310/vits 一种用于端到端文本语音转换的条件变分自编码器,它比现有的两阶段模型产生更自然的声音。该方法采用变分推理和归一化流以及对抗式训练过程,提高了生成式建模的表达能力。

svc-develop-team/so-vits-svc SoftVC VITS 歌声转换。这个项目与 Vits 有着根本的不同。 Vits 是 TTS,这个项目是 SVC。本项目不能进行TTS,Vits不能进行SVC,两种项目模型不通用。

voicepaw/so-vits-svc-fork so-vits-svc fork 歌唱语音转换 具有实时支持、改进的界面和更多功能。实时语音转换、更准确的音调估计、2x 更快的训练

RVC-Project/Retrieval-based-Voice-Conversion-WebUI 语音数据<= 10分钟也可以用来训练一个好的VC模型 一个基于VITS的简单易用的语音转换(变声器)框架

JasonWei512/Tacotron-2-Chinese 中文语音合成

alibaba-damo-academy/KAN-TTS 来自阿里达摩院的TTS框架,使用 KAN-TTS,您可以训练自己的 TTS 模型

https://github.com/NATSpeech/NATSpeech 非自回归文本转语音 (NAR-TTS) 框架,包括 PortaSpeech (NeurIPS 2021) 和 DiffSpeech (AAAI 2022) 的官方 PyTorch 实现。PortaSpeech:便携式和高质量的生成文本到语音转换(NeurIPS 2021)。DiffSinger:通过浅扩散机制合成歌唱声音(DiffSpeech)(AAAI 2022)。

Rongjiehuang/ProDiff ProDiff (ACM-MM'22) 的 PyTorch 实现,具有极快的扩散语音合成管道。条件扩散概率模型,能够有效地生成高保真语音。demo page

TensorSpeech/TensorflowTTS Tensorflow 2的实时最新语音合成

kan-bayashi/ParallelWaveGAN Parallel WaveGAN (+ MelGAN & Multi-band MelGAN) implementation with Pytorch

KuangDD/zhrtvc 好用的中文语音克隆兼中文语音合成系统,包含语音编码器、语音合成器、声码器和可视化模块。

cnlinxi/book-text-to-speech 一本关于中文文本到语音转换 (TTS) 的书。

JasonWei512/Tacotron-2-Chinese 中文语音合成

lturing/tacotronv2_wavernn_chinese tacotronV2 + wavernn 实现中文语音合成(Tensorflow + pytorch)

JasonWei512/wavenet_vocoder WaveNet 声码器

tulasiram58827/TTS_TFLite TFLite中广泛流行的文本语音转换(TTS)模型的集合。

thuhcsi/VAENAR-TTS 基于 VAE 的非自回归 TTS 模型。

keonlee9420/VAENAR-TTS 基于 VAE 的非自回归 TTS 模型。PyTorch

ben-hayes/neural-waveshaping-synthesis 波形域中的高效神经音频合成.使用神经网络有效合成音频波形的方法。

Jackiexiao/zhtts 中文实时语音合成系统Demo

PlayVoice/vits_chinese 基于BERT和VITS结合微软自然语音特征的最佳TTS支持

YatingMusic/ddsp-singing-vocoders 声码器是一种条件音频生成模型,可将声学特征(如 mel 频谱图)转换为波形。从可微分数字信号处理(DDSP)中汲取灵感,提出SawSing新型声码器,用于歌声。SawSing使用线性时变有限脉冲响应滤波器过滤锯齿波源信号来合成歌唱声音的谐波部分,该滤波器的系数由神经网络根据输入的mel频谱图估计。由于加强了相位连续性,因此可以生成歌声,而不会出现许多现有声码器的相位不连续性故障。在资源有限的场景中,收敛速度更快,且优于最先进的生成对抗网络和基于扩散的声码器,只有3个训练录音和3小时的训练时间。

CjangCjengh/MoeGoe 用于 VITS 推理的可执行文件,包括上海方言模型。VITS:用于语音合成带有对抗学习的条件变分自编码器。

enhuiz/vall-e 音频LM VALL-E的非官方PyTorch实现。3 秒音频可模仿人说话的语音大模型。使用了 Meta 提出的 Audio Codec 提取离散的音频码本,作为训练标签,其包含8(音频码维数)个 Decoder Block,每个 Block 含有 12 层 TransformerDecoder 层,第一个 block 为自回归结构,其余 block 为非自回归结构。lifeiteng/vall-e

espeak-ng/espeak-ng 开源语音合成器,支持一百多种语言和口音。

语音识别与合成_其他

TencentGameMate/chinese_speech_pretrain WenetSpeech train_l 集的 1 万小时中文数据作为无监督预训练数据。数据主要来源于 YouTube 和 Podcast,覆盖了各种类型录制场景、背景噪声、说话方式等,其领域主要包括有声书、解说、纪录片、电视剧、访谈、新闻、朗读、演讲、综艺和其他等10大场景。

zzw922cn/awesome-speech-recognition-speech-synthesis-papers 自动语音识别 (ASR)、说话人验证、语音合成、文本到语音转换 (TTS)、语言建模、歌唱语音合成 (SVS)、语音转换 (VC)

AIGC-Audio/AudioGPT 理解和生成语音、音乐、声音和说话人头部动作。

deezer/spleeter 人声分离模型

stemrollerapp/stemroller 从任何歌曲中分离出人声、鼓、贝斯和其他器乐声部

microsoft/unilm/wavlm 用于全栈语音处理的大规模自我监督预训练,下游任务如ASR、声纹识别、声音分类等。

Windstudent/Complex-MTASSNet 多任务音源分离,两阶段模型,复杂域。

Rudrabha/Wav2Lip 唇语识别 唇语同步 ,用来生成准确的唇语同步视频。

facebookresearch/voxpopuli 目前世界上最大的多语言语音数据集,涵盖了23种语言,时长超过40万小时。

WenetSpeech 从 YouTube 和 Podcast 收集的 10000 多个小时的多域转录普通话语料库。 采用OCR 和ASR分别标记每个录音。 为了提高语料库的质量,使用了一种新颖的端到端标签错误检测方法来进一步验证和过滤数据。

fighting41love/zhvoice 中文语音语料,语音更加清晰自然,包含8个开源数据集,3200个说话人,900小时语音,1300万字。

tyiannak/pyAudioAnalysis Python 音频分析库:特征提取、分类、分割和应用

microsoft/muzic 用人工智能理解和生成音乐,包括:符号音乐理解:MusicBERT、自动歌词转录:PDAugment 音乐生成:作曲:SongMASS、歌词生成:DeepRapper、旋律生成:TeleMelody、伴奏生成:PopMAG、歌声合成。

MubertAI/Mubert-Text-to-Music 演示通过 Mubert API 生成基于提示的音乐

facebookresearch/av_hubert 用于视听语音的自监督学习框架,在 LRS3 视听语音基准上,它在唇读、ASR 和视听语音识别方面取得了最先进的结果。

lhotse-speech/lhotse 在机器学习项目中处理语音数据的工具。

microsoft/NeuralSpeech 微软亚洲研究院的研究项目,专注于基于神经网络的语音处理,包括自动语音识别(ASR)、文本到语音(TTS)、空间音频等。

chrisdonahue/ddc 自动编舞系统,将原始音频转换为可播放的舞蹈。

google/lyra 高质量、低比特率的语音编解码器,在最慢网络上也能进行语音通信。 为此,它应用了传统的编解码器技术,同时利用机器学习 (ML) 的进步和经过数千小时数据训练的模型来创建一种压缩和传输语音信号的新方法。

mixxxdj/mixxx 免费的 DJ 软件,可为您提供执行现场混音所需的一切。

QiuChenly/QQFlacMusicDownloader [秋城落叶] QQ 音乐源无损歌曲下载

noisetorch/NoiseTorch Linux 上的实时麦克风噪声抑制。

werman/noise-suppression-for-voice 基于Xiph的RNNoise的噪声抑制插件

ggeop/Python-ai-assistant Python蟒蛇AI助手 语音命令助手服务,它可以识别人类语音,与用户交谈并执行基本命令。

spotify/pedalboard 由Spotify的音频智能实验室构建,可以在Python和TensorFlow中使用工作室质量的音频效果。内置音频 I/O 实用程序:支持在所有平台上读写 AIFF、FLAC、MP3、OGG 和 WAV 文件,无需依赖关系;对读取 AAC、AC3、WMA 和其他格式的额外支持,具体取决于平台;支持对音频文件和流进行动态重采样,内存使用量为 0;通过 AudioStream 的实时音频效果。内置支持许多基本音频转换,包括:吉他风格效果;响度和动态范围效果;均衡器和滤波器;空间效果;音高效果;有损压缩;质量降低。在 macOS、Windows 和 Linux 上支持 VST3® 乐器和效果插件。支持 macOS 上的乐器和效果音频单元。强大的线程安全性、内存使用和速度保证,以允许使用多个 CPU 内核,处理单个转换的音频速度比 pySoX 快 300 倍,比 SoxBindings(通过 iCorv)快 2-5 倍,读取音频文件的速度比librosa.load快4倍(在许多情况下)。

生物医药

蛋白质结构

  • deepmind/alphafold 此包提供了 AlphaFold v2.0 的推理流线的实现。AlphaFold是Google旗下DeepMind开发的一款人工智能程序,它使用深度学习算法通过蛋白质序列来预测蛋白质结构。蛋白质通过卷曲折叠会构成三维结构,蛋白质的功能正由其结构决定。了解蛋白质结构有助于开发治疗疾病的药物。

  • RosettaCommons/RoseTTAFold 结合AlphaFold相关思想的网络架构,并通过三轨网络获得了最佳性能,其中1D序列、2D距离图和3D坐标的信息依次转换和集成。三轨网络精度接近AlphaFold2,能够快速解决具有挑战性的X-ray晶体学和冷冻电镜结构建模问题,并提供对当前未知结构蛋白质功能的见解。还能够仅从序列信息中快速生成准确的蛋白质-蛋白质复合物模型。

  • aqlaboratory/openfold AlphaFold2的可训练、内存效率高且GPU友好的 PyTorch 再现。

  • dauparas/ProteinMPNN 基于深度学习的蛋白质序列设计方法,在计算和实验测试中都有出色的表现。在本地蛋白质骨架上,它的序列恢复率为52.4%,而Rosetta为32.9%。不同位置的氨基酸序列可以在单链或多链之间进行耦合,从而能够应用于当前广泛的蛋白质设计挑战。研究员利用X射线晶体学、冷冻电镜和功能研究证明了它的广泛实用性和高准确性,挽救了使用Rosetta或AlphaFold进行的蛋白质单体、环状同源寡聚体、四面体纳米颗粒和靶标结合蛋白的失败设计。

  • HeliXonProtein/OmegaFold 《从原生层序进行高分辨率从头构造预测》的代码。AI预测蛋白质3D结构,仅通过单条蛋白序列就能搞定。也就是说,AI预测蛋白质结构,可以不需要蛋白质进化过程中的同源信息。一些人工设计的蛋白质药物和工业合成用酶,也可以通过AI预测3D结构,确定其对人体的功能。达成这一成就的AI算法名为OmegaFold,在最近的全球持续蛋白质预测竞赛中,整体预测能力已经与DeepMind此前开发的AlphaFold2,和华盛顿大学开发的RoseTTAFold不相上下,甚至有些指标优于后两者。研究成果来自国内AI创新药物公司华深智药,一家成立不到一年的中国初创企业,孵化自张亚勤旗下的清华大学智能产业研究院。

  • sokrypton/ColabFold 让蛋白质折叠预测人人可及,预测蛋白质结构。

  • salesforce/provis BERTology Meets Biology: Interpreting Attention in Protein Language Models 注意力机制在蛋白质语言模型的应用

  • ElwynWang/DeepFragLib 基于深度神经网络和改进的片段测序方法从头预测蛋白质结构

  • bowman-lab/diffnets 采用DiffNets通过比较结构集来深度学习蛋白质生化特性的结构决定因素

  • nadavbra/protein_bert 专为蛋白质序列和功能设计的通用深度学习模型

  • pengxingang/Pocket2Mol 基于 3D 蛋白质口袋的高效分子采样 使用等变图神经网络来提高以前基于结构的药物设计模型的效率和分子质量。

  • jertubiana/ScanNet 可解释的几何深度学习模型,用于结构的蛋白质结合位点预测

  • strauchlab/scaffold_design 小蛋白质折叠结构和序列空间的采样

  • flatironinstitute/DeepFRI 基于结构和GCN的蛋白质功能预测

  • j3xugit/RaptorX-3DModeling RaptorX 通过深度卷积残差网络预测蛋白质接触/距离/方向和局部结构特性(例如,二级结构和 phi/psi 角度)。它还使用预测的距离/方向和 phi/psi 角度构建蛋白质序列的 3D 模型。

  • FreyrS/dMaSIF 蛋白质表面的快速端到端学习.蛋白质的生物学功能由其 3D 分子表面的几何和化学结构定义。最近的工作表明,几何深度学习可用于蛋白质的基于网格的表示,以识别潜在的功能位点,例如潜在药物的结合目标。不幸的是,使用网格作为蛋白质结构的底层表示有多个缺点,包括需要预先计算输入特征和网格连接性。这成为蛋白质科学中许多重要任务的瓶颈。在本文中,我们提出了一个新的蛋白质结构深度学习框架,以解决这些限制。

  • nferruz/ProtGPT2 一种蛋白质语言模型,可用于从头蛋白质设计和工程。ProtGPT2产生的序列保留了天然蛋白质的关键特征(氨基酸倾向、二级结构含量和球形度),同时探索蛋白质空间的未被发现的区域。

  • Superzchen/iLearnPlus 具有基于图形和基于 Web 的用户界面的机器学习平台,可以构建自动化机器学习管道,以使用核酸和蛋白质序列进行计算分析和预测。

  • baldassarreFe/graphqa 使用图卷积网络进行蛋白质质量评估

  • phermosilla/IEConv_proteins 用于学习 3D 蛋白质结构的内在-外在卷积和池化

  • sameerkhurana10/DSOL_rv0.2 深度蛋白质溶解度预测

  • luoyunan/ECNet 用于蛋白质工程的进化上下文集成深度学习框架

  • luoyunan/ECNet 用于蛋白质工程的进化上下文集成深度学习框架

  • deepmodeling/Uni-Fold Uni-Fold:训练您自己的深度蛋白质折叠模型。

  • bigbio/py-pgatk 蛋白质组学分析工具包的 Python 工具。蛋白质组学是生物学研究的一个领域,它利用蛋白质组学、基因组学和转录组学的组合来帮助发现和识别/量化肽和蛋白质。蛋白质组学用于通过将 MS/MS 光谱与源自基因组和转录组学信息的蛋白质数据库进行比较来识别新肽。

  • zjunlp/OntoProtein OntoProtein 是一种将 GO(Gene Ontology)中的结构用于文本增强的蛋白质预训练模型的有效方法。一种知识增强的蛋白质语言模型,它共同优化了 KE 和 MLM 目标,为广泛的蛋白质任务带来了出色的改进。并且我们引入了ProteinKG25,一个新的大规模KG数据集,促进了蛋白质语言预训练的研究。支持ss3, ss8( 3-class and 8-class protein secondary structure 3类和8类蛋白质二级结构), contact, remote_homology, fluorescence 荧光, stability 稳定等下游任务。

  • ProteinDesignLab/protein_seq_des 具有学习潜力的蛋白质序列设计

  • gjoni/trRosetta 从序列数据中预测蛋白质残基间几何形状的软件包

  • gjoni/trDesign 用于蛋白质设计的 trRosetta

  • RosettaCommons/RFDesign 使用 RoseTTAFold 实现蛋白质幻觉(AI 生成)和修复

  • facebookresearch/esm 进化规模建模 (esm):蛋白质的预训练语言模型

  • uw-ipd/RoseTTAFold2NA RoseTTAFold2蛋白/核酸复合物预测

药物发现、药物设计

  • DeepGraphLearning/torchdrug 药物发现强大而灵活的机器学习平台

  • jdurrant/deepfrag 药物发现是一个成本高昂且耗时的过程。在前期,研究员试图找到能够初步抑制某些疾病关联蛋白的苗头化合物。但这些化合物必须经过先导优化,包括添加或交换某些化学部分,旨在提高化合物的结合亲合力或其他与吸收、分布、代谢、排泄和毒性有关的化学性质(ADMET)。而计算机辅助药物设计(CADD)能够加速前期的这些研究。例如,作者团队最近开发了基于3D卷积神经网络的模型DeepFrag来进行更进一步的先导优化,不幸的是,基于深度学习的模型对于非计算机专业研究者并不友好。为了追求更高的易用性,作者开发了名为DeepFrag的网页应用,为对编程不太熟悉的研究人员提供了图形化的界面,利用本地资源即可运行DeepFrag进行CADD的研究。

  • Mariewelt/OpenChem 用于计算化学和药物设计研究的深度学习工具包

  • deepchem/deepchem DeepChem 旨在提供一个高质量的开源工具链,使深度学习在药物发现、材料科学、量子化学和生物学中的使用民主化。

  • maxime-langevin/scaffold-constrained-generation 基于现有的 SMILES 循环神经网络模型来执行支架约束生成。支架约束生成和优化并不是很好研究的问题,但在处理药物发现项目时(尤其是在化合物的后期优化中),这是我们试图解决的问题。

  • pyli0628/MPG 一种有效的自我监督框架,用于学习药物发现的表达性分子全局表示

  • luost26/3D-Generative-SBDD 基于结构的药物设计的 3D 生成模型 (NeurIPS 2021)

  • XuhanLiu/DrugEx 多药理学中基于帕累托的多目标优化药物设计深度学习工具包。由于可用于寻找可行的类药物分子的类药物化学空间大,合理的药物设计通常从添加或修饰侧链/取代基的特定支架开始。随着深度学习在药物发现中应用的快速增长,已经开发出多种有效的方法来进行从头药物设计。提出了DrugEx 的方法,该方法可以应用于基于多目标深度强化学习的多药理学。为了提高普遍适用性, DrugEx 以设计基于支架的药物分子,支架由用户提供的多个片段组成。在这项工作中,Transformer 用于生成分子结构。Transformer 包含一个接收支架作为输入的编码器和一个生成分子作为输出的解码器。为了处理分子的图形表示,我们提出了一种基于邻接矩阵的每个原子和键的新位置编码,以扩展 Transformer 的架构。每个分子都是通过生长和连接给定支架中的片段的程序生成的,这些片段被统一到一个模型中。此外,我们在强化学习框架下训练了这个生成器,以增加所需配体的数量。

    kekegg/DLEPS 利用深度学习从基因转录数据中预测药物疗效

    tencent-ailab/DrugOOD 人工智能辅助药物发现的 OOD 数据集和基准

药物-靶标 药物-药物 化合物-蛋白质 相互作用

  • ddinter.scbdd.com 专门针对药物-药物相互作用的综合、专业和开放存取的数据库。它为每个 DDI 关联提供了丰富的注释,包括机制描述、风险级别、管理策略、替代药物等,以改善临床决策和患者安全。

  • kexinhuang12345/DeepPurpose PyTorch来解锁50多个用于药物-靶标相互作用(Drug-Target Interaction)预测的模型。DTI预测是新药研发中的一项基本任务。DeepPurpose的操作模式是像scikit-learn一样。只需几行代码,就可以利用最前沿的深度学习和药物研发模型。DeepPurpose还有一个简单的界面来做DTI预测的两个重要应用:虚拟筛选(Virtual Screening)和旧药新用(Drug Repurposing)。

  • ETHmodlab/molgrad 通过将积分梯度可解释人工智能(XAI)方法应用于图神经网络模型,提高了理性分子设计的建模透明度,并基于四个药理学相关ADME终点的实验,验证了所提出的方法能够突出与已知药效团基序一致的分子特征和结构元素,正确识别性质断崖,并提供了对非特异性配体-靶标相互作用的见解。

  • thinng/GraphDTA 使用图神经网络预测药物-靶标的结合亲和力

  • isjakewong/MIRACLE 多视图图对比表示学习用于药物药物相互作用预测

  • FangpingWan/DeepCPI 基于深度学习的化合物和蛋白质相互作用预测框架

  • yueyu1030/SumGNN multi-typed drug interaction prediction via efficientknowledge graph summarization 基于高效知识图谱汇总的多类型药物关联预测。 整合了DDI信息(药物-药物相互作用)以及生物医学KG数据,并提出了有效的聚合机制以进行DDI预测。实验结果表明,该模型具有良好的预测性能。

  • kanz76/SSI-DDI 预测药物之间不良DDI的深度学习框架。首次将药物间相互作用预测的任务转化为子结构间相互作用预测的任务。实验结果表明,该方法有着目前最好的性能。并在transductive和inductive (冷启动场景)设置方面都取得了良好的效果。

  • jacklin18/KGNN IJCAI'20 "KGNN: Knowledge Graph Neural Network for Drug-Drug Interaction Prediction" 基于知识图谱的图神经网络(KGNN),以解决DDI预测问题。该框架可通过在KG中挖掘相关联的关系,来有效地捕获药物及其潜在的邻域实体信息。

  • twopin/CAMP 用于多层次肽-蛋白质相互作用预测的基于卷积注意力的神经网络

  • lvguofeng/GNN_PPI 提出了一种基于图神经网络的方法 (GNN-PPI),以更好地预测新蛋白质之间的相互作用。在不同规模的真实世界数据集上的实验结果表明,GNN-PPI 显着优于最先进的 PPI 预测方法,特别是对于小说间的蛋白质相互作用预测。

  • Liuxg16/GeoPPI 用于模拟突变对蛋白质-蛋白质结合亲和力的影响的深度几何表示

  • biomed-AI/GraphPPIS GraphPPIS 是一种使用深度图卷积网络进行基于结构的蛋白质-蛋白质相互作用位点预测的新框架,它能够从高阶空间相邻氨基酸中捕获信息。

  • aqlaboratory/hsm 使用机器学习对蛋白质-肽相互作用和信号网络进行生物物理预测

  • THinnerichs/DTI-VOODOO 使用深度图学习方法进行药物靶标相互作用预测的 PPI 网络驱动方法。

  • ohuelab/QEPPI 针对蛋白质-蛋白质相互作用的化合物早期筛选的定量估计指数

  • DeepRank/deeprank使用 CNN 数据挖掘蛋白质-蛋白质相互作用的深度学习框架

  • violet-sto/TGSA TGSA 的 PyTorch 实现:基于蛋白质-蛋白质关联的双图神经网络用于相似性增强的药物反应预测

  • PaddleHelix/drug_target_interaction/sign 用于预测蛋白质-配体结合亲和力的结构感知交互式图神经网络

  • biomed-AI/GraphSite 用于使用图形转换器和来自 AlphaFold2 的预测蛋白质结构进行基于序列的蛋白质-DNA 结合位点预测。

  • pharmai/plip 根据 PDB 文件分析和可视化非共价蛋白质-配体相互作用

  • Layne-Huang/EGFI 融合丰富实体和句子信息的药物-药物相互作用提取和生成

  • Ieremie/TransformerGO 通过对基因本体术语集之间的注意力进行建模来预测蛋白质-蛋白质相互作用

  • YifanDengWHU/DDIMDL 具有多种药物特征的多模式深度学习框架来预测药物-药物相互作用(DDI)事件。

  • CSUBioGroup/BACPI 用于化合物-蛋白质相互作用和结合亲和力预测的双向注意力神经网络

  • biomed-AI/CoSMIG 多关系归纳药物-基因相互作用预测的交际子图表示学习

  • IsXudongZhang/Molormer 基于分子图空间结构的轻量级自注意药物相互作用预测方法

分子

  • futianfan/CORE 利用复制和改进策略自动优化分子

  • zhang-xuan1314/Molecular-graph-BERT 面向药物分子性质预测的大规模原子表征预训练模型

  • microsoft/Graphormer 图结构数据上的Transformer变种,应用于2D 分子化学结构图预测分子性质,还可以应用于主流图预测任务、社交网络的推荐和广告、知识图谱、自动驾驶的雷达点云数据、对交通物流运输等的时空预测和优化、程序理解和生成等等,还包括分子性质预测所涉及的行业,比如药物发掘、材料发现、分子动力学模拟、蛋白质结构预测等等。

  • dptech-corp/Uni-Mol 通用的 3D 分子预训练框架,显着扩大了药物设计中的表示能力和应用范围。由两个模型组成:一个由 209M 分子 3D 构象训练的分子预训练模型; 由 3M 候选蛋白质口袋数据训练的口袋预训练模型。两种模型独立用于不同的任务,并在用于蛋白质-配体结合任务时结合使用。 Uni-Mol 在 14/15 分子特性预测任务中优于 SOTA。 此外,在3D空间任务中实现了卓越的性能,包括蛋白质-配体结合位姿预测(protein-ligand binding pose prediction)、分子构象生成(molecular conformation generation)等。

  • https://github.com/HIPS/neural-fingerprint 图卷积网络用于学习分子指纹。使用神经网络在数据样本中归纳总结,然后来预测新型分子的属性或者性质。

  • https://github.com/binghong-ml/MolEvol 通过可解释进化进行分子优化

  • MinkaiXu/GeoDiff 用于分子构象生成的几何扩散模型 (ICLR 2022)。

  • MinkaiXu/ConfVAE-ICML21 基于双层规划的端到端分子构象生成框架

  • https://github.com/mohimanilab/molDiscovery 使用质谱数据预测分子的身份

  • https://github.com/binghong-ml/retro_star 自提升策略规划真实且可执行的分子逆合成路线

  • GraphPKU/3DLinker 用于分子链接器设计的 E (3) 等变变分自动编码器

  • https://github.com/marcopodda/fragment-based-dgm 基于片段的分子深度生成模型.作者在ZINC数据集上进行了实验,该数据由250K类药物化合物组成。为了进一步评估LFM的影响,作者还使用了Pub Chem Bio Assay(PCBA)数据集测试了模型变体,该数据集包括约440k小分子。

  • https://github.com/torchmd/torchmd 一个混合经典和机器学习势的分子模拟(molecular simulations)的框架。通过将MD(经典分子动力学)中的键合和非键合力术语扩展到任意复杂的DNN上,实现了机器学习势的快速成型和集成。TorchMD关键点:一,PyTorch编写,容易集成其他ML模型;二,提供执行端到端可微模拟能力,在参数上都是可微的。

  • https://github.com/MolecularAI/GraphINVENT 基于GNN的分子生成平台

  • https://github.com/shenwanxiang/bidd-molmap MolMapNet 可预测药物特性,通过广泛学习的基于知识的分子表示对药物特性进行开箱即用的深度学习预测

  • https://github.com/DeepGraphLearning/GraphAF 基于Flow的自回归模型,以生成真实多样的分子图。由于标准化Flow的灵活性,GraphAF能够模拟复杂的分子分布,并在实验中生成新的和100%有效的分子。

  • https://github.com/anny0316/Drug3D-Net 提出了一种新的基于分子空间几何结构的深度神经网络结构Drug3D-Net,用于预测分子性质。它是基于网格的三维卷积神经网络,具有时空门注意模块,可以提取卷积过程中分子预测任务的几何特征。

  • deepmodeling/deepmd-kit 用于多体势能表示和分子动力学的深度学习包

  • lol88/Mol2Context-vec 提供了一种深入的上下文感知分子表示,以推动药物发现的边界。它可以整合不同层次的内部状态,带来丰富的分子结构信息。

  • jcchan23/CoMPT 本文提出了Communicative Message Passing Transformer网络,一种通过在Transformer架构中融合消息传递机制并加强节点与边之间的消息交互来改进药物分子图的表征方法。此外,受热扩散现象的启发,该表征方法通过将消息传递机制转化为消息扩散机制减少了消息过度富集的影响。大量实验表明,本文提出的模型在七个化学性质数据集(图级任务)和两个化学位移数据集(节点级任务)上的性能优于基线模型的性能(平均性能提升约4%)。可视化研究也进一步表明该模型实现了更好的药物分子图表征能力。

  • zetayue/MXMNet 具有分子结构多重图的分子力学驱动图神经网络

  • ChenDdon/AGBTcode 代数图辅助双向变换器用于分子特性预测”的实现

  • yvquanli/trimnet 论文代码“TrimNet:从生物医学的三元组消息中学习分子表示”

  • lmmpf/PyAutoFEP PyAutoFEP:用于 GROMACS 的自动化 FEP 工作流程,集成了增强的采样方法.PyAutoFEP 是一种自动化自由能扰动 (FEP) 计算的工具,用于估计小分子与大分子目标的相对自由能结合 (RFEB)。它自动生成微扰图、构建配体对的双拓扑、设置 MD 系统和分析。与众不同的是,PyAutoFEP 支持多个力场,集成了增强的采样方法,并允许灵活的 λ 窗口方案。

  • hannesstark/3dinfomax 通过使用分子的 3D 几何来预训练 GNN,使自我监督学习对分子起作用。在 DGL 和 Pytorch Geometric 中实现。

  • microsoft/FS-Mol FS-Mol 是一个 Few-Shot 分子学习数据集,包含具有针对各种蛋白质靶标的活性测量值的分子化合物。该数据集提供了一个模型评估基准,旨在推动分子和图形结构数据领域的小样本学习研究。

  • zhichunguo/Meta-MGNN 用于分子性质预测的小样本图学习

  • illidanlab/MoCL-DK 论文 MoCL 的实现:具有多层次领域知识的分子图对比学习

  • smiles724/Molformer Molformer(以前称为 3D-Transformer)的存储库,它在许多分子表示学习问题中实现了最先进的技术。

  • gasteigerjo/dimenet DimeNet 和 DimeNet++ 模型,如“分子图的定向消息传递”(ICLR 2020)和“非平衡分子的快速和不确定性感知定向消息传递”(NeurIPS-W 2020)中提出

  • LiteGEM/kddcup2021-PCQM4M-LSC LiteGEM:KDD Cup 2021 PCQM4M-LSC解决方案. PCQM4M-LSC是量子化学数据集,任务是预测给定分子的重要分子特性,即HOMO-LUMO间隙(图形回归)。即一个分子图的量子特性回归数据集,它包含了3,803,453个图。它基于PubChemQC项目的归纳式图回归数据集。它包含约400万以SMILES串描述的小分子。目的是加速量子化学计算,尤其是预测每个分子的HOMO-LUMO轨道距离。HOMO-LUMO距离是量子化学中最重要的属性之一,因为他和分子的反应性、光激励、电荷输送有关。每个分子的真实标签是通过昂贵的DFT计算得到,每个分子需要计算几个小时。在足够的训练数据支持下,类似GNN的基于分子图网络的机器学习模型,可以以很小代价得到近似DFT的结果。这些分子根据他们的PubChem ID按照8:1:1划分作为训练、验证、测试数据集。

  • deepmind//ogb_lsc/pcq DeepMind 进入OGB大规模挑战赛(OGB-LSC) 的PCQM4M-LSC(量子化学)轨道的条目 。通过汇集 20 个模型(10 倍 x 2 个种子)的集合来实现的。

  • divelab/MoleculeX 用于分子探索的全新且快速发展的机器学习方法和软件工具。MoleculeX 的最终目标是实现各种基本和复杂的分子建模任务,例如分子性质预测、3D 几何建模等。目前,包括一套机器学习方法,用于基态 3D 分子几何预测和分子属性预测。具体来说,BasicProp包括基于图神经网络的基本监督学习方法,用于分子特性预测。BasicProp适用于有大量标记样本可用的任务,因此只需要监督学习。BasicProp已用于参与2021年OGB-LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了软件工具来处理我们提出的 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的包只包含 Molecule3D 模块代码。

  • divelab/MoleculeX 用于分子探索的全新且快速发展的机器学习方法和软件工具。MoleculeX 的最终目标是实现各种基本和复杂的分子建模任务,例如分子性质预测、3D 几何建模等。目前,包括一套机器学习方法,用于基态 3D 分子几何预测和分子属性预测。具体来说,BasicProp包括基于图神经网络的基本监督学习方法,用于分子特性预测。BasicProp适用于有大量标记样本可用的任务,因此只需要监督学习。BasicProp已用于参与2021年OGB-LSC是获胜者之一。当只有少量标记样本可用时,AdvProp包括用于分子特性预测的机器学习方法,因此需要自我监督学习来实现理想的性能。此外,AdvProp能够处理来自不同类别的样本高度不平衡的任务。在这些情况下,我们采用先进的损失函数来优化曲线下的各个区域 (AUC)。AdvProp已被用于参与COVID-19 的 AI 治愈公开挑战赛排名第一。此外,Molecule3D提供了一套软件工具来处理我们提出的 Molecule3D 数据集,这是一种专门为基态 3D 分子几何预测而设计的新型数据集。它还包括几种几何预测的基线方法,以及使用预测的 3D 几何作为输入的量子特性预测方法。目前,MoleculeX 的 pip 包只包含 Molecule3D 模块的代码。我们将在未来逐步包含其他模块。

  • PattanaikL/GeoMol 直接从分子图生成 3D 构象集合的方法

  • IBM/QMO 基于查询的分子优化。利用来自分子自动编码器的潜在嵌入。在一组分子特性预测和评估指标的指导下,基于有效查询改进输入分子的所需特性

  • grogdrinker/pyuul 旨在处理大分子的 3D 结构,例如 PDB,将它们转换为完全可微分的数据结构。

  • Saoge123/ccgnet Co-Crystal Graph Network是二元有机共晶虚拟筛选的深度学习框架,将先验知识融入分子图的特征学习中,实现共晶筛选性能的极大提升。

  • ZJU-Fangyin/KCL 化学元素知识图谱的分子对比学习

  • nyu-dl/dl4chem-mgm 用于Masked 图建模分子生成中进行实验的模型、数据和脚本。

  • ccsb-scripps/AutoDock-Vina 速度最快、使用最广泛的开源分子对接引擎之一。基于简单的评分函数和快速梯度优化构象搜索。它最初由分子图形实验室的 Oleg Trott 博士设计和实现。在分子建模领域,对接docking是一种在配体和靶标相互结合形成稳定复合物时,预测一个分子对第二个分子的优选取向的方法。 反过来,优选方向的知识可用于预测两个分子之间的缔合强度或结合亲和力,例如使用评分函数。将小分子配体与蛋白质靶标对接产生稳定复合物。蛋白质、肽、核酸、碳水化合物和脂质等生物学相关分子之间的关联在信号转导中起着核心作用。此外,两个相互作用伙伴的相对方向可能会影响产生的信号类型(例如,激动与拮抗)。因此,对接对于预测产生的信号的强度和类型非常有用。分子对接是基于结构的药物设计中最常用的方法之一,因为它能够预测小分子配体与适当靶结合位点的结合构象。结合行为的表征在药物的合理设计以及阐明基本的生化过程中起着重要作用。

  • devalab/molgpt 使用下一个令牌预测任务在 Moses 和 Guacamol 数据集上训练小型自定义 GPT。然后将该模型用于无条件和有条件的分子生成。我们将我们的模型与之前在 Moses 和 Guacamol 数据集上的方法进行比较。使用Ecco库获得显着性图的可解释性。

  • tencent-ailab/grover 大规模分子数据上的自监督图转换器。支持预训练、微调、预测、指纹生成和评估功能。

  • rampasek/GraphGPS 通用、强大、可扩展的图形转换器的秘诀。如何构建图形转换器? 我们提供了一个由 3 部分组成的秘诀,介绍如何构建具有线性复杂度的图形转换器。 我们的 GPS 配方包括选择 3 种主要成分:位置/结构编码:LapPE、RWSE、SignNet、EquivStableLapPE,本地消息传递机制:GatedGCN、GINE、PNA,全局注意力机制:Transformer、Performer、BigBird。在ZINC 数据集上的图形回归任务目前SOTA。ZINC 是用于虚拟筛选的商用化合物的免费数据库。 ZINC 包含超过 2.3 亿种可购买的即用型 3D 格式化合物。 ZINC 还包含超过 7.5 亿种可购买的化合物,可用于搜索类似物。

  • wenhao-gao/mol_opt 实用分子优化 (PMO) 的开源基准,以促进对分子优化算法进展的透明和可重复评估。支持 23 种任务的 25 种分子设计算法。

  • THUDM/GraphMAE 生成式自监督图学习方法,在节点分类、图分类和分子特性预测等任务上与现有对比方法相比具有竞争力或更好的性能。

  • lucidrains/egnn-pytorch E(n)-等变图网络, 可能最终用于Alphafold2 复制。 适用于简单的不变特征,最终在准确性和性能上击败了所有以前的方法(包括 SE3 Transformer 和 Lie Conv)。 动力系统模型、分子活动预测任务等中的 SOTA。

  • OptiMaL-PSE-Lab/DeepDock 预测生物活性分子结合构象的几何深度学习方法

  • hongliangduan/Self-supervised-molecular-pretraining-strategy-for-low-resource-reaction-prediction-scenarios 低资源反应预测场景的自监督分子预训练策略

抗菌肽

  • https://github.com/vail-uvm/amp-gan 一种基于双向条件生成对抗网络的抗菌肽(AMPs)设计方法AMPGAN v2。AMPGAN v2使用生成器和鉴别器来学习数据驱动的先验知识,并使用条件变量控制生成。

  • https://github.com/reymond-group/MLpeptide 机器学习设计非溶血性抗菌肽。使用来自DBAASP的数据训练RNN来设计非溶血性抗菌肽(Antimicrobial peptides, AMP),合成并测试了28个生成肽,鉴定出针对绿脓杆菌、鲍曼不动杆菌和耐甲氧西林金黄色葡萄球菌 (MRSA) 的8种新的非溶血性 AMP。结果表明机器学习可以用来设计非溶血性AMP。

  • https://github.com/IBM/controlled-peptide-generation IBM利用深度生成模型和分子动力学模拟加速抗菌肽发现

其他_生物医药

KailiWang1/DeepDTAF 预测蛋白质与配体结合亲和力的深度学习方法

cansyl/MDeePred 多通道蛋白质的特征化来解决深度学习下药物发现中亲和力预测问题

CBLUEbenchmark/CBLUE 中文医疗信息处理基准CBLUE 8个中文医疗语言理解任务。包括医学文本信息抽取(实体识别、关系抽取)、医学术语归一化、医学文本分类、医学句子关系判定和医学QA共5大类任务8个子任务。

mims-harvard/TDC Therapeutics Data Commons (TDC),第一个机器学习在生物医药的大规模数据集。TDC目前包含了20+有意义的任务,和70多个高质量数据集,从靶蛋白的发现,药物动力学,安全性,药物生产都有包含到。而且不仅仅是小分子,还有抗体,疫苗,miRNA等。之后也会加入CRISPR,Clinical Trials等等。

lrsoenksen/CL_RNA_SynthBio RNA合成生物学的深度学习

uci-cbcl/UFold 利用深度学习进行快速准确的 RNA 二级结构预测

lanagarmire/DeepImpute 一种基于深度神经网络来插补单细胞RNA测序数据的方法

emreg00/toolbox 疾病和药物相关的生物学数据集时所使用的各种脚本。它包含用于数据处理的通用实用程序(例如,解析,基于网络的分析,邻近性等)。

ruoqi-liu/DeepIPW 基于真实世界患者数据的药物重定位的深度学习框架

CutillasLab/DRUMLR 利用机器学习预测抗癌药物疗效。提出Drug Ranking Using ML方法,使用omics数据,根据药物抗肿瘤细胞增殖疗效对超过400种药物进行排序。

kaist-amsg/Synthesizability-PU-CGCNN 基于半监督学习的晶体结构的合成预测

xiaoyeye/CCST 使用图神经网络对空间转录组学数据进行细胞聚类。利用最近的两个技术发展,空间转录组学和图神经网络,用图神经网络进行空间转录组学数据的细胞聚类,一种基于图卷积网络的无监督细胞聚类方法,以改进从头算细胞聚类和发现 基于策划的细胞类别注释的新型子细胞类型。 CCST是处理各种空间分辨转录组学的通用框架。

WLYLab/PepFormer 基于Transformer的对比学习框架实现多肽可检测性预测

NYSCF/monoqlo_release 提出了模块化的深度学习框架Monoqlo来自动识别细胞集落,并从细胞成像中识别克隆性。

deepmodeling/deepks-kit DeePKS: A Comprehensive Data-Driven Approach toward Chemically Accurate Density Functional Theory 提出了构建准确且高效的密度泛函模型的通用机器学习框架,并且利用这一框架训练了具有化学精度的密度泛函模型,应用于电子结构性质的计算。

juexinwang/scGNN 新型的用于单细胞RNA测序分析的图神经网络框架

liulizhi1996/HPOFiller 一种基于图卷积网络(GCN)的方法,用于预测缺失的HPO注释。 人类表型本体(HPO)是描述人类疾病中遇到的表型异常的标准化词汇(疾病的术语)。探索人类蛋白质和异常表型之间的关系在疾病的预防、诊断和治疗中具有重要意义。

zty2009/GCN-DNN 基于图卷积网络和深度神经网络的药物靶点相互作用识别

WebyGit/CGINet 大规模药物信息网络构建及图卷积预测模型

ziyujia/SalientSleepNet 用于睡眠分期的多模态凸波检测网络

ziyujia/Physiological-Signal-Classification-Papers 500余篇基于机器学习/深度学习的生理信号分类论文列表

ziyujia/Sleep-Stages-Classification-Papers 基于深度学习的睡眠阶段分类论文列表

ziyujia/Motor-Imagery-Papers 基于深度学习的运动想象分类论文列表

BojarLab/SweetNet 图卷积神经网络分析复杂碳水化合物。

jaswindersingh2/SPOT-RNA2 利用进化概况、突变耦合和二维迁移学习改进了RNA二级结构和三级碱基配对预测

QSong-github/scGCN 单细胞图卷积网络模型(single-cell Graph Convolutional Network)可以实现跨越不同数据集的知识转移(knowledge transfer)。通过在30个单细胞组学数据集上进行基准测试实验,结果表明scGCN在利用来自不同组织、平台和物种以及分子层的细胞方面展现了优于其他方法的准确性。

mauragarofalo/LICTOR 抗体体细胞突变的机器学习分析预测免疫球蛋白轻链毒性

JieZheng-ShanghaiTech/KG4SL 用于人类癌症合成致死预测的知识图神经网络

immunogenomics/symphony 使用 Symphony 进行高效、精确的单细胞参考图谱映射

calico/scnym 用于对单细胞分类的半监督对抗式神经网络

enformer 一种新的Transformer模型,“通过整合长程相互作用从序列中有效预测基因表达“,可大大提高从 DNA 序列预测基因表达的准确性,其能够「阅读」很长的 DNA 序列,可处理的序列长度达到之前的 5 倍(20W 个碱基对)

schulter/EMOGI 一种基于图卷积网络的可解释多组学图集成方法预测癌症基因。

hui2000ji/scETM 生成主题模型,可促进对大规模单细胞 RNA 测序数据的综合分析。

Google-Health/genomics-research Google Health 共享的基因组学研究代码

CompbioLabUCF/omicsGAN omicsGAN 是一种基于生成对抗网络的框架,可以将两个 omiocs 数据与其交互网络相结合,以生成与每个组学特征相对应的合成数据,从而可以更好地预测表型。乳腺癌表型预测的样本数据集。

BackofenLab/CRISPRloci CRISPRloci 在细菌和古细菌基因组上提供了 CRISPR-Cas 系统的自动化和全面的计算机表征。它是完整的 CRISPR 基因座表征套件,包括 CRISPR 阵列定向、保守前导检测、cas 基因注释和亚型分类。

suhrig/arriba 从 RNA-Seq 数据中快速准确地检测基因融合

haiyang1986/Subtype-GAN 多组学数据综合癌症亚型的深度学习方法

oxpig/dlab-public “DLAB——基于结构的抗体虚拟筛选的深度学习方法”论文代码

heislab/scarches scArches 是一个将新生成的单细胞数据集集成到集成参考图谱中的包。我们的方法可以通过分散的培训和不同组的多个数据集的集成来促进大型协作项目。scArches 与scanpy兼容。并为单细胞数据托管了几个条件生成模型的有效实现。

  • 构建单模态或多模态 (CITE-seq) 参考图集并共享经过训练的模型和数据(如果可能)。
  • 为您感兴趣的地图集下载预先训练的模型,使用新数据集对其进行更新并与您的合作者分享。
  • 在参考的顶部投影和集成查询数据集,并使用潜在表示进行下游任务,例如:差异测试、聚类、分类

HantaoShu/DeepSEM 基于深度学习的方法,具有新颖的神经网络架构,可以推断基因调控网络,嵌入scRNA-seq数据,并通过解释不同的模块来模拟真实的scRNA-seq数据。

Tsedao/MultiRM 基于注意力的多标签神经网络,用于对十二种广泛发生的 RNA 修饰进行综合预测和解释

hybrid-kg/clep 用于生成由数据和先验知识驱动的新患者表示的 Python 包

d909b/drnet 剂量反应网络 (DRNets) 是一种学习方法,用于学习使用神经网络从观察数据中估计多个参数治疗的个体剂量反应曲线。

claudiashi57/dragonnet 适应神经网络以估计治疗效果 使用神经网络从观察数据中估计因果效应的方法。

PaddlePaddle/PaddleHelix 螺旋桨(PaddleHelix)是一个生物计算工具集,是用机器学习的方法,特别是深度神经网络,致力于促进以下领域的发展:

  • 新药发现。提供1)大规模预训练模型:化合物和蛋白质; 2)多种应用:分子属性预测,药物靶点亲和力预测,和分子生成。
  • 疫苗设计。提供RNA设计算法,包括LinearFold和LinearPartition。
  • 精准医疗。提供药物联用的应用。

OATML-Markslab/EVE 论文“使用进化数据和深度学习对遗传变异进行大规模临床解释”的官方存储库。

ZJUFanLab/scDeepSort 使用带有加权图神经网络的深度学习对单细胞转录组学进行细胞类型注释.单细胞 RNA 测序 (scRNA-seq) 的最新进展已经实现了对多个复杂组织中数千个细胞的大规模转录表征,其中准确的细胞类型识别成为 scRNA-seq 研究的先决条件和重要步骤。开发了一种预训练的细胞类型标注方法,scDeepSort 是基于加权 GNN 框架构建的,然后在两个嵌入的高质量 scRNA-seq 图集中学习,该图集包含人类和小鼠 88 个组织中的 764,741 个细胞。

jianhuupenn/SpaGCN SpaGCN:整合基因表达、空间位置和组织学,通过图卷积网络识别空间域和空间可变基因

immunogenomics/symphony 使用 Symphony 进行高效、精确的单细胞参考图谱映射

kipoi/models 基因组学的预测模型,并用作Kipoi的模型源。Kipoi(发音:kípi;来自希腊语 κήποι:gardens)是一个API和用于基因组学的即用型训练模型的存储库。它目前包含 2201 个不同的模型,涵盖转录和转录后基因调控中的规范预测任务。例如预测称为转录因子的蛋白质如何与DNA结合,或者酶可能在何处拼接遗传密码。

LiuJJ0327/CCPE scRNA-seq 数据的细胞周期假体估计。细胞周期(cell cycle)是指细胞从一次分裂完成开始到下一次分裂结束所经历的全过程,分为间期与分裂期两个阶段。

broadinstitute/Tangram 单细胞转录组数据的空间对齐。单细胞数据集和空间数据集应该从相同的解剖区域/组织类型中收集,最好是从生物复制中收集,并且需要共享一组基因。Tangram 通过在共享基因上拟合基因表达来对齐空间中的单细胞数据。

franciscozorrilla/metaGEM 一个易于使用的工作流程,用于生成特定于上下文的基因组规模代谢模型并直接从宏基因组数据预测微生物群落内的代谢相互作用

scverse/scvi-tools 单细胞组学数据的深度概率分析

www.serratus.io 一个开放科学的病毒发现平台。NCBI 序列读取存档数据库包含来自全球研究实验室十多年来收集的数百万个生物多样性样本的 DNA 和 RNA 测序数据。我们正在重新分析 NCBI 短读存档中的所有 RNA-seq、元基因组学、元转录组学和环境测序数据,以发现新病毒。即>600 万个生物样本或 >10 PB 的测序数据。

BioDynaMo/biodynamo 生物动力学建模器 可以通过该平台轻松创建、运行和可视化 3D 生物模拟。BioDynaMo 平台建立在最新的计算技术之上,将使用户能够执行以前无法实现的规模和复杂性的模拟,从而有可能解决具有挑战性的科学研究问题。

RasmussenLab/vamb 用于宏基因组分档的变分自动编码器

XieResearchGroup/DeepREAL 深度学习驱动的多尺度建模框架,用于预测配体结合的分布外受体活性

rankchen121212/RHSNet 用于重组热点识别和量化的 RHSNet 的 TF 和 Keras 实现。 重组热点是基因组中相对于中性预期表现出重组率升高的区域。热点内的重组率可以是周围区域的数百倍。 重组热点是由这些区域中较高的 DNA 断裂形成引起的,适用于有丝分裂和减数分裂细胞。这个称谓可以指由程序减数分裂双链断裂的不均匀分布引起的重组事件。通过交叉进行的减数分裂重组被认为是细胞促进同源染色体正确分离和修复 DNA 损伤的机制。交叉需要 DNA 双链断裂,然后是同源物的链入侵和随后的修复。

microsoft/InnerEye-DeepLearning 用于在 Azure 机器学习上训练和部署 3D 分割模型的医学影像深度学习库

细菌和古细菌细胞结构图谱 随着近 20 年低温电子断层扫描 (cryo-ET) 的发展,我们对细菌和古细菌细胞结构的理解有了爆炸式增长,但传统教科书并没有跟上所有新信息。为了解决这个问题,并与世界分享我们所见,我们创作了这本书。它遵循 1960 年代和 1970 年代细胞结构图谱的传统,显示了不同细胞和组织的显微照片以及扩展的图形图例,以帮助每个人了解他们在看什么。五十年后,我们有了一组新的图像——这次是 3D 冷冻断层照片——以及展示它们的新技术:我们的每个免费数字页面都包含一部 3D 断层照片的电影,而不是一本昂贵的书中的静态 2D 数字。一个单元格,带有注释和动画。

TencentAILabHealthcare/MLA-GNN 对于胶质瘤数据集,基于共表达基因模块用于疾病诊断和预后的多级注意力图神经网络。

TencentAILabHealthcare/scBERT 单细胞RNA-seq数据细胞类型注释的大规模预训练深度语言模型。可靠的细胞类型注释是单细胞RNA测序数据下游分析的先决条件。受大规模预训练语言模型的启发,提出了基于预训练深度神经网络的模型scBERT。scBERT的第一阶段,它通过对大量未标记的scRNA-seq数据进行预训练,获得了对基因 - 基因相互作用的一般理解。然后,预先训练的scBERT可以通过监督微调用于看不见和用户特异性scRNA-seq数据的细胞注释任务。

图数据库图算法

https://github.com/Tencent/plato

https://github.com/dgraph-io/dgraph

https://github.com/hugegraph/hugegraph

https://github.com/vtraag/leidenalg

https://github.com/erikbern/ann-benchmarks 最邻近搜索

vesoft-inc/nebula 分布式、可扩展、闪电般的图形数据库

milvus-io/milvus 大规模特征向量的最快相似度搜索引擎 基于Faiss、Annoy等开源库,并针对性做了定制,支持结构化查询、多模查询等业界比较急需的功能;Milvus支持cpu、gpu、arm等多种类型的处理器;同时使用mysql存储元数据,并且在共享存储的支持下,Milvus可以支持分布式部署。

vearch/vearch 用于嵌入式向量高效相似性搜索的分布式系统

dgraph-io/dgraph The Only Native GraphQL Database With A Graph Backend.

vesoft-inc/nebula Nebula Graph 是一款开源的、分布式的、易扩展的原生图数据库,能够承载数千亿个点和数万亿条边的超大规模数据集,并且提供毫秒级查询。

shobrook/communities 社区检测算法和可视化工具库

jm199504/Financial-Knowledge-Graphs 小型金融知识图谱构建流程

apache/incubator-s2graph S2Graph是一个图形数据库,旨在大规模处理事务性图形处理。它的 REST API 允许您以完全异步和非阻塞的方式使用边缘和顶点表示来存储、管理和查询关系信息。S2Graph 是Apache TinkerPopApache HBASE上的一个实现。

图神经网络GNN

图机器学习库

  • dmlc/dgl Deep Graph Library一个易于使用、高性能和可扩展的 Python 包,用于对图进行深度学习。

  • dmlc/dgl/examples 官方DGL示例和模块,包含与图神经网络相关的选定研究论文的示例实现。半监督节点分类、聚类、节点分类、标签传播、图注意力等。

  • rusty1s/pytorch_geometric PyTorch的深度图学习扩展库。PyG对已发表或者常用的图神经网络和数据集都进行了集成,因而是当前最流行和广泛使用的GNN库。

  • alibaba/euler 分布式图深度学习框架。

  • facebookresearch/PyTorch-BigGraph 从大型图形结构化数据生成嵌入

  • shenweichen/GraphNeuralNetwork 图神经网络的实现和实验,gcn\graphsage\gat等。

  • THUDM/cogdl 图形表示学习工具包,实现的模型,非GNN基线:如Deepwalk,LINE,NetMF,GNN基线:如GCN,GAT,GraphSAGE

  • imsheridan/CogDL-TensorFlow 图表示学习工具包,使研究人员和开发人员可以轻松地训练和比较基线或自定义模型,以进行节点分类,链接预测和其他图任务。它提供了许多流行模型的实现,包括:非GNN基准,例如Deepwalk,LINE,NetMF;GNN基准,例如GCN,GAT,GraphSAGE。

  • CrawlScript/tf_geometric 高效友好的图神经网络库 节点分类:图卷积网络(GCN)、多头图注意力网络(GAT),链接预测:平均池、SAGPooling,图分类:图形自动编码器(GAE)

  • alibaba/graph-learn 旨在简化图神经网络应用的框架。从实际生产案例中提取解决方案。已在推荐,反作弊和知识图系统上得到应用和验证。

  • BUPT-GAMMA/OpenHINE 异构信息网络嵌入(OpenHINE)的开源工具包。实现的模型包括:DHNE,HAN,HeGAN,HERec,HIN2vec,Metapath2vec,MetaGraph2vec,RHINE。

  • PaddlePaddle/PGL 基于PaddlePaddle的高效灵活的图学习框架

  • THUDM/cogdl 由清华大学计算机系知识工程实验室(KEG)开发的基于图的深度学习的研究工具,基于Python语言和Pytorch库。

  • THUMNLab/AutoGL 开源自动图学习工具包AutoGL (Auto Graph Learning),支持在图数据上全自动进行机器学习。

  • benedekrozemberczki/pytorch_geometric_temporal 该库包含来自各种已发表研究论文的dynamic+temporal图深度学习,embedding以及spatio-temporal regression 方法。它还带有许多带有时间和动态图的基准数据集。离散递归图卷积 DCRNN GConvGRU GConvLSTM GC-LSTM LRGCN DyGrEncoder EvolveGCNH EvolveGCNO ;辅助图卷积 Temporal Graph Convolutions 时间图卷积 STGCN ;Auxiliary Graph Convolutions TemporalConv DConv

  • divelab/DIG 支持研究方向:图生成、图自监督学习、图神经网络可解释性以及 3D 图深度学习。对于每个领域,DIG 都提供了通用、可扩展的数据接口、常用算法与评估标准实现。

  • chaitjo/awesome-efficient-gnn 令人敬畏的高效图神经网络,一份关于有效图神经网络和可扩展图表示学习的必读论文的精选列表,用于实际应用。

  • EdisonLeeeee/GraphGallery GraphGallery 是一个用于对图神经网络 (GNN) 进行基准测试的图库。实现的方法:节点分类、图净化、链接预测、节点嵌入。

  • Awesome-GNN-Research 很棒的 GNN 研究

  • quiver-team/torch-quiver 用于快速轻松的分布式图学习的 PyTorch 库

  • GRAND-Lab/Awesome-Graph-Neural-Networks 图神经网络论文列表

  • GNNBook@2022 图神经网络 基础、前沿和应用

  • stellargraph/stellargraph 星际图机器学习库

  • JDGalileo/galileo Galileo(伽利略)是一个图深度学习框架,具备超大规模、易使用、易扩展、高性能、双后端等优点,旨在解决超大规模图算法在工业级场景的落地难题,提供图神经网络和图嵌入等模型的训练评估及预测能力。

图注意力机制

  • PetarV-/GAT Graph Attention Networks 图注意力神经网络

  • inyeoplee77/SAGPool Self-Attention Graph Pooling torch 自我注意力图池化

  • aravindsankar28/DySAT 提出了DYNAMIC SELF-ATTENTION NETWORK,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。

  • jwzhanggy/Graph-Bert 仅基于Attention机制而不依赖任何类卷积或聚合操作即可学习图的表示,并且完全不考虑节点之间的连接信息。通过将原始图分解为以每个节点为中心的多个子图来学习每个节点的表征信息,这不仅能解决图模型的预训练问题,还能通过并行处理还提高效率。

  • dongkwan-kim/SuperGAT ICLR2021|GAT升级版:通过多种自监督方式提升GAT中注意力,性能在15个数据集有所提升。

  • graphdeeplearning/graphtransformer 针对任意图的 Transformer 神经网络架构的泛化 。注意机制是图中每个节点的邻域连通性的函数。位置编码由拉普拉斯特征向量表示,它自然地概括了 NLP 中经常使用的正弦位置编码。层归一化被批量归一化层取代。该架构被扩展为具有边缘表示,这对于边缘信息丰富的任务或成对交互(例如分子中的键类型或 KG 中的关系类型等)至关重要。

  • Graph-COM/GSAT 提出了一种全新的随机注意力机制(Stochastic Attention Mechanism),该机制显示出了强大的可解释能力和泛化能力。对比过去的可解释工作,该机制在6个数据集上提升了至多20%、平均12%的可解释性能;在11个数据集上提升了平均3%的模型准确率,并且在OGBG-MolHiv榜单上达到SOTA(在不使用手工设计的专家特征的模型中)。

异构图、 异质图

  • BUPT-GAMMA/OpenHGNN 这是一个基于 DGL 的异构图神经网络(OpenHGNN)的开源工具包。支持特定任务的模型:RGCN[ESWC 2018]、HAN[WWW 2019]、KGCN[WWW 2019]、HetGNN[KDD 2019]、GTN[NeurIPS 2019]RSHN[ICDM 2019]、DGMI[AAAI 2020]、MAGNN[WWW 2020]、CompGCN[ICLR 2020]、NSHE[IJCAI 2020]、NARS[arxiv]、MHNF[arxiv]、HGSL[AAAI 2021]、HGNN-AC[WWW 2021]、HeCo[KDD 2021]、HPN[TKDE 2021]、RHGNN[arxiv]

  • Jhy1993/HAN 异构图注意力网络,遵循经典的异质图神经网络架构(节点级别聚合与语义级别聚合),为了更好的实现层次聚合函数,HAN利用语义级别注意力和节点级别注意力来同时学习元路径与节点邻居的重要性,并通过相应地聚合操作得到最终的节点表示。

  • brxx122/HeterSumGraph 用于提取文档摘要的异构图神经网络

  • chuxuzhang/KDD2019_HetGNN KDD2019论文中HetGNN的代码:异构图神经网络 用了LSTM作为来聚合某种关系下的节点邻居并更新节点表示。这里的邻居选择也有所不同:通过random walk with restart来选择固定数量的邻居。

  • acbull/pyHGT Heterogeneous Graph Transformer 异构图Transformer 可以处理大规模的异构图和动态图.

  • Googlebaba/KDD2019-MEIRec 基于异质图神经网络的用户意图推荐

  • Andy-Border/HGSL 异质图结构学习(Heterogeneous Graph Structure Learning)问题,并提出了HGSL框架来联合学习适合分类的异质图结构和图神经网络参数。通过挖掘特征相似性、特征与结构之间的交互以及异质图中的高阶语义结构来生成适合下游任务的异质图结构并联合学习GNN参数。HGSL的性能优于基线模型。

  • yuduo93/THIGE 将复杂异质的动态交互行为构建为时序异质交互图(Temporal Heterogeneous Interaction Graph, 简称为THIG)进而同时学习用户兴趣和商品表示用于商品推荐。本文提出了一种时序异质图上的表示学习方法,称之为THIGE,充分建模交互行为的异质性,刻画不同类型的兴趣偏好,并融合长、短期兴趣构建用户、商品表示。最后,在3个真实数据集上验证模型的有效性。

  • iqiyi/HMGNN 异构小图神经网络及其在拉新裂变风控场景的应用.尝试通过图神经网络对欺诈邀请进行检测的方法。在GCN和异构图神经网络的基础上,HMGNN使用超图和异构图卷积克服了小图和异构图带来的问题。并在实际拉新场景中取得了不错的效果。此外,我们也在尝试将其应用到更广阔的场景中,比如金融反欺诈、关注&点赞反作弊等问题。

  • THUDM/cogdl 用于图形表示学习的广泛研究平台

  • kepsail/ie-HGCN 可解释且高效的异构图卷积网络,IEEE TKDE 2021

  • AutoML-Research/DiffMG 异构图神经网络的可微元图搜索

  • jindi-tju/HGNN-AC “WWW21 - 通过属性完成的异构图神经网络”的源代码

  • safe-graph/GNN-FakeNews 基于 GNN 的假新闻检测模型的集合。异构图分类。

  • liun-online/HeCo 具有协同对比学习的自监督异构图神经网络。

  • NSSSJSS/MHGCN 多路异构图卷积网络,节点分类任务,链接预测任务。

图嵌入、网络表征学习

  • thunlp/OpenKE 使用PyTorch实现的知识嵌入开源框架。RESCAL、DistMult, ComplEx, Analogy、TransE, TransH, TransR, TransD、SimplE、RotatE

  • DeepGraphLearning/graphvite GraphVite 高速、大规模图嵌入.通过多个 CPU 和 GPU 加速图形嵌入。只需大约1分钟即可学习具有100万个节点的图形的节点嵌入,从而实现算法和思想的快速迭代。

  • shenweichen/GraphEmbedding 图嵌入算法的实现和实验。算法包括:DeepWalk、LINE、Node2Vec、SDNE、Struc2Vec。

  • thunlp/Fast-TransX Fast-TransX这是TransE及其扩展模型用于知识表示学习的高效轻量级实现,包括 TransH、TransR、TransD、TranSparse 和 PTransE。TensorFlow版

  • thunlp/NRLPapers 关于网络表示学习(NRL)/网络嵌入(NE)的必读论文。

  • Wentao-Xu/SEEK 轻量级知识图谱嵌入框架

  • woojeongjin/dynamic-KG 嵌入动态知识图

  • awslabs/dgl-ke 高性能,易于使用且可扩展的软件包,用于学习大规模知识图嵌入。

  • leoribeiro/struc2vec struc2vec算法学习任何图形中节点的连续表示,捕获节点之间的结构等效性。

  • HLTCHKUST/ke-dialogue 提出了一种将任意大小的知识库直接嵌入到模型参数中的方法

  • aditya-grover/node2vec 由Aditya Grover和Jure Leskovec提出的一种Graph Embedding方法,node2vec在DeepWalk的基础上引入BFS(广度优先搜索)和DFS(深度优先搜索)两种有偏的随机游走方式,以达到分别表征网络的结构对等性(structural equivalence)和同质性(homophily)的目的。

  • jwzhanggy/Graph-Bert 学习图形表示只需要注意力机制。

  • thunlp/OpenNE 该库提供了标准的NE/NRL(网络表示学习)训练和测试框架 :DeepWalk、node2vec、LINE、GraRep、TADW、GCN、GraphFactorization、SDNE

  • Shubhranshu-Shekhar/ctdne 连续时间动态网络嵌入。依据deepwalk与node2vec等模型的启发,作者基于动态图的性质,提出了temporal random walk的概念,即在一条随机游走路径上,从起始节点到终止节点,连边的时态信息依次递增。针对边上存在时态信息的问题,作者提出了unbiased/biased采样算法。采样后的路径将会蕴含动态图中的时态依赖信息。作者在多个动态图数据集上做了实验,并与Deepwalk/Node2vec/LINE等静态图表示学习算法进行了对比。

  • TUM-DAML/pprgo_pytorch 在一个包含1240万个节点,17300万条边组成的大规模图上,PPRGo只花了不到2分钟就给图上所有节点分了类,这2分钟还是包括了预处理、训练、预测的全流程时间. PPRGo先用每个节点的本地特征学习出每个节点的本地embedding,再用PPR矩阵完成本地embedding在图上的传递与聚合。

  • Malllabiisc/CompGCN 针对多关系有向图的图神经网络。该模型实现框架采用了R-GCN提出的Encoder-Decoder框架,在编码阶段将Entity Embedding和Realtion Embedding进行组合Aggregation,然后在解码阶段再采用类似TransE/H或者ConvE等方式对(h,r,t)三元组进行解码。因为它在编码阶段就引入了Realtion,使用同一套Realtion Embedding,使得表征学习更加精准。

  • TimDettmers/ConvE 2D卷积知识图谱嵌入

  • daiquocnguyen/ConvKB 通过使用卷积神经网络改进了最先进的模型,因此它可以捕获实体之间的全局关系和过渡特性,以及知识库中的关系。在ConvKB中,每个三元组(头实体,关系,尾部实体)都表示为3列矩阵,其中每个列向量代表一个三元元素。然后将此3列矩阵馈送到卷积层,在该卷积层上对矩阵操作多个滤波器以生成不同的特征图。然后将这些特征图串联到代表输入三元组的单个特征向量中。通过点积将特征向量与权重向量相乘以返回分数。

  • kavehhassani/mvgrl 通过对比图的结构视图来学习节点和图级表示的自监督方法。通过对比一阶邻居编码和图扩散来实现的。在线性评估协议下,在 8 个节点中的 8 个和图分类基准上实现了新的最先进的自监督学习结果。

  • phanein/deepwalk DeepWalk 使用短随机游走来学习图中顶点的表示。

  • KDDCUP_2020_AutoGraph_1st_Place KDDCUP 2020自动图形表示学习:第一名解决方案。实现了四种不同的模型GCN、GAT、GraphSage、TAGConv.

  • JinheonBaek/GMT 使用 Graph Multiset Pooling 准确学习图表示。GMT 也包含在 PyTorch Geometric 中nn.glob.GraphMultisetTransformer ,可以在其中更轻松地实现模型。贡献:

    • 将图池化问题视为多集编码问题,在此问题下,考虑具有多个注意单元的集合中节点之间的关系,以仅使用一个全局函数来紧凑地表示整个图,而无需额外的消息传递操作。
    • 展示了现有的 GNN 与我们的参数池操作可以与 WL 测试一样强大,并且还可以轻松扩展到具有可学习集群的节点集群方法。
    • 广泛验证了 GMT 在合成图和现实图上的图分类、重建和生成任务,在这些任务上,它在很大程度上优于大多数图池基线。

时空网络_交通预测_动态图

  • guoshnBJTU/ASTGCN-r-pytorch 基于注意的时空图卷积网络,用于交通流量预测。

  • LeiBAI/AGCRN 端到端的流量预测模型-自适应图卷积递归网络。AGCRN可以捕获流量序列中特定于节点的细粒度空间和时间相关性,并通过嵌入DAGG来统一修订GCN中的节点嵌入。这样,训练AGCRN可以针对每个交通系列源(例如,用于交通速度/流量的道路,用于乘客需求的车站/区域)产生有意义的节点表示向量。学习的节点表示包含有关道路/区域的有价值的信息,并且可以潜在地应用于其他任务。

  • nnzhan/Graph-WaveNet 时空序列预测模型,本文目标是,给定图G和历史S步的图信号数据,学习映射关系f,进而预测接下来T步的图信号。源于WaveNet,并在图卷积的基础上提出了动态自适应的邻接矩阵来捕获隐藏的图结构关系。数据集:META-LA是洛杉矶公路探测器收集到的交通数据,有207个传感器搜集了四个月的数据(2012.3.1 2012.6.30);PEMS-BAY是加州交通部门Performance Measurement System搜集到的交通数据,有325个传感器搜集了六个月的数据(2017.1.1 2017.5.31)。

  • Davidham3/STSGCN 时空同步图卷积网络:一种时空网络数据预测的新框架 该模型能够有效地捕捉复杂的局域时空相关性。同时,在模型中设计了多个不同时间段的模块,以有效地捕获局部时空图中的异质性。

  • IBM/EvolveGCN 动态时序知识图谱。为了实现动态学习主要注意以下三点:1、每个时间片单独学习一个GCN,每个GCN输入不同体现在图谱的邻接矩阵不同,但在代码实现时必须要求每个时刻的节点是保持一致的,而节点之间的关系存在变动;2、为了考虑动态图谱联系,用RNN将每个时间片GCN模型参数串起来进行序列学习;3、RNN循环网络采用两种:GRU,LSTM。

  • twitter-research/tgn TGN: Temporal Graph Networks 动态图的神经网络模型

  • lehaifeng/T-GCN 通过图卷积网络进行的城市交通流量预测的工作。文件结构如下所示:1 T-GCN是时间图卷积网络的源代码。2 A3T-GCN是具有注意力结构的时间图卷积网络的源代码。3 AST-GCN是属性增强的时空图卷积网络的源代码。4 基准包括以下方法,例如历史平均模型(HA)、自回归综合移动平均模型(ARIMA)、支持向量回归模型(SVR)、图卷积网络模型(GCN)、门控循环单位模型(GRU)

  • palash1992/DynamicGEM 捕捉动态图演化的动力学特征,生成动态图表示的方法,本质上是输入为动态图的前T个时间步的snapshot,输出为T+1时刻的图嵌入式表达。

  • LZH-YS1998/STHSL 城市犯罪预测的时空超图自监督学习中提出的STHSL模型代码

  • rootlu/MMDNE 从微观/宏观两种层级建模动态网络中节点演化规律,并能够在节点表示中学习到这种规律。微观更偏向于捕捉具体边对形成过程 宏观更偏向于从网络动力学挖掘网络演变的规律,最终生成节点的表示。

  • skx300/DyHATR 同时考虑到图的异构性和动态性的特点,对于图的每个时间切片,利用node-level attention和edge-level attention以上两个层次的注意力机制实现异质信息的有效处理,并且通过循环神经网络结合self-attention研究节点embedding的演化特性,并且通过链接预测任务进行试验,验证模型的有效性。

  • aravindsankar28/DySAT 提出了DYNAMIC SELF-ATTENTION机制,通过结构化注意力模块与时态注意力模块对动态变化的节点进行表示。

  • luckiezhou/DynamicTriad 依据动态网络的特性,提出了依据triad结构建模动态图演化模式的方法DynamicTraid。三元组(Triad)演化的过程就是三个节点中两个互不链接的节点之间建立链接,形成一个闭合三元组的过程。作者在几个不同的真实业务场景(电信欺诈,贷款偿还等)数据集中做了实验,证明了模型的有效性。

  • jwwthu/GNN4Traffic 整理了基于图神经网络的交通预测相关的顶会论文及统计分析。

  • SpaceLearner/Awesome-DynamicGraphLearning 将深度学习技术(图神经网络等)应用在动态图、动态网络、动态知识图谱上的论文、代码、工具等。

  • liangzhehan/DMSTGCN 用于交通速度预测的动态和多方面时空深度学习

  • LibCity/Bigscity-LibCity-PaperList 交通预测领域论文列表

  • LibCity/Bigscity-LibCity 统一、全面、可扩展的代码库,为交通预测领域的研究人员提供了一个可靠的实验工具和便捷的开发框架。 我们的库基于 PyTorch 实现,并将与交通预测相关的所有必要步骤或组件包含到系统的流水线中,使研究人员能够进行全面的对比实验。 我们的库将有助于交通预测领域的标准化和可复现性。LibCity 目前支持以下任务:- 交通状态预测(交通流量预测、交通速度预测、交通需求预测、起点-终点(OD)矩阵预测、交通事故预测)轨迹下一跳预测、到达时间预测、路网匹配、路网表征学习。

  • microsoft/FOST FOST 是一个通用的预测工具,它展示了我们在实际预测领域的经验和先进技术,包括时间、时空和分层预测。当前的通用预测工具(亚马逊的Gluon-TS、facebook的Prophet等)无法处理和建模结构图数据,尤其是在空间数据中

  • drop-out/Tianchi-Wifi-Positioning 天池wifi定位大赛第一名解决方案 。给定交易时的环境信息(包括GPS坐标、wifi信息(bssid/信号强度/是否连接)、用户id),确定交易所处的商铺。

  • Cantoria/dynamic-graph-papers 动态图表示学习、动态图分析论文汇总项目

  • BIRD-TAO/CLCRN 用于时空气象预报的条件局部卷积的 Pytorch 实现,AAAI 2022

图预训练 Pre-Training of Graph

  • THUDM/GCC Graph Contrastive Coding for Graph Neural Network Pre-Training 用于图形神经网络预训练的图形对比编码,下游任务:节点分类、图分类、相似性搜索。

  • acbull/GPT-GNN Generative Pre-Training of Graph Neural Networks 图神经网络的生成式预训练。在预处理阶段,算法会首先随机地遮盖掉图中的一些边和点,利用生成模型来生成(预测)这些边的存在和节点的属性。模型的损失函数会使得预测的结果尽量接近真实的网络结构。这样的话,在GPT-GNN训练完成后,其内部的图神经网络层就可以被拿出来进行调优。

  • rootlu/L2P-GNN 首次探索学习预训练GNNs,缓解了预训练与微调目标之间的差异,并为预训练GNN提供了新的研究思路。针对节点与图级表示,该研究提出完全自监督的GNN预训练策略。针对预训练GNN,该研究建立了一个新型大规模书目图数据,并在两个不同领域的数据集上进行了大量实验。实验表明,该方法显著优于SOTA方法。

  • Shen-Lab/GraphCL 设计了一种针对无监督图表示学习的图对比学习框架 GraphCL。在该框架下,作者探索了 4 种不同先验下的图数据增强方法。考虑到半监督,无监督和迁移等任务,作者在很多数据集上系统的分析了不同图增强组合的影响。实验结果表明,作者所设计的 GraphCL 框架能够取得相似或者更优于 SOTA。GraphCL是一个基于对比学习的自监督图谱预训练模型,GraphCL模型对一个节点得到两个随机扰动的L-hop的Subgraph,通过最大化两个Subgraph之间的相似度来进行自监督学习。

图对抗攻击

  • EdisonLeeeee/Graph-Adversarial-Learning 图对抗性攻击和防御的精选集合。

  • danielzuegner/robust-gcn Robust Graph Convolutional Network是最早的有关于图数据集上对抗攻击防御的工作之一。本文对GCN作出的改进主要体现在以下两点:基于高斯分布的图卷积层(Gaussian-based Graph Convolution Layer) 、采用attention机制为聚合的邻居特征分配权重。

  • ChandlerBang/Pro-GNN 鲁棒图神经网络的图结构学习,抗严重干扰。

  • DSE-MSU/DeepRobust 用于图像和图模型的攻击和防御方法的pytorch库.

    • 图模型防御方法
      • adv_training、gcn、pgd近端梯度下降
      • gcn_preprocess GCNJaccard 首先通过不同的边缘对输入图进行预处理,并根据处理后的图训练GCN。
      • GCNSVD 一个2层图卷积网络,以SVD作为预处理。All You Need Is Low (Rank): Defending Against Adversarial Attacks on Graphs
      • prognn Pro-GNN 属性图神经网络
      • r_gcn 强大的图卷积网络,抵抗对抗攻击。KDD 2019。
  • ChandlerBang/awesome-graph-attack-papers 此存储库旨在提供有关图形数据或 GNN(图形神经网络)上对抗性攻击和防御作品的链接。

  • MengmeiZ/LafAK 图神经网络的对抗标签翻转攻击与防御.提出了基于自监督的防御框架, 以社区分类作为辅助任务,引入社区级别的信号以惩罚过拟合翻转标签的GNN。

  • snap-stanford/gib 图信息瓶颈 (GIB)。研究者基于该原则构建了两个 GNN 模型:GIB-Cat 和 GIB-Bern,二者在抵御对抗攻击时取得了优异的性能。 图信息Bottleneck打造图最优表示->避免过拟合,并具备稳健性

  • liaopeiyuan/GAL 图对抗网络 Information Obfuscation of Graph Neural Networks 图神经网络的信息模糊处理,使得攻击者很难推断。

  • mims-harvard/GNNGuard 保护图神经网络免受对抗性攻击。 即使是最强大和最流行的GNN,图结构的微小、不明显的扰动也会灾难性地降低性能。通过与提出的 GNNGuard 集成,GNN 分类器即使在强烈的对抗性攻击下也可以正确分类目标节点。GNNGuard 关键思想是检测和量化图结构和节点特征之间的关系(如果存在),然后利用这种关系来减轻攻击的负面影响。GNNGuard 学习如何最好地为连接相似节点的边分配更高的权重,同时修剪不相关节点之间的边。GNNGuard不是神经消息传递,而是控制消息流,例如阻止来自不相关邻居的消息,但加强来自高度相关邻居的消息。是第一个可以保护异质图(例如,具有结构等价性)的模型,而所有现有的防御者只考虑同质图。

图聚合_节点聚合

  • williamleif/GraphSAGE 核心思想就是学习聚合节点的邻居特征生成当前节点的信息的「聚合函数」,有了聚合函数不管图如何变化,都可以通过当前已知各个节点的特征和邻居关系,得到节点的embedding特征。

  • trinayan/PinSageMultiGPU 一个能够学习节点嵌入的随机游走GCN,由Pinterest公司和Stanford完成的工作,首次将图方法落地到了工业界。PinSage的理论背景是基于GraphSAGE,即归纳(inductive)式的学习,直接学习聚合函数而不是固定的节点,这也是其他的图算法如GCN等等直推式(transductive)方法无法做到的,更能满足实际中的图节点是不断变化的需求(节点和关系都会不断的变化)。

  • graphdml-uiuc-jlu/geom-gcn 几何图卷积网络 将节点映射为连续空间的一个向量graph embedding,在隐空间查找邻居并进行聚合。

  • EstelleHuang666/gnn_hierarchical_pooling Hierarchical Graph Representation Learning 构建了一个多层次的、节点可微分的聚合 GNN 网络。在每一层中,完成信息的抽取,并将当前的图聚合为一个更粗粒度的图,供下一层使用。

  • lukecavabarrett/pna 提出了Principal Neighbourhood Aggregation (PNA),一种考虑了 degree 的全新的 GNN 聚合器(泛化了现有的求和聚合器)。作者通过一些图例形象的解释了现有的各种聚合器的表示能力及其缺陷。

图卷积网络

  • benedekrozemberczki/ClusterGCN 提出了一种新的方法来进行GCN训练:首先,对图进行聚类,把原图划分成一些紧密连接的子图;然后,抽样一个或者一些子图作为一个batch,在抽样出来的子图上进行卷积计算。

  • tkipf/relational-gcn 关系图卷积网络,是最早提出利用GCN来解决图结构中不同边关系对节点影响,在进行信息汇聚更新时,充分考虑节点之间的Edge对节点表征影响的模型。

  • MichSchli/RelationPrediction 图卷积网络用于关系链接预测

  • JD-AI-Research-Silicon-Valley/SACN 端到端结构感知卷积网络(SACN)模型充分利用了GCN和ConvE的优势来完成知识库。SACN由加权图卷积网络(WGCN)的编码器和称为Conv-TransE的卷积网络的解码器组成。WGCN利用知识图节点结构,节点属性和边缘关系类型。解码器Conv-TransE使最新的ConvE能够在实体和关系之间转换,同时保持与ConvE相同的链路预测性能。

  • zhiyongc/Graph_Convolutional_LSTM

  • Jiakui/awesome-gcn 该存储库用于收集GCN,GAT(图形关注)相关资源。

  • tkipf/gcn 图卷积网络在TensorFlow中的实现 keras

  • karenlatong/AGC-master Attributed Graph Clustering via Adaptive Graph Convolution 通过自适应图卷积的属性图聚类

  • TAMU-VITA/L2-GCN GCN高效分层训练框架

  • mdeff/cnn_graph 具有快速局部光谱滤波的图卷积神经网络,实现了将流行的卷积神经网络 (CNN) 有效地推广到任意图

图监督_半监督_对比学习

  • THUDM/GRAND Graph Random Neural Network ,用于图半监督学习的新型图神经网络框架。在模型架构上,提出了一种简单有效的图数据增强方法 Random Propagation,用来增强模型鲁棒性及减轻过平滑。基于 Random Propagation,GRAND 在优化过程中使用一致性正则(Consistency Regularization)来增强模型的泛化性,即除了优化标签节点的 cross-entropy loss 之外,还会优化模型在无标签节点的多次数据增强的预测一致性。节点预测 state of the Art.

  • LirongWu/awesome-graph-self-supervised-learning 图自监督学习(Graph Self-supervised Learning)最新综述+Github代码汇总

  • RingBDStack/SUGAR “SUGAR:具有强化池和自监督互信息机制的子图神经网络”的代码

  • lxiaorui/ElasticGNN 弹性图神经网络提出了一种新颖的GNN通用消息传递方案到。这种算法不仅对反向传播训练友好,而且在理论上收敛保证的情况下实现了所需的平滑特性。半监督学习任务的实验表明,所提出的 Elastic GNN 在基准数据集上获得了更好的适应性,并且对图对抗攻击的鲁棒性明显更强。

  • SXKDZ/awesome-self-supervised-learning-for-graphs 一个很棒的图表自监督学习的精选列表。

  • GraphCL/PyGCL PyTorch 的图形对比学习库.图对比学习 (GCL) 建立了一种无需人工注释即可学习图表示的新范式。 典型的 GCL 算法首先通过输入的随机增强构造多个图视图,然后通过将正样本与负样本进行对比来学习表示。

其他_图神经网络GNN

  • naganandy/graph-based-deep-learning-literature 基于图的深度学习中的会议出版物

  • DGraphXinye/2022_finvcup_baseline 第七届信也科技杯-欺诈用户风险识别的baseline。节点分类

  • RobertAckleyKid/2022_finvcup_RobertAckley_8363 第七届信也科技杯图算法大赛——欺诈用户风险识别 代码 。包括三步:基于GraphSAGE的节点Embedding(与baseline一致),手工加入时序等特征,通过LightGBM分类。

  • pygod-team/pygod 用于图异常值检测(异常检测)的 Python 库。包含10多种最新的基于图的检测算法。

  • graphdeeplearning/benchmarking-gnns 用于基准测试图形神经网络的存储库

  • alibaba/GraphScope 阿里巴巴一站式大规模图计算系统 图分析 图查询 图机器学习

  • tkipf/gae 图自动编码器在TensorFlow中的实现

  • peter14121/intentgc-models 意图gc模型.从常见的用户行为和项目信息中收集了大量的关系,并提出名为IntentGC的新框架,通过图卷积网络来利用显式偏好和异构关系。

  • shawnwang-tech/GeniePath-pytorch 自适应深度和广度图神经网络表征学习模型Geniepath

  • GRAND-Lab/SUBLIME 走向无监督深度图结构学习

  • neural_graph_collaborative_filtering 神经图协同滤波(NGCF)是一种基于图神经网络的新型推荐框架,通过进行嵌入传播,以用户-项目二分图中的高阶连接性形式对协同信号进行显式编码。

  • gated-graph-neural-network-samples 门控图神经网络的两种实现,用于学习化学分子的性质

  • deepmind/graph_nets 在Tensorflow中构建图网

  • hwwang55/RippleNet 将知识图谱作为额外信息,融入到CTR/Top-K推荐。完整的逐行中文注释笔记

  • klicperajo/ppnp 预测然后传播:图形神经网络满足个性化PageRank

  • Variational-Graph-Auto-Encoders 可变图自动编码器 链接预测

  • animutomo/gcmc Graph Convolution Matrix Completion 解决推荐系统中 矩阵补全 matrix completion 问题,并引入 side information(节点的额外信息)提升预测效果。

  • Ruiqi-Hu/ARGA 对抗正则化图自动编码器Adversarially Regularized Graph Autoencoder,可用于图卷积的链路预测。进化路线GAE->VGAE->ARGA

  • safe-graph/DGFraud 基于深度图的工具箱,用于欺诈检测

  • graph-fraud-detection-papers 基于图的欺诈检测论文和资源

  • awesome-fraud-detection-papers 关于欺诈检测的数据挖掘论文的精选列表。

  • snap-stanford/distance-encoding 距离编码-为结构表示学习设计更强大的GNN,提出了一类与结构相关的特征,称为距离编码(Distance Encoding,DE),以帮助 GNN 以比 1-WL test 更严格的表达能力来表示任意大小的节点集。

  • megvii-research/DPGN Distribution Propagation Graph Network for Few-shot Learning 分布传播图网络的小样本学习

  • CUAI/CorrectAndSmooth 标签信息 + 简单模型 直接使用标签进行预测。与 其他方案相比,本文中的C&S模型需要的参数量往往要少得多。在很多标准直推式节点分类(transductive node classification)基准上,超过或媲美当前最优的性能。

  • YimiAChack/GraphSTONE Graph Structural-topic Neural Network 图结构主题神经网络 本文类比自然语言处理中的相关概念,借助主题模型学习图的结构信息。

  • YuGuangWang/PAN 借鉴了物理中的一些概念,设计了一种 path integral based graph neural networks (PAN)。 PAN 将图拉普拉斯泛化到一种新的转移矩阵 maximal entropy transition (MET) matrix。重要的是,MET 矩阵的对角线元素直接和子图中心性相关,因此提供了一种自然的自适应池化机制。

  • benedekrozemberczki/SimGNN A Neural Network Approach to Fast Graph Similarity Computation 图相似度计算

  • snap-stanford/GraphGym Identity-aware Graph Neural Networks一种身份感知图神经网络对现有的消息传递 GNN 进行了扩展,将其性能提升到了高于 1-WL 测试的水平。实验结果表明,将现有的 GNN 转变为 ID-GNN 可以在难以分类的节点预测、边预测、图属性预测任务中获得平均 40% 的准确率提升;在节点和图分类对比基准任务获得 3%的准确率提升;链接预测任务获得 15% 的ROC提升。

  • YuweiCao-UIC/KPGNN 图神经网络增量学习在事件检测中的应用

  • divelab/DeeperGNN 解耦Transformation和Propagation的深度图神经网络 1、Transformation操作:MLP操作,torch.nn.Linear线性映射操作;2、Propagation操作:图中的邻居节点往中心节点汇聚的操作,最简单的实现方式是AH,A是图的邻接矩阵,H是图的特征矩阵。

  • BUPT-GAMMA/CPF 提出了一个有效的知识蒸馏框架,以将任意预训练的GNN教师模型的知识注入精心设计的学生模型中。学生模型是通过两个简单的预测机制构建的,即标签传播和特征转换,它们自然分别保留了基于结构和基于特征的先验知识。

  • WangXuhongCN/APAN Asynchronous Propagation Attention Network for Real-time Temporal Graph Embedding 实时时间图嵌入的异步传播注意网络

  • flyingdoog/PGExplainer GNN 的参数化解释器 PGExplainer。PGExplainer 利用深度神经网络对解释的生成过程进行参数化处理,能够实现同时对多个实例进行解释。

  • lsj2408/GraphNorm 图归一化:一种加速图神经网络训练的原则性方法,通过一个可学习的移位来归一化每个单独图的所有节点上的特征值。收敛速度要快得多。它还改进了GNN的泛化,在图分类上实现更好的性能。

  • YuGuangWang/UFG 基于小波变换(framelet transforms)的图神经网络。

  • maxiaoba/GRAPE 基于GNN的缺失特征填充和标签预测模型。将特征填充问题转为边级别的预测任务,将标签预测问题转为节点级别的预测任务。

  • PKU-DAIR/DGMLP 评估深度图神经网络,对图形结构数据使用深度汇总的实验评估。GNN模型普遍较浅的真正原因 - 模型退化与过平滑。

  • snap-stanford/CAW 基于因果匿名游走的时序网络归纳表示学习模型

  • BUPT-GAMMA/Graph-Structure-Estimation-Neural-Networks 用于估计适配于GNN的图结构,以提高下游任务性能。GEN引入结构模型考虑图生成过程中的潜在社团结构,并提出观察模型将多方面信息(例如,多阶邻域相似性)作为图结构的观测。基于这些模型,GEN利用贝叶斯推断框架得到最终估计图。大量实验结果验证了GEN的有效性及其估计图的合理性。

  • thunlp/GNNPapers 图神经网络上的必读论文 (GNN)

  • google-research/graph-attribution 用于评估图神经网络属性的代码库

  • Saro00/DGN 定向图网络在 PyTorch 和 DGL 中的实现

  • liaopeiyuan/GAL 图神经网络的信息混淆 使用 FB15k-237 和 WN18RR 数据集进行知识图链接预测。使用 Movielens-1M 数据集进行推荐系统链接预测任务。

  • zwt233/GAMLP 图形注意多层感知器 ,在 OGB 数据集上重现

  • susheels/adgcl 对抗性图增强以改善图对比学习

  • amazon-science/gnn-tail-generalization 提取具有不完整或缺失邻域的图节点表示。GNN在节点分类或回归任务中表现出卓越的性能。归纳GNN 需要事先知道节点的边缘连接结构才能正常工作。在节点度数具有幂律分布的几个实际应用中,情况通常并非如此,并且具有少量连接的节点可能具有噪声边缘。一个极端的情况是严格的冷启动 (SCS) 问题,其中没有可用的邻域信息,迫使预测模型完全依赖于节点特征。为了使用归纳 GNN 解决 SCS 问题,引入特征贡献率 (FCR),这是一种量化节点特征及其邻域特征在预测节点标签中的贡献的指标,并将这个新指标用作模型选择奖励。然后,提出Cold Brew,这是一种通过蒸馏方法在 SCS 中比基于点和基于图的模型更好地概括 GNN 的新方法。动机:长尾分布普遍存在于大规模图挖掘任务中。在某些应用中,一些冷启动节点在图中的邻域太少或没有邻域,这使得基于图的方法由于没有足够的高质量边来执行消息传递而变得次优。

  • zhitao-wang/PLNLP 用于ogb链路预测的成对学习神经链预测。2022年,在Open Graph Benchmark链接预测数据集中包括ddi和collab,ppa和ciation2分别实现了第1、2名的成绩。

  • yushundong/REFEREE “关于图神经网络中偏差的结构解释”的开源代码。 以GE-REFEREE为例来解释经过训练的GAT模型。评估它如何帮助GAT消除偏见。

  • yongduosui/CAL "可解释和可归纳图分类的因果注意"。基于PyTorch的因果注意在可解释和可推广图分类中的实现

大数据

MySQL 开源的关系数据库管理系统 (RDBMS)。它的名字是“My”(联合创始人 Michael Widenius 的女儿 My 的名字)和“SQL”(结构化查询语言的缩写)的组合。它将数据组织成一个或多个数据表,其中数据可能相互关联;这些关系有助于构建数据。SQL 是程序员用来创建、修改和从关系数据库中提取数据以及控制用户对数据库的访问的语言。

MariaDB MySQL的社区开发、商业支持的分支,旨在在 GNU 通用公共许可证下保持免费和开源软件。开发由 MySQL 的一些原始开发人员领导,由于担心 2009 年被甲骨文公司收购,他们将其分叉。

PostgreSQL 一个免费的开源关系数据库管理系统 (RDBMS),强调可扩展性和 SQL 合规性。它最初被命名为 POSTGRES,指的是它的起源是加州大学伯克利分校开发的 Ingres 数据库的继承者。一个功能强大的开源对象关系数据库系统,经过 30 多年的积极开发,在可靠性、功能稳健性和性能方面赢得了良好的声誉。

oceanbase/oceanbase 一个高可用、高性能、横向扩展、兼容SQL标准的企业级分布式关系数据库。蚂蚁集团从零开始构建的分布式关系 SQL 数据库。它具有高度可扩展性、弹性,可以同时处理事务和分析工作负载,并且与 MySQL 语法和功能高度兼容。OceanBase 可以部署在任何云中的虚拟机或本地物理主机上。同时,由于是多租户集群,用户可以实现数据库资源池化,提高效率。

binhnguyennus/awesome-scalability 一个更新和有组织的阅读列表,用于说明可扩展、可靠和高性能的大型系统的模式。概念在著名工程师的文章和可靠的参考文献中进行了解释。案例研究取自为数百万至数十亿用户提供服务的经过实战考验的系统。

heibaiying/BigData-Notes 大数据入门指南

guangzhengli/k8s-tutorials k8s 教程

seata/seata 简单可扩展的自主事务体系结构

apache/incubator-shardingsphere 分布式数据库中间件生态圈

Tencent/wwsearch 企业微信后台自研的全文检索引擎

apache/airflow 一个以编程方式编写,安排和监视工作流的平台

apache/shardingsphere Distributed database middleware 分布式数据库中间件

opencurve/curve 网易自主设计研发的高性能、高可用、高可靠分布式存储系统,具有良好扩展性。

ClickHouse/ClickHouse 开源极速列式数据库系统,允许实时生成数据分析报告。

canonical/dqlite 可嵌入、复制和故障耐受性 SQL 引擎。

apache/iceberg 新兴的数据湖框架之一,开创性的抽象出”表格式“(table format)这一中间层,既独立于上层的计算引擎(如Spark和Flink)和查询引擎(如Hive和Presto),也和下层的文件格式(如Parquet,ORC和Avro)相互解耦。同时,还提供了许多额外的能力:ACID事务;时间旅行(time travel),以访问之前版本的数据;完备的自定义类型、分区方式和操作的抽象;列和分区方式可以进化,而且进化对用户无感,即无需重新组织或变更数据文件;隐式分区,使SQL不用针对分区方式特殊优化;面向云存储的优化

apache/hudi 基于Hadoop兼容的存储,提供了Update/Delete Record、Change Streams 将HDFS和Hudi结合起来,提供对流处理的支持能力。如:支持记录级别的更新、删除,以及获取基于HDFS之上的Change Streams。

greenplum-db/gpdb 基于 PostgreSQL 的高级、功能齐全的开源数据仓库。 它提供对 PB 级数据量的强大而快速的分析。 Greenplum Database 专门针对大数据分析,由世界上最先进的基于成本的查询优化器提供支持,可在大数据量上提供高分析查询性能。

TurboWay/bigdata_analyse 大数据分析项目,包括1 亿条淘宝用户行为分析 、1000 万条淘宝用户行为 、300 万条《野蛮时代》的玩家 、130 万条深圳通刷卡、10 万条厦门招聘、7000 条租房、6000 条倒闭企业、COVID-19 疫情、7 万条天猫订单数据

avinassh/fast-sqlite3-inserts 1分钟插入10亿行数据,写脚本请使用Rust

baidu/BaikalDB 分布式HTAP数据库 支持PB级结构数据的顺序和随机实时读取/写入。 B与MySQL协议兼容,并且支持MySQL样式SQL方言,通过该方言,用户可以将其数据存储从MySQL无缝迁移到BaikalDB。

ApsaraDB/PolarDB-for-PostgreSQL 阿里云自主研发的云原生数据库服务。PolarDB-X 是一款面向超高并发、海量存储、复杂查询场景设计的云原生分布式数据库系统。其采用 Shared-nothing 与存储计算分离架构,支持水平扩展、分布式事务、混合负载等能力,具备企业级、云原生、高可用、高度兼容 MySQL 系统及生态等特点。

ApsaraDB/galaxysql GalaxySQL 是 PolarDB-X 的计算节点(CN, Compute Node)。

ApsaraDB/galaxyengine GalaxyEngine 是源自阿里巴巴集团的 MySQL 分支,特别支持大型分布式数据库系统。

qiurunze123/miaosha 秒杀系统设计与实现.互联网工程师进阶与分析

timescale/tsbs 时间序列基准套件,用于比较和评估时间序列数据数据库工具

byzer-org/byzer-lang Byzer(前 MLSQL):一种用于数据管道、分析和 AI 的低代码开源编程语言。

xephonhq/awesome-time-series-database 精选的时间序列数据库、基准和论文列表

XiaoMi/soar SQL Optimizer And Rewriter是对 SQL进行优化改写的自动化工具。

Meituan-Dianping/SQLAdvisor 输入SQL,输出索引优化建议

cookieY/Yearning: 一个最流行的mysql审计平台

hhyo/Archery archer的分支项目,定位于SQL审核查询平台,旨在提升DBA的工作效率,支持多数据库的SQL上线和查询,同时支持丰富的MySQL运维功能,所有功能都兼容手机端操作

MyCATApache/Mycat-Server Java语言编写的MySQL数据库网络协议的开源中间件, 它支持分布式SQL查询,兼容MySQL通信协议,以Java生态支持多种后端数据库,通过数据分片提高数据查询处理能力。

Qihoo360/Quicksql 体系结构图可帮助您更轻松地访问 Quicksql

Qihoo360/Atlas MySQL的高性能稳定代理,由奇虎DBA和基础架构团队开发

akopytov/sysbench 可编写脚本的数据库和系统性能基准

github/gh-ost MySQL 的无触发在线模式迁移解决方案。它是可测试的,并提供可暂停性、动态控制/重新配置、审计和许多操作特权。

openark/orchestrator MySQL 复制拓扑管理和 HA

alchemystar/Freedom 自己DIY一个具有ACID的数据库

alibaba/otter 阿里巴巴分布式数据库同步系统(解决中美异地机房)

m3o/m3o 一个云平台,它将现有的公共 API 变成更小更易于使用的微服务,您可以在一个地方探索、发现和使用更简单的可编程构建块。该平台生成统一的 API 文档、客户端和示例,这使得使用所有 API 变得更加容易。

meta-soul/LakeSoul 基于数据湖的表结构存储,统一批处理和流式数据处理

PrefectHQ/prefect 工作流引擎。设计初衷是为了处理现代数据堆栈所需的动态、可扩展的工作负载。它由全新的异步规则引擎 Prefect Orion 提供支持。

facebookincubator/velox 旨在优化查询引擎和数据处理系统的 C++ 矢量化数据库加速库。

alibaba/havenask 阿里巴巴自研的大规模分布式检索系统。支持千亿级数据实时检索,百万QPS查询,百万TPS写入,毫秒级查询延迟与秒级数据更新。

grafana/grafana 开放、可组合的可观测性和数据可视化平台。可视化来自多个来源的指标、日志和跟踪,如 Prometheus、Loki、Elasticsearch、InfluxDB、Postgres 等等。

ctripcorp/x-pipe 携程框架部门研发的Redis多数据中心复制管理系统。基于Redis的Master-Slave复制协议,实现低延时、高可用的Redis多中心、跨公网数据复制,并且提供一键机房切换,复制监控、异常报警等功能。

ctripcorp/drc 携程框架架构研发部数据中心组推出的用于数据双向或多向复制的数据库中间件,服务于异地多活项目,同时赋予了业务全球化的部署能力。为了做到真正的数据异地多活,实现MySQL同机房就近读写,机房故障时无需进行数据库DR操作,只进行流量切换,就需要引入数据实时双向(多向)复制组件。

digoal/blog 关于数据库,业务的一切。(大多数用于PostgreSQL)。

zhisheng17/flink-learning Flink 入门、概念、原理、实战、性能调优、源码解析等内容。涉及 Flink Connector、Metrics、Library、DataStream API、Table API & SQL 等内容的学习案例,还有 Flink 落地应用的大型项目案例(PVUV、日志存储、百亿数据实时去重、监控告警)分享。

donnemartin/awesome-aws 精选的亚马逊云科技 (AWS) 库、开源存储库、指南、博客和其他资源列表。以 AWSome 的火热仪表为特色。

spotify/luigi Luigi 是一个 Python 模块,可帮助您构建复杂的批处理作业管道。它处理依赖关系解析、工作流管理、可视化等。它还内置了Hadoop支持。

数据搜索引擎

searx/searx 尊重隐私的元搜索引擎

benbusby/whoogle-search 一个自托管、无广告、尊重隐私的元搜索引擎

elastic/elasticsearch 免费开放、分布式、RESTful 搜索引擎

typesense/typesense Algolia + Pinecone 的开源替代品和 ElasticSearch 的更易于使用的替代品。 快速、容错、内存模糊搜索引擎,用于构建令人愉悦的搜索体验

zincsearch/zincsearch 轻量级elasticsearch 替代方案,需要最少的资源,用 Go 编写。

apache/lucene-solr Apache Lucene和Solr开源搜索软件

valeriansaliou/sonic 快速、轻量级和无模式的搜索后端。Elasticsearch的替代方案,运行在几MB的RAM上。

opensearch-project/OpenSearch 开源分布式和 RESTful 搜索引擎。Elasticsearch 和 Kibana 的社区驱动的开源分支

quickwit-oss/tantivy 一个全文搜索引擎库,灵感来自Apache Lucene,用Rust编写。

medcl/elasticsearch-analysis-ik IK 分析插件将 Lucene IK 分析器集成到 elasticsearch 中,支持自定义词典。

deviantony/docker-elk 由Docker和Compose提供支持的Elastic stack(ELK)。使用 Elasticsearch 的搜索/聚合功能和 Kibana 的可视化功能来分析任何数据集。

chrismattmann/tika-python Tika-Python 是与 Apache Tika REST 服务的 Python 绑定,允许在 Python 社区中本地调用 Tika™。Apache Tika 是一个内容分析工具包,可以检测上千种文件类型,并提取它们的元数据和文本。tika在设计上十分精巧,单一的接口使它易于使用,在搜索引擎索引,内容分析,翻译等诸多方面得到了广泛使用。

appbaseio/dejavu Elasticsearch 缺少的 Web UI:使用丰富的过滤器和查询视图导入、浏览和编辑数据,直观地创建搜索 UI。

oramasearch/orama 快速、内存中、容错、用 TypeScript 编写的全文搜索引擎。

nextapps-de/flexsearch 适用于浏览器和Nodejs的下一代js全文搜索库

RediSearch/RediSearch Redis的查询和索引引擎,提供二级索引,全文搜索,矢量相似性搜索和聚合。

GerevAI/gerev 人工智能驱动的企业搜索引擎

向量数据库、向量搜索、最近邻搜索

spotify/annoy C++/Python 中的近似最近邻针对内存使用和加载/保存到磁盘进行了优化

qdrant/qdrant 一个矢量相似性搜索引擎和矢量数据库。它提供生产就绪的服务,并带有方便的 API 来存储、搜索和管理点 - 具有附加有效载荷的矢量 Qdrant 专为扩展过滤支持量身定制。它使其可用于各种神经网络或基于语义的匹配、分面搜索和其他应用程序。

weaviate/weaviate Weaviate 是一个开源矢量数据库,它存储对象和矢量,允许将矢量搜索与结构化过滤与云原生数据库的容错和可扩展性相结合,所有这些都可以通过 GraphQL、REST 和各种语言客户端访问。

pgvector/pgvector Postgres的开源向量相似性搜索

FALCONN-LIB/FALCONN 余弦和其他最近邻的首次查找(基于快速局部敏感哈希)

yahoojapan/NGT 使用邻域图和树进行最近邻搜索,以获取高维数据

hora-search/hora 高效的近似最近邻搜索算法集合库用 Rust 编写。

marqo-ai/marqo 端到端的多模态矢量搜索引擎。借助 Marqo,用户可以通过单个易于使用的 API 存储和查询非结构化数据,例如文本、图像和代码。输入预处理、机器学习推理和存储都是开箱即用的,可以轻松扩展。

vearch/vearch 一种基于嵌入的向量检索分布式系统

currentslab/awesome-vector-search 矢量搜索相关库、服务和研究论文集

vdaas/vald 高度可扩展的分布式矢量搜索引擎

docarray/docarray 一个 Python 库,专为多模态数据的表示、传输、存储和检索而精心制作。专为多模态AI应用程序的开发量身定制,其设计可确保与广泛的Python和机器学习生态系统无缝集成。

虚拟化

jesseduffield/lazydocker docker 简单终端 UI

KubeOperator/KubeOperator KubeOperator

rancher/k3s Lightweight Kubernetes. 5 less than k8s. k3s.io

docker-slim/docker-slim 请勿更改Docker容器映像中的任何内容并将其最小化30倍

silenceshell/docker_mirror 发现国内加速的docker源。

AliyunContainerService/GPUshare-scheduler-extender GPU 共享调度程序扩展器

安全与渗透

扫描器、资产收集、子域名

  • nmap/nmap 网络映射器,网络端口扫描器。

  • zyylhn/zscan 开源的内网端口扫描器、爆破工具和其他实用工具的集合体可以称为工具包。以主机和内网网段发现和端口扫描为基础,可以对mysql、mssql、redis、mongo、postgres、ftp、ssh、ldap、rdp、smb等服务进行爆破,还有其他netbios、smb、oxid、socks server(扫描内网中的代理服务器)、snmp、ms17010等扫描功能,支持poc(xray v1格式)单个和批量检测。

  • rverton/webanalyze Wappalyzer 的端口(揭示网站上使用的技术)以自动进行大规模扫描。

  • a1phaboy/FastjsonScan Fastjson扫描器,可识别版本、依赖库、autoType状态等。

  • inbug-team/SweetBabyScan 支持弱口令爆破的内网资产探测漏洞扫描工具,集成了Xray与Nuclei的Poc

  • b0bac/ApolloScanner 自动化巡航扫描框架(可用于红队打点评估).资产收集 github敏感信息收集 破解(基于exp的暴力破解) 漏洞扫描模块

  • Adminisme/ServerScan 使用Golang开发的高并发网络扫描、服务探测工具。

  • i11us0ry/goon 集合了fscan和kscan等优秀工具功能的扫描爆破工具。功能包含:ip探活、port扫描、web指纹扫描、title扫描、压缩文件扫描、fofa获取、ms17010、mssql、mysql、postgres、redis、ssh、smb、rdp、telnet、tomcat等爆破以及如netbios探测等功能。

  • jwt1399/Sec-Tools 基于Python-Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。

  • lcvvvv/kscan 纯go的全方位扫描器,具备端口扫描、协议检测、指纹识别,暴力破解等功能。支持协议1200+,协议指纹1w+,应用指纹2w+,暴力破解协议10余种。

  • kelvinBen/AppInfoScanner 一款适用于以HW行动/红队/渗透测试团队为场景的移动端(Android、iOS、WEB、H5、静态网站)信息收集扫描工具,可以帮助渗透测试工程师、攻击队成员、红队成员快速收集到移动端或者静态WEB站点中关键的资产信息并提供基本的信息输出,如:Title、Domain、CDN、指纹信息、状态信息等。

  • airson/Yasso 强大的内网渗透辅助工具集-让Yasso像风一样 支持rdp,ssh,redis,postgres,mongodb,mssql,mysql,winrm等服务爆破,快速的端口扫描,强大的web指纹识别,各种内置服务的一键利用(包括ssh完全交互式登陆,mssql提权,redis一键利用,mysql数据库查询,winrm横向利用,多种服务利用支持socks5代理执行)

  • fullhunt/log4j-scan 用于查找 log4j RCE CVE-2021-44228 的的扫描程序

  • H4ckForJob/dirmap 一个高级web目录、文件扫描工具,功能将会强于DirBuster、Dirsearch、cansina、御剑。

  • chaitin/xray 完善的安全评估工具,支持常见 web 安全问题扫描和自定义 poc

  • wgpsec/DBJ 大宝剑-边界资产梳理工具(红队、蓝队、企业组织架构、子域名、Web资产梳理、Web指纹识别、ICON_Hash资产匹配

  • sullo/nikto 网络服务器扫描仪

  • zhzyker/vulmap web 漏洞扫描和验证工具, 可对 webapps 进行漏洞扫描, 并且具备漏洞验证功能

  • maurosoria/dirsearch 暴力破解网络服务器的目录和文件,网络路径扫描器

  • wpscanteam/wpscan WordPress 安全扫描器。为安全专家和博客维护者编写,用于测试其 WordPress 网站的安全性。

  • projectdiscovery/nuclei 基于简单 YAML 的 DSL 的快速且可定制的漏洞扫描器

  • foryujian/yjdirscan 御剑目录扫描专业版,简单实用的命令行网站目录扫描工具,支持爬虫、fuzz、自定义字典、字典变量、UA修改、假404过滤、扫描控速等功能。

  • robertdavidgraham/masscan TCP 端口扫描器,异步发送 SYN 数据包,在 5 分钟内扫描整个互联网,从单台机器每秒传输 1000 万个数据包。

  • 78778443/QingScan 漏洞扫描器粘合剂,添加目标后30款工具自动调用;支持 web、系统、目录、主机扫描、子域名收集、主机发现、组件识别、URL爬虫、XRAY扫描、AWVS自动扫描、POC批量验证,SSH批量测试、vulmap。

  • test502git/awvs14-scan 针对 Acunetix AWVS扫描器开发的批量扫描脚本,支持log4j漏洞、SpringShell、SQL注入、XSS、弱口令等专项,支持联动xray、burp、w13scan等被动批量

  • We5ter/Scanners-Box 安全行业从业者自研开源扫描器合辑

  • projectdiscovery/naabu 用 go 编写的快速端口扫描器,专注于可靠性和简单性。旨在与其他工具结合使用,以在错误赏金和渗透测试中发现攻击面

  • projectdiscovery/nuclei 基于简单 YAML 的 DSL 的快速且可定制的漏洞扫描器。

  • AlphabugX/httpscan 用于C段http资产快速扫描,目前只支持80端口。(多线程)

  • SiJiDo/H 一款强大的资产收集管理平台 主要用于src信息收集和红蓝对抗资产收集用,采用python celery分布式实现多节点部署,提高效率

  • EdgeSecurityTeam/Ehole 对资产中重点系统指纹识别的工具,在红队作战中,信息收集是必不可少的环节,如何才能从大量的资产中提取有用的系统(如OA、VPN、Weblogic...)。EHole旨在帮助红队人员在信息收集期间能够快速从C段、大量杂乱的资产中精准定位到易被攻击的系统,从而实施进一步攻击。

  • knownsec/Kunyu 让企业资产收集更高效,使更多安全相关从业者了解、使用网络空间测绘技术。

  • OWASP/Amass 使用开源信息收集和主动侦察技术执行攻击面的网络和资产发现。

  • hakluke/hakrawler 简单快速的网络爬虫,发现网络应用程序中的端点和资产

  • 0x727/ShuiZe_0x727 水泽-信息收集自动化工具 只需要输入根域名即可全方位收集相关资产,并检测漏洞。

  • punk-security/dnsReaper 子域接管工具,每秒扫描大约 50 个子域,使用超过 50 个接管签名测试每个子域。在10 秒内扫描其整个 DNS 资产。

  • zhzyker/dismap 快速识别 Web 指纹信息,定位资产类型。辅助红队快速定位目标资产信息,辅助蓝队发现疑似脆弱点

  • s7ckTeam/Glass 针对资产列表的快速指纹识别工具,通过调用Fofa ZoomEye Shodan 360等api接口快速查询资产信息并识别重点资产的指纹,也可针对IP/IP段或资产列表进行快速的指纹识别。

  • wappalyzer/wappalyzer 识别网站上的技术。例如 CMS、Web 框架、电子商务平台、JavaScript 库、分析工具等。

  • 0x727/ObserverWard 命令行Web指纹识别工具

  • urbanadventurer/WhatWeb 识别网站,包括内容管理系统 (CMS)、博客平台、统计/分析包、JavaScript 库、网络服务器和嵌入式设备。WhatWeb 有超过 1800 个插件,每个插件都能识别不同的东西。WhatWeb 还可以识别版本号、电子邮件地址、帐户 ID、Web 框架模块、SQL 错误等。

  • yogeshojha/rengine 用于 Web 应用程序的自动化侦察框架,专注于通过引擎、侦察数据关联和组织、持续监控、简单而直观的用户界面以及简单而直观的用户界面。reNgine 使渗透测试人员可以轻松地收集侦察信息

  • l3m0n/whatweb WEB指纹识别 - gowap基础上修改的golang版本

  • riramar/Web-Attack-Cheat-Sheet Web 攻击备忘单

  • TideSec/TideFinger TideFinger——指纹识别小工具,汲取整合了多个web指纹库,结合了多种指纹检测方法,让指纹检测更快捷、准确。

  • hktalent/scan4all vuls 扫描:1.5W+PoCs; 23种应用密码破解; 7K+网络指纹; 146种协议和9W+条规则端口扫描; Fuzz,硬件,很棒的 BugBounty(͡° ͜ʖ ͡°)...

  • m3n0sd0n4ld/GooFuzz 使用OSINT方法执行模糊测试的工具,设法枚举目录,文件,子域或参数,同时利用Google Dorking,而无需在目标上留下证据。

  • guchangan1/All-Defense-Tool 全网优秀的攻防武器工具项目,包含自动化利用,子域名、目录扫描、端口扫描等信息收集工具,各大中间件、cms漏洞利用工具,爆破工具、内网横向及免杀、社工钓鱼以及应急响应等资料。

  • KingOfBugbounty/KingOfBugBountyTips 分享一些知名漏洞猎人的技巧。使用侦察方法,我们能够找到已经可利用的子域、api 和令牌。

  • devanshbatham/ParamSpider 从 Web 档案的黑暗角落挖掘参数。 从输入域的网络档案中查找参数。也从子域中查找参数。支持排除具有特定扩展名的 url。以干净整洁的方式保存输出结果。它从网络档案中挖掘参数(不与目标主机交互)

  • m4ll0k/takeover 子域接管漏洞扫描程序

  • 3nock/sub3suite 用于子域枚举、OSINT 信息收集和攻击面映射的研究级工具套件。支持对具有许多可用功能和工具的各种目标类型进行手动和自动分析。

  • d3mondev/puredns 快速的域解析器和子域暴力破解工具,可以准确过滤掉通配符子域和 DNS 中毒条目。

  • FeeiCN/ESD Enumeration sub domains(枚举子域名)

  • Threezh1/JSFinder 快速在网站的js文件中提取URL,子域名的工具。

  • shmilylty/OneForAll 功能强大的子域收集工具

  • tomnomnom/assetfinder 查找与给定域相关的域和子域

  • projectdiscovery/shuffledns 使用主动暴力破解枚举有效的子域,并通过通配符处理和简单的输入输出支持来解析子域。

  • projectdiscovery/subfinder 子域发现工具,可以为网站发现有效的子域。设计为被动框架,可用于漏洞赏金和安全渗透测试。

  • knownsec/ksubdomain 无状态子域名爆破工具

  • aboul3la/Sublist3r 用于渗透测试人员的快速子域枚举工具

  • lijiejie/subDomainsBrute 高并发的DNS暴力枚举工具。

  • edoardottt/scilla 信息收集工具 - DNS / 子域 / 端口 / 目录枚举

  • graynjo/Heimdallr 完全被动监听的谷歌插件,用于高危指纹识别、蜜罐特征告警和拦截、机器特征对抗

  • StarCrossPortal/scalpel 命令行漏洞扫描工具,支持深度参数注入,拥有一个强大的数据解析和变异算法,可以将常见的数据格式(json, xml, form等)解析为树结构,然后根据poc中的规则,对树进行变异,包括对叶子节点和树结构 的变异。变异完成之后,将树结构还原为原始的数据格式。

  • dark-kingA/superSearchPlus 谷歌插件版本- 聚合型信息收集插件,支持综合查询,资产测绘查询,信息收集 js敏感信息提取 注释资源扫描 目录扫描 整合了目前常见的资产测绘平台 同时支持数据导出

  • lukebaggett/dnscat2-powershell dnscat2 的 Powershell 客户端,一种加密的 DNS 命令和控制工具。

  • blark/aiodnsbrute 异步 DNS 暴力破解

  • pablosnt/rekono 自动执行结合多种黑客工具的完整渗透测试流程

  • Kento-Sec/AsamF 集成Fofa、Quake、Hunter、Shodan、Zoomeye、Chinaz、0.zone及爱企查的一站式企业信息资产收集、网络资产测绘工具。

  • jwt1399/Sec-Tools 基于Python-Django的多功能Web安全渗透测试工具,包含漏洞扫描,端口扫描,指纹识别,目录扫描,旁站扫描,域名扫描等功能。

  • liamg/scout 轻量级URL模糊器和蜘蛛:发现Web服务器的未公开文件,目录和VHOST。

  • D3Ext/AORT 用于漏洞赏金的多合一侦察工具

  • Sma11New/webEye 快速批量检测IP上指定端口的Web站点存活信息,获取其Title,红队信息搜集、蓝队资产探测梳理。

  • ghtwf01/excavator 基于mitmproxy的插件式被动安全漏洞扫描器

web shell、shellcode

  • web shell 使用PHP、Python、Ruby 等编程语言编写的恶意代码,可以上传到网站以访问存储在该网站上的文件。一旦它被上传,黑客可以利用它来编辑,删除或下载网站上的任何文件,或上传他们自己想要的文件或程式码。

  • shellcode是一段用于利用软件漏洞而执行的代码,shellcode为16进制之机械码,以其经常让攻击者获得shell而得名。shellcode常常使用机器语言编写,由于现代电脑系统基本上启用NX位元保护使得机械码无法直接执行,可透过返回导向编程编写shellcode。

  • WangYihang/Platypus 用 go 编写的现代多反向 shell 会话管理器

  • Idov31/FunctionStomping shellcode 注入技术。以 C++ 头文件、独立的 Rust 程序或库的形式给出。

  • czz1233/GBByPass 冰蝎 哥斯拉 WebShell bypass

  • Tas9er/ByPassBehinder4J 冰蝎Java WebShell自动化免杀生成

  • LandGrey/webshell-detect-bypass 绕过专业工具检测的Webshell研究文章和免杀的Webshell

  • HZzz2/go-shellcode-loader GO免杀shellcode加载器混淆AES加密

  • epinna/weevely3 为后期开发目的而设计的 web shell,可以在运行时通过网络进行扩展。将它上传到目标服务器以获取对其的远程 shell 访问。它有 30 多个模块来协助管理任务、维护访问、提供态势感知、提升权限以及传播到目标网络。

  • asta-mouse/Sherlock PowerShell 脚本,快速查找权限提升漏洞的缺失补丁。

  • FunnyWolf/pystinger 使用webshell进行流量转发的出网工具

  • Cracked5pider/ShellcodeTemplate Win x64/x86 的易于修改的 shellcode 模板

  • icyguider/Nimcrypt2 Nim 编写的 .NET、PE 和原始 Shellcode 打包程序/加载程序

  • hosch3n/msmap 一个Memory WebShell生成器。

  • tihanyin/PSSW100AVB 具有 100% AV 绕过功能的有用 Powershell 脚本。

  • bdamele/icmpsh 简单的反向 ICMP shell,win32 从站和一个 C、Perl 或 Python 中的 POSIX 兼容主站。它不需要管理权限即可在目标机器上运行。

  • JoelGMSec/PyShell 多平台 Python WebShell。此工具可帮助您在 Web 服务器上获得类似 shell 的界面以进行远程访问。

  • WhaleFell/CameraHack 批量扫描破解海康威视、大华等摄像头的常见漏洞。

  • LoRexxar/Kunlun-M 完全开源的静态白盒扫描工具,支持PHP、JavaScript的语义扫描,基础安全、组件安全扫描,Chrome Ext\Solidity的基础扫描。

  • wikiZ/ServerlessScan 云函数扫描器实现代码

  • hannob/snallygaster 用于扫描 HTTP 服务器上的机密文件的工具

  • michelin/ChopChop 帮助开发人员扫描端点并识别敏感服务/文件/文件夹的公开。

  • 1N3/Sn1per 自动侦察扫描程序,用于发现资产并用最新开源工具和技术扫描漏洞。

  • shadow1ng/fscan 一款内网综合扫描工具,方便一键自动化、全方位漏扫扫描。

  • 1n7erface/RequestTemplate 双语双端内网扫描以及验证工具

  • API-Security/APIKit 主动/被动扫描发现应用泄露的API文档,并将API文档解析成BurpSuite中的数据包用于API安全测试。

  • zan8in/afrog 性能卓越、快速稳定、PoC 可定制化的漏洞扫描工具

  • achuna33/MYExploit 基于产品的一键扫描工具。

  • ajinabraham/CMSScan CMS 扫描仪:扫描 Wordpress、Drupal、Joomla、vBulletin 网站以查找安全问题

  • dionach/CMSmap 开源 CMS 扫描程序,它可以自动检测最流行的 CMS 的安全漏洞。支持的 CMS 有 WordPress、Joomla、Drupal 和 Moodle。

  • 0e0w/PassivesScan 《被动扫描资源汇总》被动扫描一般是根据代理的流量中特定参数进行简单粗暴的发起请求。有些漏洞通过主动扫描很难发现,必须通过被动扫描实现。被动扫描结合爬虫技术往往是漏洞扫描的最优解。

  • chroblert/WindowsVulnScan 基于主机的漏洞扫描工具,采用多线程确保可以快速的请求数据,采用线程锁可以在向sqlite数据库中写入数据避免database is locked的错误,采用md5哈希算法确保数据不重复插入。

  • greenbone/openvas-scanner  Greenbone 社区版的扫描仪组件 一个功能齐全的扫描引擎,可执行持续更新和扩展的漏洞测试 (VT) 馈送。

  • [d3ckx1/Fvuln](https://github.com/d

About

精选了千余项目,包括机器学习、深度学习、NLP、GNN、推荐系统、生物医药、机器视觉等内容。

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published