Skip to content

广告检索引擎(针对在线广告设计,支持简单倒排检索、范围检索、LBS检索,持续完善中)

License

Notifications You must be signed in to change notification settings

ServiceFoundation/cloriSearch

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

English Version

cloriSearch

cloriSearch是一套检索引擎内核,致力于解决常规业务开发中的策略检索与在线广告匹配问题,为中小互联网公司商业变现提供一套开源的广告检索技术解决方案。

除了广告检索以外,cloriSearch也可以作为规则引擎,应用于基于内容的策略发布/订阅系统中(content-based publish/ subscribe systems,即根据输入参数调度执行相应的策略),比如一般业务系统中的ABtest、调度引擎、策略匹配等模块。

主要特性

cloriSearch目前支持简单倒排检索、范围检索(或者叫区间检索)、LBS检索等三种检索方式(基本能cover除搜索广告之外的其他广告定向条件),这三类检索方式的具体内涵是指

  • 简单倒排检索 - 最基础的检索方式,term的值是一个有限集合,比如 city ∈ {北京, 上海, 深圳},gender ∈ {male}或者device ∈ {iOS}
  • 范围检索 - 定向条件是一个数值区间(开/闭/半开半闭区间都支持),比如time ∈ [2018-12-01 00:00, 2018-12-20 00:00),age ∈ [18, 25],flow_index ∈ (20, 80]
  • LBS检索 - 基于地理位置(经纬度)的广告定向,比如检索出以某经纬度为圆心、某距离为半径圈定的圆形范围内的定投广告

设计思想

cloriSearch在设计与工程实现上参考了多个开源项目与相关论文,包括

  • Indexing Boolean Expressions - 斯坦福大学发表的布尔表达式检索论文,是cloriSearch所采用的核心广告检索算法
  • Lucene - 倒排检索的工程实现
  • Redis - LBS检索参考并引入了redis对geohash的实现
  • brpc - json与protobuf的互相转换
  • cloriSkip - 跳跃表实现

此外,还部分参考了大型互联网公司的广告检索技术实现,包括

实例

  • 1.定义索引结构

在使用cloriSearch之前,需要定义索引结构(具体proto定义参考src/proto/inverted_index.proto),比如要支持城市、性别、年龄、地理位置等四个定向维度的索引结构定义为

{
    "terms": [{
            "name": "city",
            "key_type": "string",
            "index_type": "simple"
        },
        {
            "name": "age",
            "key_type": "int32",
            "index_type": "interval"
        },
        {
            "name": "gender",
            "key_type": "string",
            "index_type": "simple"
        },
        {
            "name": "location",
            "key_type": "double",
            "index_type": "geo"
        }
    ]
}

可以根据业务需求随意增加定向维度。

  • 2.写入倒排数据

cloriSearch目前只支持析取范式格式的倒排写入(具体proto定义参考src/proto/inverted_index.proto),比如一条docid=1,定向北上广深、年龄在[18, 25]之间的女性用户投放的广告倒排描述为

// docid=1,定向北上广深、年龄在[18, 25]之间的女性用户
{
    "mode": "stanard",
    "docid": 1,
    "disjunctions": [{
        "conjunctions": [{
            "name": "city",
            "value": {
                "sval": ["beijing", "shanghai", "guangzhou", "shenzhen"]
            }
        }, {
            "name": "age",
            "value": {
                "int32_intvl": [{
                    "left": 18,
                    "right": 25,
                    "flag": 3
                }]
            }
        }, {
            "name": "gendor",
            "value": {
                "sval": ["female"]
            }
        }]
    }]
}

// docid=3, 定投国贸周边的男性用户
{
    "mode": "stanard",
    "docid": 3,
    "disjunctions": [{
        "conjunctions": [{
            "name": "location",
            "value": {
                "geo": {
                    "lon": 116.461805,
                    "lat": 39.909005
                }
            }
        }, {
            "name": "gender",
            "value": {
                "sval": ["male"]
            }
        }]
    }]
}
  1. 检索匹配的广告

比如要检索一位年龄在20岁、位于北京市经纬度坐标(116.400693, 39.907688)的女学生所命中的广告(LBS定向半径1km),其检索式为

Query query;
query["city"] = "beijing";
query["age"] = 20; 
query["gendor"] = "female";
query["is_student"] = true;
query["location"] = GeoRange(116.400693, 39.907688, 1000);

std::vector<int> res = sch->Search(query, 10);
for (auto &p : res) {                                                                                                                 
    std::cout << "docid=" << p << std::endl;
} 

具体代码实现可以参考src/example/tutorial_xxx.cc中的例子

安装

cloriSearch对protobuf有依赖,在安装cloriSearch之前,必须先安装protobuf,之后你可以按照以下方式安装

mkdir build && cd build
cmake ..
make
sudo make install

同时cloriSearch的数据持久化功能默认是关闭的,如果有数据持久化需求,你需要先安装leveldb,然后执行

mkdir build && cd build
cmake .. -DENABLE_PERSIST=1
make
sudo make install

也可以直接拷贝代码到你的项目中并加以改进,以适配你的业务需求。

待完成列表

cloriSearch目前只支持全量索引与倒排检索,正排索引、增量索引、广告Rank与过滤等功能尚在开发中,另外程序性能、对外接口等还有待斟酌,将在后续优化改进。

作者

返回顶部

About

广告检索引擎(针对在线广告设计,支持简单倒排检索、范围检索、LBS检索,持续完善中)

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • C++ 92.3%
  • C 4.4%
  • CMake 3.3%