受生物(wù)界启发!IBM发明了一种比以往更快、更安全的新(xīn)哈希算法BioHash

2020/07/02      2422 文(wén)章来源:前瞻网 原作者:Winnie Lee

这种新(xīn)算法应用(yòng)“局部”和“生物(wù)學(xué)上合理(lǐ)的”突触可(kě)塑性规则来生成哈希码。

研究人员们表示,它比之前发布的各种哈希方法的基准测试都要好,而且它可(kě)以生成对相似度搜索有(yǒu)用(yòng)的二进制表示。

在一份预印版的论文(wén)中,研究人员详细解释了他(tā)们的工作,这种被称為(wèi)扩展表征的现象在神经生物(wù)學(xué)中几乎无处不在。“扩展”是指将高维输入数据映射到甚至更高维的辅助表示。

例如,在上面提到的果蝇嗅觉系统中,大约有(yǒu)50个神经元将它们的活动发送到大约2500个叫做Kenyon 的细胞中,实现了大约50倍的扩展。

从计算的角度来看,扩展可(kě)以增加AI模型的内存存储容量。正是基于这种动机,该团队设计了散列算法BioHash,可(kě)用(yòng)于相似度搜索。

在相似度搜索中,给定一个查询、一个相似度度量和一个包含任意数量项的数据库,目标是从数据库中检索与查询最相似的项的排序列表。

更多(duō)的优势

随着技术发展,传统的单因素身份验证(仅基于密码、令牌或生物(wù)识别方法)似乎不足以应对身份欺诈的挑战。唯一的生物(wù)统计學(xué)方法遇到了隐私侵犯和不可(kě)撤销的问题,而密码和令牌则很(hěn)容易忘记和丢失。

為(wèi)了解决这些问题,人们引入了可(kě)取消生物(wù)特征识别的概念来表示生物(wù)特征模板。这就是说,生物(wù)特征可(kě)以被取消并替换為(wèi)包含另一个独立的身份验证因子。

生物(wù)散列就是一种可(kě)取消的生物(wù)特征识别技术,它混合了一组用(yòng)户特定的随机向量和生物(wù)特征。

BioHash是一种结合标记随机数和生物(wù)特征识别的技术。BioHash是一个随机投影的集合,它在保持类内变化的同时增强类间变化,因此,当使用(yòng)合法的令牌或生物(wù)特征数据被窃取时,它能(néng)够实现零误差率。

在验证设置中,当使用(yòng)真正的令牌时,BioHash能(néng)够提供比单一生物(wù)统计方法低得多(duō)的错误率,同时解决了传统生物(wù)特征识别技术存在的不可(kě)撤销性和隐私侵犯问题。

传统算法的另一个问题是,当数据是高维的(例如图像或文(wén)档),而数据库很(hěn)大(以百万或数十亿计的条目為(wèi)单位),这在计算上具有(yǒu)挑战性。

BioHash速度更快,可(kě)扩展性更强。该系统以其不可(kě)变的特性被广泛应用(yòng)于各种安全系统中。

研究人员在MNIST和CIFAR-10上对Biohash进行了培训和测试。MNIST是一组包含7万张灰度图像的手写数字,其中10类数字从“0”到“9”不等,CIFAR-10是一个包含6万张来自10种类图片(如“car”、“bird”)的数据集。

MNIST 数据集来自美國(guó)國(guó)家标准与技术研究所, National Institute of Standards and Technology (NIST). 训练集 (training set) 由来自 250 个不同人手写的数字构成, 其中 50%是高中學(xué)生, 50%来自人口普查局(the Census Bureau)的工作人员. 测试集(test set) 也是同样比例的手写数字数据。

CIFAR-10与之类似,只不过把数字换成了图像。10类图片各自独立,不会出现重叠。这两类都是非常经典的常用(yòng)于算法训练的数据集,提供公开下载。

经过数据库的“检验”后,研究人员表示,BioHash在速度方面表现出了最好的检索性能(néng),遠(yuǎn)遠(yuǎn)超过了其他(tā)方法,而BioHash的改进版本——BioConvHash——由于加入了专门构建的过滤器,性能(néng)甚至更好。

人脑与人工智能(néng)

由于人脑的學(xué)习、认知等能(néng)力遠(yuǎn)超目前的计算机,许多(duō)研究都正致力于让计算机更加靠近人脑性能(néng),这其中就包括从结构、运行方式等各方面模拟人脑。

而人的神经生物(wù)學(xué)和机器學(xué)习领域也是密切相关。目前火热的神经网络技术的诞生就是受到人脑神经元的启发。

百度大脑就用(yòng)计算机技术模拟人脑神经网络,包括模拟人脑學(xué)习分(fēn)析能(néng)力,从而通过多(duō)层的學(xué)习模型和海量的训练数据进行数据智能(néng)分(fēn)析,然后做出预测。

谷歌母公司Alphabet旗下的DeepMind本月早些时候也发表了一篇论文(wén),研究大脑是否以概率分(fēn)布(一种提供不同结果发生概率的数學(xué)函数)而非单一平均值来代表未来可(kě)能(néng)的奖励。

谷歌和马克斯·普朗克神经生物(wù)學(xué)研究所的科(kē)學(xué)家最近也展示了一种递归神经网络——一种经常用(yòng)于手写和语音识别的机器學(xué)习算法——它可(kě)以映射大脑的神经元。

马斯克的想法则更加疯狂——开发脑机交互技术,直接将机器植入人类脑部。

不管怎样,“人工智能(néng)”终究离不开“人工”二字。通过學(xué)习人类自身,或许有(yǒu)一天人工智能(néng)真能(néng)发展到与人类相媲美的地步。