脚本之家,脚本语言编程技术及教程分享平台!
分类导航

Python|VBS|Ruby|Lua|perl|VBA|Golang|PowerShell|Erlang|autoit|Dos|bat|

服务器之家 - 脚本之家 - Python - 论文查重python文本相似性计算simhash源码

论文查重python文本相似性计算simhash源码

2022-09-20 18:00别None了 Python

这篇文章主要为大家介绍了python文本相似性计算simhash源码来实现论文的查重,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步

场景:

1.计算SimHash值,及Hamming距离。
2.SimHash适用于较长文本(大于三五百字)的相似性比较,文本越短误判率越高。

Python实现:

代码如下

?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
# -*- encoding:utf-8 -*-
import math
import jieba
import jieba.analyse
class SimHash(object):
    def getBinStr(self, source):
        if source == "":
            return 0
        else:
            x = ord(source[0]) << 7
            m = 1000003
            mask = 2 ** 128 - 1
            for c in source:
                x = ((x * m) ^ ord(c)) & mask
            x ^= len(source)
            if x == -1:
                x = -2
            x = bin(x).replace('0b', '').zfill(64)[-64:]
            return str(x)
    def getWeight(self, source):
        return ord(source)
    def unwrap_weight(self, arr):
        ret = ""
        for item in arr:
            tmp = 0
            if int(item) > 0:
                tmp = 1
            ret += str(tmp)
        return ret
    def sim_hash(self, rawstr):
        seg = jieba.cut(rawstr)
        keywords = jieba.analyse.extract_tags("|".join(seg), topK=100, withWeight=True)
        ret = []
        for keyword, weight in keywords:
            binstr = self.getBinStr(keyword)
            keylist = []
            for c in binstr:
                weight = math.ceil(weight)
                if c == "1":
                    keylist.append(int(weight))
                else:
                    keylist.append(-int(weight))
            ret.append(keylist)
        # 降维
        rows = len(ret)
        cols = len(ret[0])
        result = []
        for i in range(cols):
            tmp = 0
            for j in range(rows):
                tmp += int(ret[j][i])
            if tmp > 0:
                tmp = "1"
            elif tmp <= 0:
                tmp = "0"
            result.append(tmp)
        return "".join(result)
    def distince(self, hashstr1, hashstr2):
        length = 0
        for index, char in enumerate(hashstr1):
            if char == hashstr2[index]:
                continue
            else:
                length += 1
        return length
if __name__ == "__main__":
    simhash = SimHash()
    str1 = '咱哥俩谁跟谁啊'
    str2 = '咱们俩谁跟谁啊'
    hash1 = simhash.sim_hash(str1)
    print(hash1)
    hash2 = simhash.sim_hash(str2)
    distince = simhash.distince(hash1, hash2)
    value = 5
    print("simhash", distince, "距离:", value, "是否相似:", distince<=value)

以上就是论文查重python文本相似性计算simhash源码的详细内容,更多关于python文本相似性计算simhash的资料请关注服务器之家其它相关文章!

原文链接:https://coderl.blog.csdn.net/article/details/122740744

延伸 · 阅读

精彩推荐
  • Pythonpython简单判断序列是否为空的方法

    python简单判断序列是否为空的方法

    这篇文章主要介绍了python简单判断序列是否为空的方法,可通过if语句实现简单的判断功能,需要的朋友可以参考下...

    mingaixin4182020-07-18
  • Pythonpython中函数默认值使用注意点详解

    python中函数默认值使用注意点详解

    下面小编就为大家带来一篇python中函数默认值使用注意点详解。小编觉得挺不错的,现在就分享给大家,也给大家做个参考。一起跟随小编过来看看吧...

    Python教程网3352020-08-24
  • PythonPython3如何使用多线程提升程序运行速度

    Python3如何使用多线程提升程序运行速度

    这篇文章主要介绍了Python3如何使用多线程提升程序运行速度,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋...

    天外归云6292020-08-11
  • PythonPython实战小项目之身份证信息校验

    Python实战小项目之身份证信息校验

    读万卷书不如行万里路,只学书上的理论是远远不够的,只有在实战中才能获得能力的提升,本篇文章手把手带你用Python做一个身份证信息校验的小项目...

    同心圆计算9412022-02-13
  • Pythonpython检测是文件还是目录的方法

    python检测是文件还是目录的方法

    这篇文章主要介绍了python检测是文件还是目录的方法,涉及Python针对文件及目录的检测技巧,需要的朋友可以参考下 ...

    Python教程网2772020-07-19
  • Python使用Node.js和Socket.IO扩展Django的实时处理功能

    使用Node.js和Socket.IO扩展Django的实时处理功能

    这篇文章主要介绍了使用Node.js和Socket.IO扩展Django的实时处理功能,用异步处理实时功能是相当强大的,文中给出的例子是建立一个实时聊天室,需要的朋友可以...

    脚本之家3382020-06-09
  • PythonPython光学仿真学习处理高斯光束分布图像

    Python光学仿真学习处理高斯光束分布图像

    这篇文章主要为大家介绍了Python光学仿真学习之如何处理高斯光束的分布图像,有需要的朋友可以借鉴参考下,希望能够有所帮助,祝大家多多进步...

    微小冷9452022-02-12
  • Python提高Python代码可读性的5个技巧分享

    提高Python代码可读性的5个技巧分享

    Python 中有许多方法可以帮助我们理解代码的内部工作原理,良好的编程习惯,可以使我们的工作事半功倍!本文为大家总结了五个技巧,希望有所帮助...

    zhouluobo8062022-08-24