Azərbaycanca AzərbaycancaDeutsch DeutschLietuvos Lietuvosසිංහල සිංහලTürkçe TürkçeУкраїнська Українська
Dəstək
www.wikimedia.az-az.nina.az
  • Vikipediya

SimHash Kompüter elmlərində xüsusilə mətn üzərində olan əməliyyatların sıx olduğu axtarış mühərriki kimi tətbiqlərdə fay

SimHash

SimHash
www.wikimedia.az-az.nina.azhttps://www.wikimedia.az-az.nina.az

SimHash — Kompüter elmlərində, xüsusilə mətn üzərində olan əməliyyatların sıx olduğu, axtarış mühərriki kimi tətbiqlərdə faylların və ya veb saytlarının bir-birinə olan bənzərliyini tapmaq üçün istifadə edilən alqoritmdir.

Alqoritmə alternativ olaraq klassik hash funksiyaları istifadə edilə bilər. Məsələn iki veb səhifənin ayrı-ayrı hash qiymətləri alınıb bu dəyərləri müqayisə etmək mümkündür. Ancaq simhash alqoritmi, bu üsula görə daha çox sürət və performans təqdim edir.

SimHash alqoritmi, iki faylı bir vektor olaraq görür və bu vektorlar arasındakı kosinusu tapır.

image

Yuxarıdakı şəkildən də görsəndiyi kimi ayrı-ayrı iki sənədin xüsusi vektor olması vəziyyətində, aralarında cos (x) olaraq göstərilən bir bucaq ilə əlaqə qurulması mümkündür.

Alqoritm, əvvəlcə işlədiyi mətndəki sözlərin ağırlıqlarını (weight) çıxarır və buna görə də sözləri sıralayır.

Sıralanan hər sözə, b uzunluğunda, yeganə (unique) qiymət qaytaran funksiya istifadə olunur. Məsələn hər söz üçün fərqli bir hash qiyməti qaytaran funksiya istifadə edilə bilər.

b ölçüsündəki bir vektorun ağırlıq dəyəri hesablanarkən, hər sözdəki 1 qiyməti üçün +1 və 0 qiyməti üçün -1 dəyəri əlavə olunur.

Son olaraq çıxarılan ağırlıq vektorundakı + dəyərlər 1, 0 və - dəyərlər isə 0 olaraq çevrilir.

Məsələn bir nümünə üzrə izah edək.

“code org code yazmaq saytıdır”

Yuxarıdakı mətni alqoritm üzrə işləyək. İlk olaraq hər bir sözün ağırlıq dərəcəsini hesablayırıq.

Code 2, org 1, yazmaq 1, saytıdır 1

İndi hər bir söz üçün barmaq izi (fingeprint) yaradırıq. Barmaq izləri yalnız bir sözə məxsus olur. Bu qiymət Hash funksiyalarından yaradılır. Biz sadəlik olsun deyə təsadüfi qiymətlər verəcəyik, amma real tətbiqlərdə təsadüfi ədələrdən istifadə oluna bilməz.

image

Indi bu ədədləri toplayaq:

image
Simhash Cəm

Alınan nəticəni ikilik koda çevirik və bu bizim simhash qiymətimiz olur.

1 0 0 1 0 0 1 0

Fərz edək ki, başqa bir mətn üzərində də eyni bir əməliyyatı aparmışıq və nəticə olaraq

1 1 0 1 1 1 0 1

qiyməti almışıq.

Sonda biz hər iki qiyməti bir-biri ilə müqayisə edirik.

image
Simhash fərqlər

Bu iki simhash qiyməti arasındakı bit fərqi 4-ə bərabərdir. Bu o deməkdir ikinci hash qiymətini çıxardığımız mətn birinci mətnə (“code org code yazmaq saytıdır”) 4 məsafəsində yaxındır.

wikipedia, oxu, kitab, kitabxana, axtar, tap, meqaleler, kitablar, oyrenmek, wiki, bilgi, tarix, tarixi, endir, indir, yukle, izlə, izle, mobil, telefon ucun, azeri, azəri, azerbaycanca, azərbaycanca, sayt, yüklə, pulsuz, pulsuz yüklə, haqqında, haqqinda, məlumat, melumat, mp3, video, mp4, 3gp, jpg, jpeg, gif, png, şəkil, muisiqi, mahnı, kino, film, kitab, oyun, oyunlar, android, ios, apple, samsung, iphone, pc, xiomi, xiaomi, redmi, honor, oppo, nokia, sonya, mi, web, computer, komputer

SimHash Komputer elmlerinde xususile metn uzerinde olan emeliyyatlarin six oldugu axtaris muherriki kimi tetbiqlerde fayllarin ve ya veb saytlarinin bir birine olan benzerliyini tapmaq ucun istifade edilen alqoritmdir Alqoritme alternativ olaraq klassik hash funksiyalari istifade edile biler Meselen iki veb sehifenin ayri ayri hash qiymetleri alinib bu deyerleri muqayise etmek mumkundur Ancaq simhash alqoritmi bu usula gore daha cox suret ve performans teqdim edir SimHash alqoritmi iki fayli bir vektor olaraq gorur ve bu vektorlar arasindaki kosinusu tapir Yuxaridaki sekilden de gorsendiyi kimi ayri ayri iki senedin xususi vektor olmasi veziyyetinde aralarinda cos x olaraq gosterilen bir bucaq ile elaqe qurulmasi mumkundur Alqoritm evvelce islediyi metndeki sozlerin agirliqlarini weight cixarir ve buna gore de sozleri siralayir Siralanan her soze b uzunlugunda yegane unique qiymet qaytaran funksiya istifade olunur Meselen her soz ucun ferqli bir hash qiymeti qaytaran funksiya istifade edile biler b olcusundeki bir vektorun agirliq deyeri hesablanarken her sozdeki 1 qiymeti ucun 1 ve 0 qiymeti ucun 1 deyeri elave olunur Son olaraq cixarilan agirliq vektorundaki deyerler 1 0 ve deyerler ise 0 olaraq cevrilir Meselen bir numune uzre izah edek code org code yazmaq saytidir Yuxaridaki metni alqoritm uzre isleyek Ilk olaraq her bir sozun agirliq derecesini hesablayiriq Code 2 org 1 yazmaq 1 saytidir 1 Indi her bir soz ucun barmaq izi fingeprint yaradiriq Barmaq izleri yalniz bir soze mexsus olur Bu qiymet Hash funksiyalarindan yaradilir Biz sadelik olsun deye tesadufi qiymetler vereceyik amma real tetbiqlerde tesadufi edelerden istifade oluna bilmez Indi bu ededleri toplayaq Simhash Cem Alinan neticeni ikilik koda cevirik ve bu bizim simhash qiymetimiz olur 1 0 0 1 0 0 1 0 Ferz edek ki basqa bir metn uzerinde de eyni bir emeliyyati aparmisiq ve netice olaraq 1 1 0 1 1 1 0 1 qiymeti almisiq Sonda biz her iki qiymeti bir biri ile muqayise edirik Simhash ferqler Bu iki simhash qiymeti arasindaki bit ferqi 4 e beraberdir Bu o demekdir ikinci hash qiymetini cixardigimiz metn birinci metne code org code yazmaq saytidir 4 mesafesinde yaxindir

Nəşr tarixi: İyun 24, 2024, 10:51 am
Ən çox oxunan
  • İyul 15, 2025

    Monteneqro Milli Birləşmə Komitəsi

  • İyul 14, 2025

    Olesunn FK

  • İyul 16, 2025

    Onikinöqtəli vibidiya

  • İyul 12, 2025

    Jupan

  • İyul 16, 2025

    Jemina

Gündəlik
  • Azərbaycan 2024 Yay Olimpiya Oyunlarında

  • Roman Starovoyt

  • Takahiro Şiraişi

  • Elxanilər dövləti

  • Xristianlar

  • İsveç–Şimali Koreya münasibətləri

  • Bakı

  • ABŞ

  • Mənim mübarizəm

  • 17 iyul

NiNa.Az - Studiya

  • Vikipediya

Bülletendə Qeydiyyat

E-poçt siyahımıza abunə olmaqla siz həmişə bizdən ən son xəbərləri alacaqsınız.
Əlaqədə olmaq
Bizimlə əlaqə
DMCA Sitemap Feeds
© 2019 nina.az - Bütün hüquqlar qorunur.
Müəllif hüququ: Dadaş Mammedov
Yuxarı