常春岛资源网 Design By www.syssdc.com
Usuage:
go run kNN.go --file="data.txt"
关键是向量点的选择和阈值的判定
样本数据来自国家新闻出版总署发布通知公布的《40部淫秽色情网络小说名单》
package main
import (
"bufio"
"flag"
"fmt"
"io"
"log"
"math"
"os"
"path"
"path/filepath"
)
var debug bool = false
var data_dir string = "./moyan" //文件存放目录
var limen float64 = 0.1159203888322267 //阈值
const (
MIN_HANZI rune = 0x3400
MAX_HANZI rune = 0x9fbb
)
var labels []rune = []rune{
0x817f, 0x80f8, 0x4e73, 0x81c0,
0x5c41, 0x80a1, 0x88f8, 0x6deb,
}
func errHandle(err error) {
if err != nil {
log.Fatal(err)
}
}
func load(name string) (m map[rune]int, err error) {
f, err := os.Open(name)
if err != nil {
return nil, err
}
defer f.Close()
buf := bufio.NewReader(f)
m = make(map[rune]int)
var r rune
for {
r, _, err = buf.ReadRune()
if err != nil {
if err == io.EOF {
break
}
return nil, err
}
if r >= MIN_HANZI && r <= MAX_HANZI {
m[r] += 1
}
}
return m, nil
}
func classify(m map[rune]int) (idv []float64, dis float64) {
len_m := len(m)
for i, v := range labels {
if debug {
fmt.Println(i, m[v], string(v), float64(m[v])/float64(len_m))
}
idv = append(idv, float64(m[v])/float64(len_m))
}
for _, v := range idv {
dis += math.Pow(v, 2)
}
dis = math.Sqrt(dis)
return
}
func check(fp string, dis float64) {
switch {
case dis >= limen:
fmt.Println(fp, dis, "涉黄")
case dis == 1.0:
fmt.Println(fp, dis, "你在作弊吗")
case dis == 0:
fmt.Println(fp, dis, "检查一下文件字符编码是不是utf8格式吧")
default:
fmt.Println(fp, dis, "正常")
}
}
func walkFunc(fp string, info os.FileInfo, err error) error {
if path.Ext(fp) == ".txt" {
m, err := load(fp)
errHandle(err)
_, dis := classify(m)
check(fp, dis)
}
return err
}
var file string
func init() {
_, err := os.Stat(data_dir)
if err != nil {
err = os.Mkdir(data_dir, os.ModePerm)
errHandle(err)
}
flag.StringVar(&file, "file", "", "file read in,if you don't give the file read in,"+
"it will create a data dictionary,just pust your files in it")
}
func main() {
flag.Parse()
if file == "" {
filepath.Walk(data_dir, walkFunc)
return
}
m, err := load(file)
errHandle(err)
_, dis := classify(m)
check(file, dis)
}
以上所述就是本文的全部内容了,希望大家能够喜欢。
标签:
GO语言,K近邻算法
常春岛资源网 Design By www.syssdc.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
常春岛资源网 Design By www.syssdc.com
暂无评论...
《魔兽世界》大逃杀!60人新游玩模式《强袭风暴》3月21日上线
暴雪近日发布了《魔兽世界》10.2.6 更新内容,新游玩模式《强袭风暴》即将于3月21 日在亚服上线,届时玩家将前往阿拉希高地展开一场 60 人大逃杀对战。
艾泽拉斯的冒险者已经征服了艾泽拉斯的大地及遥远的彼岸。他们在对抗世界上最致命的敌人时展现出过人的手腕,并且成功阻止终结宇宙等级的威胁。当他们在为即将于《魔兽世界》资料片《地心之战》中来袭的萨拉塔斯势力做战斗准备时,他们还需要在熟悉的阿拉希高地面对一个全新的敌人──那就是彼此。在《巨龙崛起》10.2.6 更新的《强袭风暴》中,玩家将会进入一个全新的海盗主题大逃杀式限时活动,其中包含极高的风险和史诗级的奖励。
《强袭风暴》不是普通的战场,作为一个独立于主游戏之外的活动,玩家可以用大逃杀的风格来体验《魔兽世界》,不分职业、不分装备(除了你在赛局中捡到的),光是技巧和战略的强弱之分就能决定出谁才是能坚持到最后的赢家。本次活动将会开放单人和双人模式,玩家在加入海盗主题的预赛大厅区域前,可以从强袭风暴角色画面新增好友。游玩游戏将可以累计名望轨迹,《巨龙崛起》和《魔兽世界:巫妖王之怒 经典版》的玩家都可以获得奖励。
更新日志
2025年11月02日
2025年11月02日
- 小骆驼-《草原狼2(蓝光CD)》[原抓WAV+CUE]
- 群星《欢迎来到我身边 电影原声专辑》[320K/MP3][105.02MB]
- 群星《欢迎来到我身边 电影原声专辑》[FLAC/分轨][480.9MB]
- 雷婷《梦里蓝天HQⅡ》 2023头版限量编号低速原抓[WAV+CUE][463M]
- 群星《2024好听新歌42》AI调整音效【WAV分轨】
- 王思雨-《思念陪着鸿雁飞》WAV
- 王思雨《喜马拉雅HQ》头版限量编号[WAV+CUE]
- 李健《无时无刻》[WAV+CUE][590M]
- 陈奕迅《酝酿》[WAV分轨][502M]
- 卓依婷《化蝶》2CD[WAV+CUE][1.1G]
- 群星《吉他王(黑胶CD)》[WAV+CUE]
- 齐秦《穿乐(穿越)》[WAV+CUE]
- 发烧珍品《数位CD音响测试-动向效果(九)》【WAV+CUE】
- 邝美云《邝美云精装歌集》[DSF][1.6G]
- 吕方《爱一回伤一回》[WAV+CUE][454M]